Sketch-Based multimodal image retrieval using deep learning

The constant growth of multimedia data generated every day makes it increasingly difficult to retrieve it. Google is known to do a good job of retrieving documents by searching for keyword matches. However, multimedia data hardly contain keywords that identify them. The main objective of this work i...

ver descrição completa

Autor principal: Berno, Brenda Cinthya Solari
Formato: Dissertação
Idioma: Inglês
Publicado em: Universidade Tecnológica Federal do Paraná 2021
Assuntos:
Acesso em linha: http://repositorio.utfpr.edu.br/jspui/handle/1/25496
Tags: Adicionar Tag
Sem tags, seja o primeiro a adicionar uma tag!
id riut-1-25496
recordtype dspace
spelling riut-1-254962021-07-06T06:04:29Z Sketch-Based multimodal image retrieval using deep learning Recuperação de imagem multimodal baseada em esboço usando deep learning Berno, Brenda Cinthya Solari Lopes, Heitor Silverio https://orcid.org/0000-0003-3984-1432 http://lattes.cnpq.br/4045818083957064 Gabardo, Ademir Cristiano http://lattes.cnpq.br/9872210667199371 Lopes, Heitor Silverio https://orcid.org/0000-0003-3984-1432 http://lattes.cnpq.br/4045818083957064 Dorini, Leyza Elmeri Baldo https://orcid.org/0000-0002-0483-3435 http://lattes.cnpq.br/5726947194230379 Ribeiro, Manasses https://orcid.org/0000-0002-7526-5092 http://lattes.cnpq.br/6475893755893056 Sistemas multimídia Recuperação de dados (Computação) Sistemas de recuperação da informação Redes neurais (Computação) Visão Computacional Aprendizado do computador Tatuagem - Imagem Multimedia systems Data recovery (Computer science) Information storage and retrieval systems Neural networks (Computer science) Computer vision Machine learning Tattooing - Imaging CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Engenharia Elétrica The constant growth of multimedia data generated every day makes it increasingly difficult to retrieve it. Google is known to do a good job of retrieving documents by searching for keyword matches. However, multimedia data hardly contain keywords that identify them. The main objective of this work is to retrieve a photographic image using another modality different from that of the photograph, such as a sketch. A sketch is different from the image since it is a set of hand-drawn lines and colors and texture is lost, when compared with a photograph that is a more complex visual representation representing the real world. The selected study case for this method is tattoo photograph retrieval using sketches. Due to the lack of appropriate data for this study, a new dataset of sketches and tattoo images was created. The proposed model consists of a Siamese neural network that receives as input visual features previously extracted from each modality to learn an optimal representation for photographs and sketches within an embedded space, where the image of a class is close to the sketch of the same class. Two cost functions were tested, and experiments showed that the contrastive loss function achieved better results than the triplet loss function in the retrieval of images. Despite having limited data, in the image retrieval experiments the average precision achieved 85% precision for our dataset at top-5 results and 85% precision for Sketchy at top-10 results. We observed that retrieval results depend on the quality and diversity of the data used for training, especially in sketch-based image retrieval, which, in turn, depends on the user’s ability to draw. Overall, the proposed methods are promising and results encourage further research. Future works include the extension of the dataset (both tattoo images and sketches) and, also, experiments with other modalities. O crescimento constante dos dados multimídia gerados todos os dias torna cada vez mais difícil recuperá-los. O Google é conhecido por fazer um bom trabalho de recuperação de documentos pesquisando correspondências de palavras-chave. No entanto, os dados multimídia dificilmente contêm palavras-chave que os identificam. O objetivo principal deste trabalho é recuperar uma imagem fotográfica usando outra modalidade diferente da foto, tal como um esboço. Um esboço é diferente de uma foto pois é um conjunto de linhas desenhadas a mão, e cores e textura são perdidos, quando comparado com uma foto que é uma representação visual mais complexa representando o mundo real. O estudo de caso para o método proposto é a recuperação de fotos de tatuagens com base em esboços. Devido à falta de dados adequados para este estudo, foi criado um novo conjunto de dados de esboços e imagens de tatuagens. O modelo proposto consiste de uma rede neural siamesa que recebe como entrada características visuais, previamente extraídas de cada modalidade, para aprender uma representação ótima para fotos e esboços dentro de um espaço incorporado, onde a imagem de uma classe está próxima ao esboço da mesma classe. Duas funções de custo foram testadas, e os experimentos mostraram que, para a recuperação de imagens, a função de perda de contraste obteve melhores resultados do que a função de perda tripla. Embora a quantidade de dados fosse limitada, nos experimentos de recuperação de imagens foi alcançada a precisão de 85% para nosso conjunto de dados no top-5 e 85% para Sketchy no top-10. Foi observado que os resultados da recuperação dependem muito da qualidade e diversidade dos dados usados para treinamento da rede, especialmente a respeito da recuperação baseada em esboços, a qual, por sua vez, depende da habilidade de desenhar do usuário. De maneira geral, os métodos propostos são promissores para o problema, e os resultados encorajam a continuidade da pesquisa. Trabalhos futuros incluirão a extensão do conjunto de dados proposto (imagens de tatuagens e esboços) e, também, experimentos com outras modalidades. 2021-07-06T00:35:41Z 2021-07-06T00:35:41Z 2021-05-21 masterThesis BERNO, Brenda Cinthya Solari. Sketch-Based multimodal image retrieval using deep learning. 2021. Dissertação (Mestrado em Engenharia Elétrica e Informática Industrial) - Universidade Tecnológica Federal do Paraná, Curitiba, 2021. http://repositorio.utfpr.edu.br/jspui/handle/1/25496 eng openAccess http://creativecommons.org/licenses/by/4.0/ application/pdf Universidade Tecnológica Federal do Paraná Curitiba Brasil Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial UTFPR
institution Universidade Tecnológica Federal do Paraná
collection RIUT
language Inglês
topic Sistemas multimídia
Recuperação de dados (Computação)
Sistemas de recuperação da informação
Redes neurais (Computação)
Visão Computacional
Aprendizado do computador
Tatuagem - Imagem
Multimedia systems
Data recovery (Computer science)
Information storage and retrieval systems
Neural networks (Computer science)
Computer vision
Machine learning
Tattooing - Imaging
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Engenharia Elétrica
spellingShingle Sistemas multimídia
Recuperação de dados (Computação)
Sistemas de recuperação da informação
Redes neurais (Computação)
Visão Computacional
Aprendizado do computador
Tatuagem - Imagem
Multimedia systems
Data recovery (Computer science)
Information storage and retrieval systems
Neural networks (Computer science)
Computer vision
Machine learning
Tattooing - Imaging
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Engenharia Elétrica
Berno, Brenda Cinthya Solari
Sketch-Based multimodal image retrieval using deep learning
description The constant growth of multimedia data generated every day makes it increasingly difficult to retrieve it. Google is known to do a good job of retrieving documents by searching for keyword matches. However, multimedia data hardly contain keywords that identify them. The main objective of this work is to retrieve a photographic image using another modality different from that of the photograph, such as a sketch. A sketch is different from the image since it is a set of hand-drawn lines and colors and texture is lost, when compared with a photograph that is a more complex visual representation representing the real world. The selected study case for this method is tattoo photograph retrieval using sketches. Due to the lack of appropriate data for this study, a new dataset of sketches and tattoo images was created. The proposed model consists of a Siamese neural network that receives as input visual features previously extracted from each modality to learn an optimal representation for photographs and sketches within an embedded space, where the image of a class is close to the sketch of the same class. Two cost functions were tested, and experiments showed that the contrastive loss function achieved better results than the triplet loss function in the retrieval of images. Despite having limited data, in the image retrieval experiments the average precision achieved 85% precision for our dataset at top-5 results and 85% precision for Sketchy at top-10 results. We observed that retrieval results depend on the quality and diversity of the data used for training, especially in sketch-based image retrieval, which, in turn, depends on the user’s ability to draw. Overall, the proposed methods are promising and results encourage further research. Future works include the extension of the dataset (both tattoo images and sketches) and, also, experiments with other modalities.
format Dissertação
author Berno, Brenda Cinthya Solari
author_sort Berno, Brenda Cinthya Solari
title Sketch-Based multimodal image retrieval using deep learning
title_short Sketch-Based multimodal image retrieval using deep learning
title_full Sketch-Based multimodal image retrieval using deep learning
title_fullStr Sketch-Based multimodal image retrieval using deep learning
title_full_unstemmed Sketch-Based multimodal image retrieval using deep learning
title_sort sketch-based multimodal image retrieval using deep learning
publisher Universidade Tecnológica Federal do Paraná
publishDate 2021
citation BERNO, Brenda Cinthya Solari. Sketch-Based multimodal image retrieval using deep learning. 2021. Dissertação (Mestrado em Engenharia Elétrica e Informática Industrial) - Universidade Tecnológica Federal do Paraná, Curitiba, 2021.
url http://repositorio.utfpr.edu.br/jspui/handle/1/25496
_version_ 1805313686069313536
score 10,814766