Identificação e verificação de locutores em português e inglês utilizando transfer learning

Speech is one of the biometric modalities that can be used to recognize an individual. Thus, speaker identification systems have applicability in authentication problems, such as automatic surveillance and forensic activities. This recognition process is divided into speaker identification and verif...

ver descrição completa

Autor principal: Souza, Michel Gomes de
Formato: Trabalho de Conclusão de Curso (Graduação)
Idioma: Português
Publicado em: Universidade Tecnológica Federal do Paraná 2023
Assuntos:
Acesso em linha: http://repositorio.utfpr.edu.br/jspui/handle/1/30727
Tags: Adicionar Tag
Sem tags, seja o primeiro a adicionar uma tag!
id riut-1-30727
recordtype dspace
spelling riut-1-307272023-03-07T06:07:22Z Identificação e verificação de locutores em português e inglês utilizando transfer learning Identification and verification of speakers in portuguese and english using transfer learning Souza, Michel Gomes de Foleiss, Juliano Henrique Gonçalves, Diego Bertolini Hübner, Rodrigo Campiolo, Rodrigo Foleiss, Juliano Henrique Aprendizado do computador Reconhecimento automático da voz Processamento de sinais Machine learning Automatic speech recognition Signal processing CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Speech is one of the biometric modalities that can be used to recognize an individual. Thus, speaker identification systems have applicability in authentication problems, such as automatic surveillance and forensic activities. This recognition process is divided into speaker identification and verification. Most databases for automatic speaker recognition are in foreign languages, such as voxCeleb and Common Voice. Therefore, it was selected a database with Brazilian speakers, the Brazilian Speech Database. This is the first work to use this base, applying methods of identification and verification of speakers to evaluate the characteristics extracted by transfer learning from this dataset. Subsequently, a Common Voice subset was subjected to the same methods in order to compare the data. The best result for the identification task for the Brazilian database was 0.70 ± 0.10 with 10 patches using the early fusion method with the handcrafted characteristics. As for the English database, it was 0.68 ± 0.05 with 10 patches using early fusion of all extractors of the transfer learning method. For the verification problem, Brazilian Speech Database got a rate of 0.97 ± 0.00 using 10 patches with MobileNet, and Common Voice got a rate of 0.98 ± 0.00 with 10 patches for all descriptors applied. It was highlighted that the complementarity of features made with early fusion helped to obtain better results in some cases. The use of feature extraction techniques applying transfer learning, despite being more robust and sophisticated, presented a result statistically equal to the handcrafted techniques. One factor that may have influenced the experiments is that the Brazilian Speech Database is a text-dependent database, while Common Voice is a non-text-dependent database. A fala é uma das modalidades biométricas que pode ser usada para reconhecer um indivíduo. Assim, sistemas de identificação de locutores possuem aplicabilidades em problemas de autenticação, como vigilância automática e atividades forenses. Esse processo de reconhecimento é dividido em identificação e verificação do locutor. A maioria das bases de dados destinadas ao reconhecimento automático de locutores se encontram em idioma estrangeiro, como a voxCeleb e Common Voice. Por isso, optou-se pela seleção de uma base de dados com falantes brasileiros, a Brazilian Speech Database. Este é o primeiro trabalho a utilizar esta base aplicando métodos de identificação e verificação de locutores para avaliar as características extraídas por transfer learning. Posteriormente, um subset do Common Voice foi submetido aos mesmos métodos, de modo a comparar os resultados. O melhor resultado para a tarefa de identificação a base de dados em português foi de 0,70 ± 0,10 com 10 patches utilizando o método de early fusion com as características do handcrafted. Já para o base de dados em inglês foi de 0.68 ± 0.05 com 10 patches utilizando o early fusion de todos os extratores do método de transfer learning. Para o problema de verificação, a Brazilian Speech Database ficou com uma taxa de 0.97 ± 0.00 utilizando 10 patches com o MobileNet, e o Common Voice obteve uma taxa de 0.98 ± 0.00 com 10 patches para todos os descritores aplicados. Destacou-se que a complementariedade de características feita com o early fusion ajudou a obter resultados melhores em alguns casos. Já o uso de técnicas de extração de características utilizando o transfer learning, apesar de serem mais robustas e sofisticadas, apresentaram um resultado estatisticamente igual às técnicas de handcrafted. Um fator que pode ter influenciado os experimentos é que o Brazilian Speech Database é uma base de dados baseado em dependência de texto, enquanto o Common Voice de não dependência de texto. 2023-03-06T20:13:13Z 2023-03-06T20:13:13Z 2022-06-13 bachelorThesis SOUZA, Michel Gomes de. Identificação e verificação de locutores em português e inglês utilizando transfer learning. 2022. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Campo Mourão, 2022. http://repositorio.utfpr.edu.br/jspui/handle/1/30727 por openAccess http://creativecommons.org/licenses/by/4.0/ application/pdf Universidade Tecnológica Federal do Paraná Campo Mourao Brasil Departamento Acadêmico de Computação Ciência da Computação UTFPR
institution Universidade Tecnológica Federal do Paraná
collection RIUT
language Português
topic Aprendizado do computador
Reconhecimento automático da voz
Processamento de sinais
Machine learning
Automatic speech recognition
Signal processing
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
spellingShingle Aprendizado do computador
Reconhecimento automático da voz
Processamento de sinais
Machine learning
Automatic speech recognition
Signal processing
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Souza, Michel Gomes de
Identificação e verificação de locutores em português e inglês utilizando transfer learning
description Speech is one of the biometric modalities that can be used to recognize an individual. Thus, speaker identification systems have applicability in authentication problems, such as automatic surveillance and forensic activities. This recognition process is divided into speaker identification and verification. Most databases for automatic speaker recognition are in foreign languages, such as voxCeleb and Common Voice. Therefore, it was selected a database with Brazilian speakers, the Brazilian Speech Database. This is the first work to use this base, applying methods of identification and verification of speakers to evaluate the characteristics extracted by transfer learning from this dataset. Subsequently, a Common Voice subset was subjected to the same methods in order to compare the data. The best result for the identification task for the Brazilian database was 0.70 ± 0.10 with 10 patches using the early fusion method with the handcrafted characteristics. As for the English database, it was 0.68 ± 0.05 with 10 patches using early fusion of all extractors of the transfer learning method. For the verification problem, Brazilian Speech Database got a rate of 0.97 ± 0.00 using 10 patches with MobileNet, and Common Voice got a rate of 0.98 ± 0.00 with 10 patches for all descriptors applied. It was highlighted that the complementarity of features made with early fusion helped to obtain better results in some cases. The use of feature extraction techniques applying transfer learning, despite being more robust and sophisticated, presented a result statistically equal to the handcrafted techniques. One factor that may have influenced the experiments is that the Brazilian Speech Database is a text-dependent database, while Common Voice is a non-text-dependent database.
format Trabalho de Conclusão de Curso (Graduação)
author Souza, Michel Gomes de
author_sort Souza, Michel Gomes de
title Identificação e verificação de locutores em português e inglês utilizando transfer learning
title_short Identificação e verificação de locutores em português e inglês utilizando transfer learning
title_full Identificação e verificação de locutores em português e inglês utilizando transfer learning
title_fullStr Identificação e verificação de locutores em português e inglês utilizando transfer learning
title_full_unstemmed Identificação e verificação de locutores em português e inglês utilizando transfer learning
title_sort identificação e verificação de locutores em português e inglês utilizando transfer learning
publisher Universidade Tecnológica Federal do Paraná
publishDate 2023
citation SOUZA, Michel Gomes de. Identificação e verificação de locutores em português e inglês utilizando transfer learning. 2022. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Campo Mourão, 2022.
url http://repositorio.utfpr.edu.br/jspui/handle/1/30727
_version_ 1805453024071516160
score 10,814766