Segmentação e classificação de espécimes de herbário: um estudo de caso com a família piperaceae giseke
Herbaria are deposits of dehydrated plants or fungi that register a region’s richness. In fact,more than 3,500 herbaria worldwide host approximately 400 million specimens, thousands of which have not been identified due to slowness in the process of name determining and the sheer lack of taxonomists...
Autor principal: | Kajihara, Alexandre Yuji |
---|---|
Formato: | Dissertação |
Idioma: | Português |
Publicado em: |
Universidade Tecnológica Federal do Paraná
2023
|
Assuntos: | |
Acesso em linha: |
http://repositorio.utfpr.edu.br/jspui/handle/1/32342 |
Tags: |
Adicionar Tag
Sem tags, seja o primeiro a adicionar uma tag!
|
id |
riut-1-32342 |
---|---|
recordtype |
dspace |
spelling |
riut-1-323422023-09-07T06:07:39Z Segmentação e classificação de espécimes de herbário: um estudo de caso com a família piperaceae giseke Segmentation and classification of herbarium specimens: a case study with the piperaceae giseke family Kajihara, Alexandre Yuji Schwerz, André Luís https://orcid.org/0000-0002-8328-7144 http://lattes.cnpq.br/4954414332524750 Gonçalves, Diego Bertolini https://orcid.org/0000-0002-6196-4538 http://lattes.cnpq.br/2264701855770284 Schwerz, André Luís https://orcid.org/0000-0002-8328-7144 http://lattes.cnpq.br/4954414332524750 Ré, Reginaldo https://orcid.org/0000-0001-6452-3466 http://lattes.cnpq.br/5545891505433768 Costa, Yandre Maldonado e Gomes da https://orcid.org/0000-0002-0630-3171 http://lattes.cnpq.br/5111623148244343 Aprendizado do computador Espécimes biológicos - Coleta e preservação Herbários Machine learning Biological specimens - Collection and preservation Herbaria CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Ciência da Computação Herbaria are deposits of dehydrated plants or fungi that register a region’s richness. In fact,more than 3,500 herbaria worldwide host approximately 400 million specimens, thousands of which have not been identified due to slowness in the process of name determining and the sheer lack of taxonomists. A promising solution for such an issue is the automated identification of specimens. The current analysis aims at proposing an approach based on Machine Learning for the identification of herbarium samples at species level. Piperaceae was the botanic family selected for this study since samples’ entification is highly complex due to the great number of species and their great morphological similarities. In the first place, 10,514 samples of 235 Piperaceae species collected in Brazil have been retrieved in speciesLink. They have been identified by experts with experience in the family’s taxonomy. The specimens constituted the dataset named Brazil, which was later subdivided into subsets with samples collected in the state of Paraná and regions North, Northeast, Southeast, Midwest and South. After specimen segmentation by U-Net, the Paraná set was employed to assess which color modes (RGB and grayscale) and dimensions (256×256, 400×400 and 512×512 pixels) of images, descriptors (LBP, SURF, MobileNetV2, ResNet50 and VGG16), and classifiers (DT, 𝑘-NN, MLP, RF and SVM) would produce the best classification results. Due to such assessment, classification of species of regional and Brazil sets was undertaken by a combination of MLP with characteristics retrieved by VGG16, in RGB images with 512×512 pixels. Among the regional subsets, the best F1-Score average, between 0.58 and 0.69, were registered in those with most samples, albeit featuring few species: Northeast (≥ 10 images of 35 species; ≥ 20 images of 21 species) and Midwest (≥ 10 images of 29 species; ≥ 20 images of 17 species). In Brazil sets with subsets of at least 10 and 20 samples and between 105 and 160 species, F1-Score average varied between 0.41 and 0.46. Classification results seem to have been affected by factors: minimum number of samples of each specie within the subset; total number of species in the subset; interclass similarity; intraspecies variability and imbalance of datasets. Results Top-3 and Top-5 were promising and may be useful to researchers with lists of occurrences in which species would have a greater inclusion possibility. In regional subsets with at least 10 and 20 samples for each species, Top-3 and Top-5 of MLP with VGG16 varied between 66.45% and 95.00%; in subsets Brazil, between 64.92% and 78.69%. Summing up, results in current study showed that best performances were obtained by classifier MLP in non-handcrafted features (VGG16) retrieved from colored images with 512×512 pixels. Consequently, Machine Learning techniques applied on herbarium specimen images may provide a computer tool that would help botanists in the classifications of samples that need identification. Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) Herbários são repositórios de plantas ou fungos desidratados, que registram a riqueza de uma região. Atualmente, mais de 3.500 herbários no mundo abrigam cerca de 400 milhões de espécimes, mas milhares ainda não estão identificados, por causa da lentidão do processo manual de determinação de nomes e da escassez de taxonomistas. Uma solução promissora para esse problema é a identificação automatizada de espécimes. Assim, este estudo teve por objetivo propor uma abordagem baseada em Aprendizado de Máquina, para a identificação de exemplares de herbário, em nível de espécie. A família botânica selecionada para este trabalho foi a Piperaceae, pois a identificação de seus exemplares é complexa e desafiadora, por causa do grande número de espécies e da grande similaridade morfológica entre elas. Primeiramente, foram selecionadas, no speciesLink, 10.514 amostras de 235 espécies de Piperaceae coletadas no Brasil, que foram identificadas por especialistas com experiência na taxonomia dessa família. Esses espécimes formaram o conjunto de dados Brasil que foi, posteriormente, subdividido em subconjuntos com amostras coletadas no Paraná e nas regiões Norte, Nordeste, Sudeste, Centro-Oeste e Sul. Após a segmentação dos espécimes, por meio da U-Net, o conjunto Paraná foi utilizado para avaliar quais modo de cor (RGB e tons de cinza) e dimensão (256×256, 400×400 e 512×512 pixels) das imagens, descritores (LBP, SURF, MobileNetV2, ResNet50 e VGG16), e classificadores (DT, 𝑘-NN, MLP, RF e SVM) produziriam melhores resultados na classificação. Em decorrência dessa avaliação, a classificação das espécies dos conjuntos regionais e do Brasil foi realizada utilizando a combinação do MLP com características extraídas pela VGG16, em imagens RGB com 512×512 pixels. Entre os subconjuntos regionais, as melhores médias de F1-Score, entre 0,58 e 0,69, foram registradas naqueles com muitos exemplares, mas de poucas espécies: Nordeste (≥ 10 imagens de 35 espécies; ≥ 20 imagens de 21 espécies) e Centro-Oeste (≥ 10 imagens de 29 espécies; ≥ 20 imagens de 17 espécies). No Brasil, cujos subconjuntos com, pelo menos, 10 e 20 amostras, têm de 105 a 160 espécies, as médias de F1-Score variaram entre 0,41 e 0,46. Os resultados da classificação parecem ter sido influenciados pelos fatores: número mínimo de exemplares, de cada espécie, no subconjunto; total de espécies no subconjunto; similaridade interclasses; variabilidade intraespécie e desbalanceamento dos conjuntos de dados. Os resultados Top-3 e Top-5 foram promissores e podem contribuir com os pesquisadores, fornecendo listas de ocorrência em que as espécies procuradas tenham maiores possibilidades de estarem incluídas. Nos subconjuntos regionais com, no mínimo, 10 e 20 exemplares de cada espécie, o Top-3 e o Top-5, do MLP com a VGG16 variou entre 66,45% e 95,00%; e nos subconjuntos Brasil, entre 64,92% e 78,69%. Em suma, os resultados obtidos neste estudo demonstraram que os melhores desempenhos foram obtidos utilizando o classificador MLP em características non-handcrafted (VGG16) extraídas de imagens coloridas com 512×512 pixels. Portanto, as técnicas de Aprendizado de Máquina, aplicadas em imagens de espécimes de herbário, podem proporcionar ferramentas computacionais que auxiliem os botânicos na classificação de exemplares que aguardam identificação. 2023-09-06T20:02:53Z 2023-09-06T20:02:53Z 2023-07-28 masterThesis KAJIHARA, Alexandre Yuji. Segmentação e classificação de espécimes de herbário: um estudo de caso com a família piperaceae giseke. 2023. Dissertação (Mestrado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Campo Mourão, 2023. http://repositorio.utfpr.edu.br/jspui/handle/1/32342 por openAccess https://creativecommons.org/licenses/by/4.0/ application/pdf Universidade Tecnológica Federal do Paraná Campo Mourao Brasil Programa de Pós-Graduação em Ciência da Computação UTFPR |
institution |
Universidade Tecnológica Federal do Paraná |
collection |
RIUT |
language |
Português |
topic |
Aprendizado do computador Espécimes biológicos - Coleta e preservação Herbários Machine learning Biological specimens - Collection and preservation Herbaria CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Ciência da Computação |
spellingShingle |
Aprendizado do computador Espécimes biológicos - Coleta e preservação Herbários Machine learning Biological specimens - Collection and preservation Herbaria CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Ciência da Computação Kajihara, Alexandre Yuji Segmentação e classificação de espécimes de herbário: um estudo de caso com a família piperaceae giseke |
description |
Herbaria are deposits of dehydrated plants or fungi that register a region’s richness. In fact,more than 3,500 herbaria worldwide host approximately 400 million specimens, thousands of which have not been identified due to slowness in the process of name determining and the sheer lack of taxonomists. A promising solution for such an issue is the automated identification of specimens. The current analysis aims at proposing an approach based on Machine Learning for the identification of herbarium samples at species level. Piperaceae was the botanic family selected for this study since samples’ entification is highly complex due to the great number of species and their great morphological similarities. In the first place, 10,514 samples of 235 Piperaceae species collected in Brazil have been retrieved in speciesLink. They have been identified by experts with experience in the family’s taxonomy. The specimens constituted the dataset named Brazil, which was later subdivided into subsets with samples collected in the state of Paraná and regions North, Northeast, Southeast, Midwest and South. After specimen segmentation by U-Net, the Paraná set was employed to assess which color modes (RGB and grayscale) and dimensions (256×256, 400×400 and 512×512 pixels) of images, descriptors (LBP, SURF, MobileNetV2, ResNet50 and VGG16), and classifiers (DT, 𝑘-NN, MLP, RF and SVM) would produce the best classification results. Due to such assessment, classification of species of regional and Brazil sets was undertaken by a combination of MLP with characteristics retrieved by VGG16, in RGB images with 512×512 pixels. Among the regional subsets, the best F1-Score average, between 0.58 and 0.69, were registered in those with most samples, albeit featuring few species: Northeast (≥ 10 images of 35 species; ≥ 20 images of 21 species) and Midwest (≥ 10 images of 29 species; ≥ 20 images of 17 species). In Brazil sets with subsets of at least 10 and 20 samples and between 105 and 160 species, F1-Score average varied between 0.41 and 0.46. Classification results seem to have been affected by factors: minimum number of samples of each specie within the subset; total number of species in the subset; interclass similarity; intraspecies variability and imbalance of datasets. Results Top-3 and Top-5 were promising and may be useful to researchers with lists of occurrences in which species would have a greater inclusion possibility. In regional subsets with at least 10 and 20 samples for each species, Top-3 and Top-5 of MLP with VGG16 varied between 66.45% and 95.00%; in subsets Brazil, between 64.92% and 78.69%. Summing up, results in current study showed that best performances were obtained by classifier MLP in non-handcrafted features (VGG16) retrieved from colored images with 512×512 pixels. Consequently, Machine Learning techniques applied on herbarium specimen images may provide a computer tool that would help botanists in the classifications of samples that need identification. |
format |
Dissertação |
author |
Kajihara, Alexandre Yuji |
author_sort |
Kajihara, Alexandre Yuji |
title |
Segmentação e classificação de espécimes de herbário: um estudo de caso com a família piperaceae giseke |
title_short |
Segmentação e classificação de espécimes de herbário: um estudo de caso com a família piperaceae giseke |
title_full |
Segmentação e classificação de espécimes de herbário: um estudo de caso com a família piperaceae giseke |
title_fullStr |
Segmentação e classificação de espécimes de herbário: um estudo de caso com a família piperaceae giseke |
title_full_unstemmed |
Segmentação e classificação de espécimes de herbário: um estudo de caso com a família piperaceae giseke |
title_sort |
segmentação e classificação de espécimes de herbário: um estudo de caso com a família piperaceae giseke |
publisher |
Universidade Tecnológica Federal do Paraná |
publishDate |
2023 |
citation |
KAJIHARA, Alexandre Yuji. Segmentação e classificação de espécimes de herbário: um estudo de caso com a família piperaceae giseke. 2023. Dissertação (Mestrado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Campo Mourão, 2023. |
url |
http://repositorio.utfpr.edu.br/jspui/handle/1/32342 |
_version_ |
1810427899354808320 |
score |
10,814766 |