Algoritmo para classificação multirrótulo baseado em biclusterização
Among the approaches used in machine learning, the classification stands out especially in its single label way. Although that is common, some domains have multiple labels that are such an intrinsic characteristic of the data, therefore it is necessary a multilabel classification approach. Two strat...
Autor principal: | Schmitke, Luiz Rafael |
---|---|
Formato: | Tese |
Idioma: | Português |
Publicado em: |
Pontifícia Universidade Católica do Paraná
2022
|
Assuntos: | |
Acesso em linha: |
http://repositorio.utfpr.edu.br/jspui/handle/1/29739 |
Tags: |
Adicionar Tag
Sem tags, seja o primeiro a adicionar uma tag!
|
id |
riut-1-29739 |
---|---|
recordtype |
dspace |
spelling |
riut-1-297392022-09-27T06:08:13Z Algoritmo para classificação multirrótulo baseado em biclusterização Schmitke, Luiz Rafael Nievola, Julio Cesar https://orcid.org/0000-0002-2212-4499 http://lattes.cnpq.br/9242867616608986 Paraiso, Emerson Cabrera https://orcid.org/0000-0002-6740-7855 http://lattes.cnpq.br/3493899263715892 Nievola, Julio Cesar https://orcid.org/0000-0002-2212-4499 http://lattes.cnpq.br/9242867616608986 Paraiso, Emerson Cabrera https://orcid.org/0000-0002-6740-7855 http://lattes.cnpq.br/3493899263715892 Souza, Vinicius Mourão Alves de https://orcid.org/0000-0003-3175-7922 http://lattes.cnpq.br/6394929576717854 Carvalho, Deborah Ribeiro https://orcid.org/0000-0002-9735-650X http://lattes.cnpq.br/2294403751807996 Borges, Helyane Bronoski https://orcid.org/0000-0002-9153-3819 http://lattes.cnpq.br/8340106221427112 Algorítmos Classificação Rótulos Solução de problemas Aprendizado do computador Algorithms Classification Labels Problem solving Machine learning CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Computação Among the approaches used in machine learning, the classification stands out especially in its single label way. Although that is common, some domains have multiple labels that are such an intrinsic characteristic of the data, therefore it is necessary a multilabel classification approach. Two strategies are possible to get the multilabel classification, either to convert the multilabel problem into one or more single label problems, or to adapt a single label algorithm to deal with a multilabel data. Despite the fact that problem transformation is effective, some algorithms have issues, as fixed parameters to indicate the single label subproblem quantity and the maintenance of the preexistent relationship among the labels do not use correlation nor co-occurrence measures. Among the categories of algorithms to work with the problem transformation, it was chosen one that allows a transformation from a multilabel problem to n binary problems. That has a characteristic of having a low runtime, which allows to use more complex single label algorithms in the classification stage, like neural networks or deep learning, but it also shows a lower performance in multilabel metrics. Thus, this work shows the BicbPT algorithm that uses the biclustering and multilabel-binary problem transformation to minimize those problems and improve the multilabel metrics without losing the low execution time characteristic of this category. It was chosen the algorithms BR, CC, ECC, RAkEL and LP with SVM, C4.5 and Naïve Bayes to evaluate the proposed method and 12 datasets with distinct complexities and different domains. The experiments show that the BicbPT obtains better performance in the multilabel metrics than the multilabel-binary algorithms, being similar only to the ECC, but in this one the execution time is up to 10 times higher. The BicbPT also keeps the lower execution time, characteristic of the multilabel-binary category. Finally, comparing the two versions of the BicbPT is possible to realize that the way labels influence each other allows improving the multilabel classification, and not only considering the maintenance of relationships in the n transformed problems. Dentre as abordagens utilizadas na aprendizagem de máquina, a classificação se destaca principalmente na sua forma monorrótulo. Embora essa seja comum, em alguns domínios a presença de mais de um rótulo é característica inerente dos dados, sendo assim faz-se necessário a utilização de abordagens para classificação multirrótulo. Duas estratégias são possíveis para alcançar a classificação multirrótulo, uma é transformar o problema multirrótulo em um ou mais problemas monorrótulo, ou adaptar um algoritmo monorrótulo para que este possa lidar com a multirrotularidade dos dados. Embora a transformação de problema seja eficaz, alguns algoritmos possuem problemas como, parâmetros fixos para determinar a quantidade de subproblemas monorrótulo e a manutenção dos relacionamentos pré-existentes entre rótulos não usam medidas de correlação ou coocorrência. Dentre as categorias existentes de algoritmos para trabalhar com a transformação de problema, foi escolhida a que permite fazer a transformação de um problema multirrótulo para n problemas binários, pois esta possui como característica o baixo de tempo de execução, o que permite o uso de algoritmos monorrótulo mais complexos na fase de classificação, como por exemplo, redes neurais e deep learning, mas, proporcionalmente, também apresentam baixo desempenho nas métricas multirrótulo. Desta forma, neste trabalho é apresentado o algoritmo BicbPT, o qual utiliza a técnica de biclusterização combinada com a transformação de problema multirrótulo-binário a fim de minimizar aqueles problemas e melhorar o desempenho nas métricas multirrótulo sem perder a característica do baixo tempo de execução desta categoria. Para a avaliação do algoritmo proposto foram realizadas comparações com os algoritmos BR, CC, ECC, RAkEL e LP utilizando os algoritmos monorrótulo SVM, C4.5 e Naive Bayes durante a fase de classificação nos n problemas binários e 12 conjuntos de dados de diferentes domínios e complexidades. Os experimentos realizados demonstram que o BicbPT obtém melhor desempenho nas métricas multirrótulo que os demais algoritmos multirrótulo-binário comparados, sendo similar somente ao ECC, mas neste o tempo de execução é até 10 vezes mais alto, o que torna o algoritmo proposto melhor. Também, o algoritmo proposto consegue manter tempo de execução similar aos algoritmos da categoria multirrótulo-binário. Ainda, ao comparar as duas versões implementadas do BicbPT foi possível perceber que a maneira com a qual os rótulos se influenciam permite melhorar a classificação multirrótulo, e não somente considerar a manutenção das relações nos n problemas transformados. 2022-09-26T16:25:01Z 2022-09-26T16:25:01Z 2022-06-01 doctoralThesis SCHMITKE, Luiz Rafael. Algoritmo para classificação multirrótulo baseado em biclusterização. 2022. Tese (Doutorado em Informática) - Pontifícia Universidade Católica do Paraná, Curitiba, 2022. http://repositorio.utfpr.edu.br/jspui/handle/1/29739 por openAccess application/pdf Pontifícia Universidade Católica do Paraná Curitiba Brasil Programa de Pós-Graduação em Informática PUCPR |
institution |
Universidade Tecnológica Federal do Paraná |
collection |
RIUT |
language |
Português |
topic |
Algorítmos Classificação Rótulos Solução de problemas Aprendizado do computador Algorithms Classification Labels Problem solving Machine learning CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Computação |
spellingShingle |
Algorítmos Classificação Rótulos Solução de problemas Aprendizado do computador Algorithms Classification Labels Problem solving Machine learning CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Computação Schmitke, Luiz Rafael Algoritmo para classificação multirrótulo baseado em biclusterização |
description |
Among the approaches used in machine learning, the classification stands out especially in its single label way. Although that is common, some domains have multiple labels that are such an intrinsic characteristic of the data, therefore it is necessary a multilabel classification approach. Two strategies are possible to get the multilabel classification, either to convert the multilabel problem into one or more single label problems, or to adapt a single label algorithm to deal with a multilabel data. Despite the fact that problem transformation is effective, some algorithms have issues, as fixed parameters to indicate the single label subproblem quantity and the maintenance of the preexistent relationship among the labels do not use correlation nor co-occurrence measures. Among the categories of algorithms to work with the problem transformation, it was chosen one that allows a transformation from a multilabel problem to n binary problems. That has a characteristic of having a low runtime, which allows to use more complex single label algorithms in the classification stage, like neural networks or deep learning, but it also shows a lower performance in multilabel metrics. Thus, this work shows the BicbPT algorithm that uses the biclustering and multilabel-binary problem transformation to minimize those problems and improve the multilabel metrics without losing the low execution time characteristic of this category. It was chosen the algorithms BR, CC, ECC, RAkEL and LP with SVM, C4.5 and Naïve Bayes to evaluate the proposed method and 12 datasets with distinct complexities and different domains. The experiments show that the BicbPT obtains better performance in the multilabel metrics than the multilabel-binary algorithms, being similar only to the ECC, but in this one the execution time is up to 10 times higher. The BicbPT also keeps the lower execution time, characteristic of the multilabel-binary category. Finally, comparing the two versions of the BicbPT is possible to realize that the way labels influence each other allows improving the multilabel classification, and not only considering the maintenance of relationships in the n transformed problems. |
format |
Tese |
author |
Schmitke, Luiz Rafael |
author_sort |
Schmitke, Luiz Rafael |
title |
Algoritmo para classificação multirrótulo baseado em biclusterização |
title_short |
Algoritmo para classificação multirrótulo baseado em biclusterização |
title_full |
Algoritmo para classificação multirrótulo baseado em biclusterização |
title_fullStr |
Algoritmo para classificação multirrótulo baseado em biclusterização |
title_full_unstemmed |
Algoritmo para classificação multirrótulo baseado em biclusterização |
title_sort |
algoritmo para classificação multirrótulo baseado em biclusterização |
publisher |
Pontifícia Universidade Católica do Paraná |
publishDate |
2022 |
citation |
SCHMITKE, Luiz Rafael. Algoritmo para classificação multirrótulo baseado em biclusterização. 2022. Tese (Doutorado em Informática) - Pontifícia Universidade Católica do Paraná, Curitiba, 2022. |
url |
http://repositorio.utfpr.edu.br/jspui/handle/1/29739 |
_version_ |
1805320592511991808 |
score |
10,814766 |