Métodos de seleção de atributos e análise de componentes principais: um estudo comparativo
Neoplasm is a major challenge for researchers because of its high complexity. Despite advances in diagnosis, studies point out that in addition to data analysis, methods to optimize and aid the decision-making process are necessary. In this sense, the dimensionality reduction of data has contributed...
Autor principal: | Souza, Jovani Taveira de |
---|---|
Formato: | Dissertação |
Idioma: | Português |
Publicado em: |
Universidade Tecnológica Federal do Paraná
2017
|
Assuntos: | |
Acesso em linha: |
http://repositorio.utfpr.edu.br/jspui/handle/1/2387 |
Tags: |
Adicionar Tag
Sem tags, seja o primeiro a adicionar uma tag!
|
id |
riut-1-2387 |
---|---|
recordtype |
dspace |
spelling |
riut-1-23872017-08-31T15:23:07Z Métodos de seleção de atributos e análise de componentes principais: um estudo comparativo Methods of attribute selection and principal component analysis: a comparative study Souza, Jovani Taveira de Francisco, Antonio Carlos de http://lattes.cnpq.br/6457056051910603 Canteri, Maria Helene Giovanetti http://lattes.cnpq.br/5210674056704542 Baldan, Roquemar de Lima Francisco, Antonio Carlos de Piekarski, Cassiano Moro Câncer - Diagnóstico Expressão gênica Engenharia de produção Cancer - Diagnosis Gene expression Production engineering CNPQ::ENGENHARIAS::ENGENHARIA DE PRODUCAO Engenharia de Produção Neoplasm is a major challenge for researchers because of its high complexity. Despite advances in diagnosis, studies point out that in addition to data analysis, methods to optimize and aid the decision-making process are necessary. In this sense, the dimensionality reduction of data has contributed significantly, helping in this process, due to the large number of genes (attributes) compared to the number of samples (classes). This work, therefore, aims to provide a comparative study between two methods of dimensionality reduction, applied to three databases in the field of gene expression: LungCancer-Michigan, LungCancer-Ontario and LungCancer-Harvard, all related to lung cancer. The methods applied were: Attribute Selection and Principal Component Analysis (PCA), both used as a pre-processing step in Data Mining. The classification algorithms chosen were Naive Bayes, SVM, J48, 1-NN, 3-NN, 5-NN and 7-NN. Weka was used as a software for analyses procedures. A series of experiments was performed to evaluate the accuracy and applicability of the algorithms for both methods. As a result, significant advances in the hit rate (accuracy) of the classifiers involving the methods were evidenced, using Cross-Validation as the assessment criterion. The Wrapper approach, from the Attribute Selection method, obtained the best results for the three analyzed databases. The Principal Component Analysis method, even presenting lower hit rate, could not be ruled out. The Naive Bayes, SVM and 1-NN algorithms presented the best performance within the databases. The attributes (genes) which presented the highest frequency in the databases were denoted. Therefore, from the chosen subsets, these can be submitted to specific analyzes in order to direct more precise diagnoses. Capes A neoplasia é um grande desafio para os pesquisadores devido a sua alta complexidade. Apesar dos avanços em diagnósticos, os estudos apontam que, além da análise de dados, são necessários métodos que otimizem e auxiliem o processo de tomada de decisão. Neste sentido, a redução de dimensionalidade de dados tem contribuído significativamente, auxiliando nesse processo, devido à quantidade de genes (atributos), ser muito ampla comparada ao número de amostras (classes). Este trabalho, portanto, visa fornecer um estudo comparativo entre dois métodos de redução de dimensionalidade, aplicados em três bases de dados no domínio de expressão gênica: LungCancer-Michigan, LungCancer-Ontario e LungCancerHarvard, todas relacionadas ao câncer de pulmão. Os métodos aplicados foram: Seleção de Atributos e Análise de Componentes Principais (PCA), ambos usados como uma etapa de pré-processamento na Mineração de Dados. Os algoritmos de classificação escolhidos foram: Naive Bayes, SVM, J48, 1-NN, 3-NN, 5-NN e 7-NN. Foi utilizado o Weka como software para procedimentos de análise. Uma série de experimentos foi realizada para avaliar a acurácia e aplicabilidade dos algoritmos para ambos os métodos. Como resultado, foram evidenciados avanços significativos nas taxas de acerto (acurácia) dos classificadores envolvendo os métodos empregados, utilizando como critério de avaliação a Validação Cruzada. A abordagem Wrapper, do método de Seleção de Atributos, obteve os melhores resultados para as três bases de dados analisadas. O método de Análise de Componentes Principais, mesmo apresentando taxa de acerto inferior, não pode ser descartado. Os algoritmos Naive Bayes, SVM e 1-NN foram os que apresentaram melhor desempenho dentre as bases. Foram denotados os atributos (genes) que apresentaram maior frequência nas bases de dados. Portanto, a partir dos subconjuntos escolhidos, estes podem ser submetidos a análises específicas, no intuito de direcionar diagnósticos mais precisos. 2017-08-31T15:23:07Z 2017-08-31T15:23:07Z 2017-04-28 masterThesis SOUZA, Jovani Taveira de. Métodos de seleção de atributos e análise de componentes principais: um estudo comparativo. 2017. 73 f. Dissertação (Mestrado em Engenharia de Produção) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2017. http://repositorio.utfpr.edu.br/jspui/handle/1/2387 por openAccess application/pdf Universidade Tecnológica Federal do Paraná Ponta Grossa Brasil Programa de Pós-Graduação em Engenharia de Produção UTFPR |
institution |
Universidade Tecnológica Federal do Paraná |
collection |
RIUT |
language |
Português |
topic |
Câncer - Diagnóstico Expressão gênica Engenharia de produção Cancer - Diagnosis Gene expression Production engineering CNPQ::ENGENHARIAS::ENGENHARIA DE PRODUCAO Engenharia de Produção |
spellingShingle |
Câncer - Diagnóstico Expressão gênica Engenharia de produção Cancer - Diagnosis Gene expression Production engineering CNPQ::ENGENHARIAS::ENGENHARIA DE PRODUCAO Engenharia de Produção Souza, Jovani Taveira de Métodos de seleção de atributos e análise de componentes principais: um estudo comparativo |
description |
Neoplasm is a major challenge for researchers because of its high complexity. Despite advances in diagnosis, studies point out that in addition to data analysis, methods to optimize and aid the decision-making process are necessary. In this sense, the dimensionality reduction of data has contributed significantly, helping in this process, due to the large number of genes (attributes) compared to the number of samples (classes). This work, therefore, aims to provide a comparative study between two methods of dimensionality reduction, applied to three databases in the field of gene expression: LungCancer-Michigan, LungCancer-Ontario and LungCancer-Harvard, all related to lung cancer. The methods applied were: Attribute Selection and Principal Component Analysis (PCA), both used as a pre-processing step in Data Mining. The classification algorithms chosen were Naive Bayes, SVM, J48, 1-NN, 3-NN, 5-NN and 7-NN. Weka was used as a software for analyses procedures. A series of experiments was performed to evaluate the accuracy and applicability of the algorithms for both methods. As a result, significant advances in the hit rate (accuracy) of the classifiers involving the methods were evidenced, using Cross-Validation as the assessment criterion. The Wrapper approach, from the Attribute Selection method, obtained the best results for the three analyzed databases. The Principal Component Analysis method, even presenting lower hit rate, could not be ruled out. The Naive Bayes, SVM and 1-NN algorithms presented the best performance within the databases. The attributes (genes) which presented the highest frequency in the databases were denoted. Therefore, from the chosen subsets, these can be submitted to specific analyzes in order to direct more precise diagnoses. |
format |
Dissertação |
author |
Souza, Jovani Taveira de |
author_sort |
Souza, Jovani Taveira de |
title |
Métodos de seleção de atributos e análise de componentes principais: um estudo comparativo |
title_short |
Métodos de seleção de atributos e análise de componentes principais: um estudo comparativo |
title_full |
Métodos de seleção de atributos e análise de componentes principais: um estudo comparativo |
title_fullStr |
Métodos de seleção de atributos e análise de componentes principais: um estudo comparativo |
title_full_unstemmed |
Métodos de seleção de atributos e análise de componentes principais: um estudo comparativo |
title_sort |
métodos de seleção de atributos e análise de componentes principais: um estudo comparativo |
publisher |
Universidade Tecnológica Federal do Paraná |
publishDate |
2017 |
citation |
SOUZA, Jovani Taveira de. Métodos de seleção de atributos e análise de componentes principais: um estudo comparativo. 2017. 73 f. Dissertação (Mestrado em Engenharia de Produção) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2017. |
url |
http://repositorio.utfpr.edu.br/jspui/handle/1/2387 |
_version_ |
1805321033735995392 |
score |
10,814766 |