Clusterização e análise de tweets com foco em postagens relacionadas às ações da Petrobrás
Brasil, Bolsa e Balcão (B3), responsible for R$6.45 trillion in transactions in 2020, directly and indirectly contributes to the increase of information disseminated by social media, impacting the stock market. Because there is a large amount, investors cannot analyze them, so having an artifice tha...
Autor principal: | Murato, Demetrius Milton |
---|---|
Formato: | Trabalho de Conclusão de Curso (Graduação) |
Idioma: | Português |
Publicado em: |
Universidade Tecnológica Federal do Paraná
2022
|
Assuntos: | |
Acesso em linha: |
http://repositorio.utfpr.edu.br/jspui/handle/1/27571 |
Tags: |
Adicionar Tag
Sem tags, seja o primeiro a adicionar uma tag!
|
id |
riut-1-27571 |
---|---|
recordtype |
dspace |
spelling |
riut-1-275712022-03-09T06:06:24Z Clusterização e análise de tweets com foco em postagens relacionadas às ações da Petrobrás Clusterization and analysis of tweets focusing on posts releted to petobras stocks Murato, Demetrius Milton Santos, Bruno Samways dos Santos, Bruno Samways dos Lima, Rafael Henrique Palma Ribas, Carlos Alberto Mineração de dados (Computação) Análise por agrupamento Indústria petrolífera Data mining Cluster analysis Petroleum, Industry and trade CNPQ::ENGENHARIAS::ENGENHARIA DE PRODUCAO Brasil, Bolsa e Balcão (B3), responsible for R$6.45 trillion in transactions in 2020, directly and indirectly contributes to the increase of information disseminated by social media, impacting the stock market. Because there is a large amount, investors cannot analyze them, so having an artifice that contributes to the grouping of news related to the same subject can contribute to the performance of investors. Given this scenario, the present work used unsupervised machine learning to group posts collected from Twitter related to Petrobras' stocks. Originating from data collection through synchronization with the Twitter API platform, preprocessing was performed based on text mining techniques, application of BagofWords (BoW) and Term FrequencyInverse Document Frequency (TF) IDF) to define the most recurrent terms and the weight of each post until grouping is carried out. In this case, for comparison, a direct grouping of the matrix obtained by TFIDF and another grouping after resizing the weight matrix by the Main Component Analysis (PCA) was performed. In order to confront and facilitate the visualization of the main differences, scatter plots and word clouds were created for each grouping. The results obtained showed that performing grouping in a matrix resized by the Principal Component Analysis has a better performance for the separation of related texts, contributing to its interpretation. A Brasil, Bolsa e Balcão (B3), responsável por R$6,45 trilhões de reais movimentados no ano de 2020, contribui diretamente e indiretamente para o aumento das informações disseminadas pelas mídias sociais, impactando o mercado acionário. Por ser em grande quantidade, os investidores não conseguem analisá-las, então, ter um artifício que colabora para o agrupamento de notícias ligadas ao um mesmo assunto, pode contribuir para o desempenho dos investidores. Diante deste cenário, o presente trabalho utilizou o aprendizado de máquina não supervisionado para agrupar posts coletados do Twitter relacionados às ações da Petrobrás. Originando-se da coleta de dados por meio da sincronização com a plataforma Twitter API, foi realizado o pré-processamento baseado em técnicas de mineração de texto, aplicação de Bag-of-Words (BoW) e Term Frequency Inverse Document Frequency (TFIDF) para definir os termos mais recorrentes e o peso de cada post até a realização do agrupamento. Neste caso, para comparação, foi realizado um agrupamento direto da matriz obtida por TFIDF e outro agrupamento após redimensionamento da matriz de pesos pelo Principal Component Analysis (PCA). Afim de confrontar e facilitar a visualização das principais diferenças, foram criados gráficos de dispersão e nuvens de palavras para cada agrupamento. Os resultados obtidos mostraram que realizar agrupamento em uma matriz redimensionada pelo Principal Component Analysis tem um melhor desempenho para a separação de textos relacionados entre si, contribuindo para a sua interpretação. 2022-03-08T22:15:04Z 2022-03-08T22:15:04Z 2021-11-29 bachelorThesis MURATO, Demetrius Milton. Clusterização e análise de tweets com foco em postagens relacionadas às ações da Petrobrás. 2021. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Produção) - Universidade Tecnológica Federal do Paraná, Londrina, 2021. http://repositorio.utfpr.edu.br/jspui/handle/1/27571 por openAccess application/pdf Universidade Tecnológica Federal do Paraná Londrina Brasil Engenharia de Produção UTFPR |
institution |
Universidade Tecnológica Federal do Paraná |
collection |
RIUT |
language |
Português |
topic |
Mineração de dados (Computação) Análise por agrupamento Indústria petrolífera Data mining Cluster analysis Petroleum, Industry and trade CNPQ::ENGENHARIAS::ENGENHARIA DE PRODUCAO |
spellingShingle |
Mineração de dados (Computação) Análise por agrupamento Indústria petrolífera Data mining Cluster analysis Petroleum, Industry and trade CNPQ::ENGENHARIAS::ENGENHARIA DE PRODUCAO Murato, Demetrius Milton Clusterização e análise de tweets com foco em postagens relacionadas às ações da Petrobrás |
description |
Brasil, Bolsa e Balcão (B3), responsible for R$6.45 trillion in transactions in 2020, directly and indirectly contributes to the increase of information disseminated by social media, impacting the stock market. Because there is a large amount, investors cannot analyze them, so having an artifice that contributes to the grouping of news related to the same subject can contribute to the performance of investors. Given this scenario, the present work used unsupervised machine learning to group posts collected from Twitter related to Petrobras' stocks. Originating from data collection through synchronization with the Twitter API platform, preprocessing was performed based on text mining techniques, application of BagofWords (BoW) and Term FrequencyInverse Document Frequency (TF) IDF) to define the most recurrent terms and the weight of each post until grouping is carried out. In this case, for comparison, a direct grouping of the matrix obtained by TFIDF and another grouping after resizing the weight matrix by the Main Component Analysis (PCA) was performed. In order to confront and facilitate the visualization of the main differences, scatter plots and word clouds were created for each grouping. The results obtained showed that performing grouping in a matrix resized by the Principal Component Analysis has a better performance for the separation of related texts, contributing to its interpretation. |
format |
Trabalho de Conclusão de Curso (Graduação) |
author |
Murato, Demetrius Milton |
author_sort |
Murato, Demetrius Milton |
title |
Clusterização e análise de tweets com foco em postagens relacionadas às ações da Petrobrás |
title_short |
Clusterização e análise de tweets com foco em postagens relacionadas às ações da Petrobrás |
title_full |
Clusterização e análise de tweets com foco em postagens relacionadas às ações da Petrobrás |
title_fullStr |
Clusterização e análise de tweets com foco em postagens relacionadas às ações da Petrobrás |
title_full_unstemmed |
Clusterização e análise de tweets com foco em postagens relacionadas às ações da Petrobrás |
title_sort |
clusterização e análise de tweets com foco em postagens relacionadas às ações da petrobrás |
publisher |
Universidade Tecnológica Federal do Paraná |
publishDate |
2022 |
citation |
MURATO, Demetrius Milton. Clusterização e análise de tweets com foco em postagens relacionadas às ações da Petrobrás. 2021. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Produção) - Universidade Tecnológica Federal do Paraná, Londrina, 2021. |
url |
http://repositorio.utfpr.edu.br/jspui/handle/1/27571 |
_version_ |
1805302966523002880 |
score |
10,814766 |