Registro fonte: Detecção de outliers em pipelines de dados

Detecção de outliers em pipelines de dados

The technological advances of the last decades allowed a huge increase in the rate and amount of data generated by computing systems. Data flow management has become relevant for obtaining information. Data pipelines are used to transport the data from its source to different sorts of targets, trans...

ver descrição completa

Autor principal:	Souza, Jonas Oliveira de
Formato:	Trabalho de Conclusão de Curso (Especialização)
Idioma:	Português
Publicado em:	Universidade Tecnológica Federal do Paraná 2022
Assuntos:	Fluxo de dados (Computadores) Aprendizado de máquinas Banco de dados Algorítmos Data flow computing Machine learning Data bases Algorithms CNPQ::CIENCIAS EXATAS E DA TERRA
Acesso em linha:	http://repositorio.utfpr.edu.br/jspui/handle/1/28038
Tags:	Adicionar Tag Sem tags, seja o primeiro a adicionar uma tag!

id	riut-1-28038
recordtype	dspace
spelling	riut-1-280382022-04-15T06:07:42Z Detecção de outliers em pipelines de dados Outliers detection in data pipelines Souza, Jonas Oliveira de Wehrmeister, Marco Aurélio Wehrmeister, Marco Aurélio Rosa, Marcelo de Oliveira Berardi, Rita Cristina Galarraga Fluxo de dados (Computadores) Aprendizado de máquinas Banco de dados Algorítmos Data flow computing Machine learning Data bases Algorithms CNPQ::CIENCIAS EXATAS E DA TERRA The technological advances of the last decades allowed a huge increase in the rate and amount of data generated by computing systems. Data flow management has become relevant for obtaining information. Data pipelines are used to transport the data from its source to different sorts of targets, transforming the data itself whether necessary. Data pipelines are sensitive to changes that occur both in the extraction process and in their business rules, leading to data inconsistency. This study proposes a solution to identify behavior changes in data pipelines (outliers), through the use of machine learning. Some machine learning algorithms have been applied during the data loading process by using the pipeline metrics to identify anomalies. The proposed work has been evaluated throughout some case studies that use a publicly available dataset and another created in the context of the study, namely, US Accidents Updated until Dec 2020 and Local Machine Metrics. An environment was created using Docker. It is comprised of three containers: one using StreamSets for creating data pipelines; one using MySQL database to store pipeline metrics, and one using Jupyter to perform exploratory analysis of the data and testing of the algorithms. The algorithms used in this study were PCA and Dbscan. The obtained results are considered satisfactory since the pipelines that had divergent comportment were correctly identified and reported. Com o avanço tecnológico das últimas décadas, a velocidade e a quantidade de dados gerados aumentaram consideravelmente. A gestão do fluxo dos dados tornou-se relevante para obtenção de informações. Pipelines de dados podem ser utilizados para transportar os dados, bem como transforma-los de acordo com cada necessidade. Os pipelines de dados são sensíveis a mudanças que podem ocorrer tanto em suas extrações quanto em suas regras de negócio, ocasionando inconsistência de dados. Este estudo busca uma solução para identificar alterações de comportamentos em pipelines de dados (outliers) através do emprego de Machine Learning. Os algoritmos de Machine Learning serão aplicados durante processo de carga dos dados, utilizando as métricas dos pipelines para identificar as anomalias. O trabalho proposto foi avaliado através de alguns casos de estudos que utilizou um dataset público e outro gerado para o contexto do estudo, nomeados, US Accidents Updated until Dec 2020 e métricas obtidas da máquina local. Para viabilizar o estudo foi criado um ambiente, através do Docker, composto por três containers, um StreamSets para criação de pipelines de dados, um banco de dados Mysql para armazenar as métricas dos pipelines, outro container com o Jupyter para realizar as análises exploratórias dos dados e realização de testes dos algoritmos. Os algoritmos utilizados para este estudo foram o PCA e o Dbscan. Os resultados obtidos, ainda que em um ambiente simulado, foram satisfatórios apontando os pipelines que apresentaram mudanças de comportando. 2022-04-14T14:40:09Z 2022-04-14T14:40:09Z 2021-08-11 specializationThesis SOUZA, Jonas Oliveira de. Detecção de outliers em pipelines de dados. 2021. Trabalho de Conclusão de Curso de Especialização (Ciência de Dados e suas Aplicações) - Universidade Tecnológica Federal do Paraná, Curitiba, 2021. http://repositorio.utfpr.edu.br/jspui/handle/1/28038 por openAccess application/pdf Universidade Tecnológica Federal do Paraná Curitiba Brasil Ciência de Dados e suas Aplicações UTFPR
institution	Universidade Tecnológica Federal do Paraná
collection	RIUT
language	Português
topic	Fluxo de dados (Computadores) Aprendizado de máquinas Banco de dados Algorítmos Data flow computing Machine learning Data bases Algorithms CNPQ::CIENCIAS EXATAS E DA TERRA
spellingShingle	Fluxo de dados (Computadores) Aprendizado de máquinas Banco de dados Algorítmos Data flow computing Machine learning Data bases Algorithms CNPQ::CIENCIAS EXATAS E DA TERRA Souza, Jonas Oliveira de Detecção de outliers em pipelines de dados
description	The technological advances of the last decades allowed a huge increase in the rate and amount of data generated by computing systems. Data flow management has become relevant for obtaining information. Data pipelines are used to transport the data from its source to different sorts of targets, transforming the data itself whether necessary. Data pipelines are sensitive to changes that occur both in the extraction process and in their business rules, leading to data inconsistency. This study proposes a solution to identify behavior changes in data pipelines (outliers), through the use of machine learning. Some machine learning algorithms have been applied during the data loading process by using the pipeline metrics to identify anomalies. The proposed work has been evaluated throughout some case studies that use a publicly available dataset and another created in the context of the study, namely, US Accidents Updated until Dec 2020 and Local Machine Metrics. An environment was created using Docker. It is comprised of three containers: one using StreamSets for creating data pipelines; one using MySQL database to store pipeline metrics, and one using Jupyter to perform exploratory analysis of the data and testing of the algorithms. The algorithms used in this study were PCA and Dbscan. The obtained results are considered satisfactory since the pipelines that had divergent comportment were correctly identified and reported.
format	Trabalho de Conclusão de Curso (Especialização)
author	Souza, Jonas Oliveira de
author_sort	Souza, Jonas Oliveira de
title	Detecção de outliers em pipelines de dados
title_short	Detecção de outliers em pipelines de dados
title_full	Detecção de outliers em pipelines de dados
title_fullStr	Detecção de outliers em pipelines de dados
title_full_unstemmed	Detecção de outliers em pipelines de dados
title_sort	detecção de outliers em pipelines de dados
publisher	Universidade Tecnológica Federal do Paraná
publishDate	2022
citation	SOUZA, Jonas Oliveira de. Detecção de outliers em pipelines de dados. 2021. Trabalho de Conclusão de Curso de Especialização (Ciência de Dados e suas Aplicações) - Universidade Tecnológica Federal do Paraná, Curitiba, 2021.
url	http://repositorio.utfpr.edu.br/jspui/handle/1/28038
_version_	1805299477448228864
score	10,814766

Detecção de outliers em pipelines de dados

Registros relacionados