Reconhecimento de vídeos de ações humanas em um mundo aberto: contribuições teóricas e metodológicas
Human Action Recognition (HAR) is a widely studied subject in the current Computer Vision, Machine Learning, and Deep Learning research community. However, HAR is usually performed in a closed-world scenario, where all classes are known in advance. In real-world scenarios, the environment tends to c...
Autor principal: | Gutoski, Matheus |
---|---|
Formato: | Tese |
Idioma: | Português |
Publicado em: |
Universidade Tecnológica Federal do Paraná
2022
|
Assuntos: | |
Acesso em linha: |
http://repositorio.utfpr.edu.br/jspui/handle/1/29245 |
Tags: |
Adicionar Tag
Sem tags, seja o primeiro a adicionar uma tag!
|
id |
riut-1-29245 |
---|---|
recordtype |
dspace |
spelling |
riut-1-292452022-08-13T06:06:35Z Reconhecimento de vídeos de ações humanas em um mundo aberto: contribuições teóricas e metodológicas Open-world human action recognition in videos: theoretical and methodological contributions Gutoski, Matheus Lazzaretti, André Eugênio https://orcid.org/0000-0003-1861-3369 http://lattes.cnpq.br/7649611874688878 Lopes, Heitor Silvério https://orcid.org/0000-0003-3984-1432 http://lattes.cnpq.br/4045818083957064 Gomes, David Menotti https://orcid.org/0000-0003-2430-2030 http://lattes.cnpq.br/6692968437800167 Lopes, Heitor Silvério https://orcid.org/0000-0003-3984-1432 http://lattes.cnpq.br/4045818083957064 Ribeiro, Manassés https://orcid.org/0000-0002-7526-5092 http://lattes.cnpq.br/6475893755893056 Minetto, Rodrigo https://orcid.org/0000-0003-2277-4632 http://lattes.cnpq.br/8366112479020867 Schwartz, William Robson https://orcid.org/0000-0003-1449-8834 http://lattes.cnpq.br/0704592200063682 Visão por computador Sistemas de reconhecimento de padrões Aprendizado do computador Vídeo digital - Classificação Redes neurais (Computação) Computer vision Pattern recognition systems Machine learning Digital video - Classification Neural networks (Computer science) CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Engenharia Elétrica Human Action Recognition (HAR) is a widely studied subject in the current Computer Vision, Machine Learning, and Deep Learning research community. However, HAR is usually performed in a closed-world scenario, where all classes are known in advance. In real-world scenarios, the environment tends to change, and new classes may appear. Traditional closed-world models are ill-equipped to deal with evolving environments and require retraining with large amounts of labeled data to recognize new categories. This work approaches HAR from the Unsupervised Open-World setting. In Unsupervised Open-World Recognition, the model needs to differentiate between known and unknown classes, automatically label the unknown classes, and incrementally learn them using minimal computational time and resources. Initially, this work tackles each of these tasks separately and, finally, as a combined framework that performs Unsupervised Open-World HAR. A metric learning solution is proposed for feature learning, with a model named Triplet Inflated 3D Convolutional Neural Network (TI3D). A method that automatically estimates the number of clusters was presented using a Hierarchical Agglomerative Clustering algorithm for automatically labeling unknown classes. For Incremental Learning (IL), this work proposed the Dual-Memory Extreme Value Machine (DM-EVM). The DM-EVM can perform IL under dynamical feature representations. The proposed framework was evaluated on publicly available video datasets and presented superior performance to other state-of-the-art methods.Overall, this work offers an interesting solution to the problem posed and contributed to the goal of developing models capable of operating in real-world dynamical environments. O Reconhecimento de Ação Humana (RAH) é um assunto amplamente estudado nas áreas de Visão Computacional, Aprendizado de Máquina e Aprendizado Profundo. No entanto, o RAH geralmente é realizado em um cenário fechado, onde todas as classes são conhecidas antecipadamente. Em cenários do mundo real, o ambiente tende a mudar e novas classes podem aparecer. Os modelos tradicionais de conjunto fechado são mal equipados para lidar com ambientes em evolução e exigem retreinamento com grandes quantidades de dados rotulados para reconhecer novas categorias. Este trabalho aborda o RAH a partir do cenário de Mundo Aberto Não Supervisionado. Neste caso, o modelo precisa diferenciar entre classes conhecidas e desconhecidas, rotular automaticamente as desconhecidas e aprendê-las de forma incremental usando o mínimo de tempo e recursos computacionais. Inicialmente, este trabalho aborda cada uma dessas tarefas separadamente e, por fim, como um framework combinado que realiza o RAH de forma não supervisionada em mundo aberto. Uma solução de aprendizado de métrica foi proposta para realizar o aprendizado de características, com um modelo denominado Rede Neural Convolucional 3D Inflada Tripla (TI3D). Além disso, um método que estima automaticamente o número de grupos em dados desconhecidos foi desenvolvido usando um algoritmo de agrupamento aglomerativo hierárquico. Para o Aprendizado Incremental (AI), este trabalho propôs o Dual-Memory Extreme Value Machine (DM-EVM). O DM-EVM pode executar AI usando representações dinâmicas de características. O modelo proposto foi avaliado em conjuntos de dados de vídeo disponíveis publicamente e apresentou desempenho superior a outros métodos do estado da arte. No geral, este trabalho oferece uma solução interessante para o problema descrito e contribuiu para o objetivo de desenvolver modelos capazes de operar em ambientes dinâmicos do mundo real. 2022-08-12T21:48:48Z 2022-08-12T21:48:48Z 2022-06-10 doctoralThesis GUTOSKI, Matheus. Reconhecimento de vídeos de ações humanas em um mundo aberto: contribuições teóricas e metodológicas. 2022. Tese (Doutorado em Engenharia Elétrica e Informática Industrial) - Universidade Tecnológica Federal do Paraná, Curitiba, 2022. http://repositorio.utfpr.edu.br/jspui/handle/1/29245 por openAccess http://creativecommons.org/licenses/by/4.0/ application/pdf Universidade Tecnológica Federal do Paraná Curitiba Brasil Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial UTFPR |
institution |
Universidade Tecnológica Federal do Paraná |
collection |
RIUT |
language |
Português |
topic |
Visão por computador Sistemas de reconhecimento de padrões Aprendizado do computador Vídeo digital - Classificação Redes neurais (Computação) Computer vision Pattern recognition systems Machine learning Digital video - Classification Neural networks (Computer science) CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Engenharia Elétrica |
spellingShingle |
Visão por computador Sistemas de reconhecimento de padrões Aprendizado do computador Vídeo digital - Classificação Redes neurais (Computação) Computer vision Pattern recognition systems Machine learning Digital video - Classification Neural networks (Computer science) CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Engenharia Elétrica Gutoski, Matheus Reconhecimento de vídeos de ações humanas em um mundo aberto: contribuições teóricas e metodológicas |
description |
Human Action Recognition (HAR) is a widely studied subject in the current Computer Vision, Machine Learning, and Deep Learning research community. However, HAR is usually performed in a closed-world scenario, where all classes are known in advance. In real-world scenarios, the environment tends to change, and new classes may appear. Traditional closed-world models are ill-equipped to deal with evolving environments and require retraining with large amounts of labeled data to recognize new categories. This work approaches HAR from the Unsupervised Open-World setting. In Unsupervised Open-World Recognition, the model needs to differentiate between known and unknown classes, automatically label the unknown classes, and incrementally learn them using minimal computational time and resources. Initially, this work tackles each of these tasks separately and, finally, as a combined framework that performs Unsupervised Open-World HAR. A metric learning solution is proposed for feature learning, with a model named Triplet Inflated 3D Convolutional Neural Network (TI3D). A method that automatically estimates the number of clusters was presented using a Hierarchical Agglomerative Clustering algorithm for automatically labeling unknown classes. For Incremental Learning (IL), this work proposed the Dual-Memory Extreme Value Machine (DM-EVM). The DM-EVM can perform IL under dynamical feature representations. The proposed framework was evaluated on publicly available video datasets and presented superior performance to other state-of-the-art methods.Overall, this work offers an interesting solution to the problem posed and contributed to the goal of developing models capable of operating in real-world dynamical environments. |
format |
Tese |
author |
Gutoski, Matheus |
author_sort |
Gutoski, Matheus |
title |
Reconhecimento de vídeos de ações humanas em um mundo aberto: contribuições teóricas e metodológicas |
title_short |
Reconhecimento de vídeos de ações humanas em um mundo aberto: contribuições teóricas e metodológicas |
title_full |
Reconhecimento de vídeos de ações humanas em um mundo aberto: contribuições teóricas e metodológicas |
title_fullStr |
Reconhecimento de vídeos de ações humanas em um mundo aberto: contribuições teóricas e metodológicas |
title_full_unstemmed |
Reconhecimento de vídeos de ações humanas em um mundo aberto: contribuições teóricas e metodológicas |
title_sort |
reconhecimento de vídeos de ações humanas em um mundo aberto: contribuições teóricas e metodológicas |
publisher |
Universidade Tecnológica Federal do Paraná |
publishDate |
2022 |
citation |
GUTOSKI, Matheus. Reconhecimento de vídeos de ações humanas em um mundo aberto: contribuições teóricas e metodológicas. 2022. Tese (Doutorado em Engenharia Elétrica e Informática Industrial) - Universidade Tecnológica Federal do Paraná, Curitiba, 2022. |
url |
http://repositorio.utfpr.edu.br/jspui/handle/1/29245 |
_version_ |
1805304832573046784 |
score |
10,814766 |