RNAplonc: um classificador para identificação de longos RNAs não codificantes em plantas

Long non-coding RNAs (lncRNAs) correspond to a non-coding RNA class that has gained emerging attention in the last years as a higher layer of regulation for gene expression in cells. There is, however, a lack of specific computational approaches to reliably predict lncRNA in plants, which contrast w...

ver descrição completa

Autor principal: Negri, Tatianne da Costa
Formato: Dissertação
Idioma: Português
Publicado em: Universidade Tecnológica Federal do Paraná 2018
Assuntos:
Acesso em linha: http://repositorio.utfpr.edu.br/jspui/handle/1/3415
Tags: Adicionar Tag
Sem tags, seja o primeiro a adicionar uma tag!
id riut-1-3415
recordtype dspace
spelling riut-1-34152018-09-04T13:00:53Z RNAplonc: um classificador para identificação de longos RNAs não codificantes em plantas Negri, Tatianne da Costa Paschoal, Alexandre Rossi http://lattes.cnpq.br/5834088144837137 Domingues, Douglas Silva http://lattes.cnpq.br/7905667701769534 Paschoal, Alexandre Rossi Vitorello, Claudia Barros Monteiro Walter, Maria Emília Machado Telles Bioinformática Plantas - Análise Biologia - Classificação Bioinformatics Plants - Analysis Biology - Classification CNPQ::CIENCIAS EXATAS E DA TERRA Genética Long non-coding RNAs (lncRNAs) correspond to a non-coding RNA class that has gained emerging attention in the last years as a higher layer of regulation for gene expression in cells. There is, however, a lack of specific computational approaches to reliably predict lncRNA in plants, which contrast with the myriad of prediction tools available for mammalian lncRNAs. Given that the biological features and mechanisms generating lncRNAs in the cell are likely different between animals and plants, specific tools for plants is a need for these studies. With this in mind, we present here RNAplonc, a classifier approach for the identification of lncRNAs in plants from mRNA-based data. To build this tool, we used publicly available lncRNA and mRNA sequences from six plant genomes: Arabidopsis thaliana, Cucumis sativus, Glycine max, Oryza sativa, Populus trichocarpa and Setaria italica. This data was extracted from the public databases PLNlncRbase, GreeNC and Phytozome, from which we used 22.543 lncRNAs and 29.960 mRNAs as a training set. We selected 16 features that could best classify lncRNAs from 5.468 features with the REPTree algorithm for lncRNA. After an extensive comparison with tools used for lncRNA identification in plants (CPC) and animals (PLEK and lncRScan-SVM), we found that RNAplonc obtained a better accuracy (92%) in the training dataset when compared to the 77% of accuracy obtained with the CPC tool. We also found that RNAplonc produced more reliable lncRNA predictions from plant transcripts, as estimated for 17 datasets in 13 species from the CANTATAdb, GreeNC and PNRD databases. We also evaluated RNAplonc performance in two case studies that identified lncRNAs from Populus tomentosa and Gossypium, respectively. RNAplonc could correctly identify 98.5% of biologically validated lncRNAs in Populus and 99.1% in Gossypium. RNAplonc, its documentation and training datasets are available at the website: http://rnaplonc.cp.utfpr.edu.br/. We can conclude that RNAplonc retrieves correctly known plant lncRNAs. Moreover, RNAplonc can be a strategy for lncRNA discovery, providing a rich resource of candidate lncRNAs specifically for plants. Fundação Araucária de Apoio ao Desenvolvimento Científico e Tecnológico do Paraná Universidade Tecnológica Federal do Paraná (UTFPR) Longos RNAs não-codificantes (lncRNAs) pertencem a classe dos RNAs que não codificam proteínas e que estão relacionados às diversas funções biológicas, como modificações da cromatina, regulação pós-transcricional, tradução, organização nuclear e diversos processos de desenvolvimento. Atualmente há uma lacuna de abordagens computacionais específicas para a identificação de lncRNAs em plantas, em oposição à variedade de ferramentas disponíveis para mamíferos. Diferente do que ocorre para outras classes de RNAs não-codificantes, a distinção dos lncRNA entre plantas e animais ainda não está esclarecida. Dado este cenário, este trabalho apresenta o RNAplonc, uma abordagem para a identificação de lncRNAs em plantas. A base da construção foram sequências públicas de lncRNAs e mRNAs disponíveis de seis genomas de plantas: Arabidopsis thaliana, Cucumis sativus, Glycine max, Oryza sativa, Populus trichocarpa e Setaria italica. Foram usados 22.543 lncRNAs e 29.960 mRNAs como conjunto de treinamento a partir de bases de dados públicas PLNlncRbase, GreeNC e Phytozome. Ainda, avaliaram-se 5.468 características em 10 algoritmos de aprendizado de máquina. Os resultados obtidos pela análise de sensibilidade e especificidade de classificação permitiram selecionar 16 características com o algoritmo REPTree, alcançando 93% de acertos na classificação de lncRNAs. Em seguida, avaliou-se o desempenho do RNAplonc com uma ferramenta largamente utilizada para a identificação de lncRNA em plantas (CPC) e outras duas aplicadas para animais (PLEK e lncRScan-SVM). O RNAplonc obteve uma sensibilidade de 99,83% na identificação de lncRNAs no conjunto de dados de treinamento quando comparado com a ferramenta CPC. Ainda, avaliou-se o desempenho do RNAplonc em dois estudos de caso independente que identificaram com evidências biológicas lncRNAs em Populus e Gossypium, tendo assim obtido 98,5% e 99,1% dos lncRNAs identificados em Populus e Gossypium, respectivamente. Toda a documentação e os conjuntos de utilizados (treinamento e testes) estão disponíveis no endereço: http://rnaplonc.cp.utfpr.edu.br/. Por fim, acredita-se que o RNAplonc é uma estratégia para contribuir na descoberta de lncRNAs candidatos especificamente para plantas. 2018-09-04T13:00:53Z 2018-09-04T13:00:53Z 2017-08-24 masterThesis NEGRI, Tatianne da Costa. RNAplonc: um classificador para identificação de Longos RNAs não codificantes em plantas. 2017. 47 f. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2017. http://repositorio.utfpr.edu.br/jspui/handle/1/3415 por openAccess application/pdf Universidade Tecnológica Federal do Paraná Cornelio Procopio Brasil Programa de Pós-Graduação em Bioinformática UTFPR
institution Universidade Tecnológica Federal do Paraná
collection RIUT
language Português
topic Bioinformática
Plantas - Análise
Biologia - Classificação
Bioinformatics
Plants - Analysis
Biology - Classification
CNPQ::CIENCIAS EXATAS E DA TERRA
Genética
spellingShingle Bioinformática
Plantas - Análise
Biologia - Classificação
Bioinformatics
Plants - Analysis
Biology - Classification
CNPQ::CIENCIAS EXATAS E DA TERRA
Genética
Negri, Tatianne da Costa
RNAplonc: um classificador para identificação de longos RNAs não codificantes em plantas
description Long non-coding RNAs (lncRNAs) correspond to a non-coding RNA class that has gained emerging attention in the last years as a higher layer of regulation for gene expression in cells. There is, however, a lack of specific computational approaches to reliably predict lncRNA in plants, which contrast with the myriad of prediction tools available for mammalian lncRNAs. Given that the biological features and mechanisms generating lncRNAs in the cell are likely different between animals and plants, specific tools for plants is a need for these studies. With this in mind, we present here RNAplonc, a classifier approach for the identification of lncRNAs in plants from mRNA-based data. To build this tool, we used publicly available lncRNA and mRNA sequences from six plant genomes: Arabidopsis thaliana, Cucumis sativus, Glycine max, Oryza sativa, Populus trichocarpa and Setaria italica. This data was extracted from the public databases PLNlncRbase, GreeNC and Phytozome, from which we used 22.543 lncRNAs and 29.960 mRNAs as a training set. We selected 16 features that could best classify lncRNAs from 5.468 features with the REPTree algorithm for lncRNA. After an extensive comparison with tools used for lncRNA identification in plants (CPC) and animals (PLEK and lncRScan-SVM), we found that RNAplonc obtained a better accuracy (92%) in the training dataset when compared to the 77% of accuracy obtained with the CPC tool. We also found that RNAplonc produced more reliable lncRNA predictions from plant transcripts, as estimated for 17 datasets in 13 species from the CANTATAdb, GreeNC and PNRD databases. We also evaluated RNAplonc performance in two case studies that identified lncRNAs from Populus tomentosa and Gossypium, respectively. RNAplonc could correctly identify 98.5% of biologically validated lncRNAs in Populus and 99.1% in Gossypium. RNAplonc, its documentation and training datasets are available at the website: http://rnaplonc.cp.utfpr.edu.br/. We can conclude that RNAplonc retrieves correctly known plant lncRNAs. Moreover, RNAplonc can be a strategy for lncRNA discovery, providing a rich resource of candidate lncRNAs specifically for plants.
format Dissertação
author Negri, Tatianne da Costa
author_sort Negri, Tatianne da Costa
title RNAplonc: um classificador para identificação de longos RNAs não codificantes em plantas
title_short RNAplonc: um classificador para identificação de longos RNAs não codificantes em plantas
title_full RNAplonc: um classificador para identificação de longos RNAs não codificantes em plantas
title_fullStr RNAplonc: um classificador para identificação de longos RNAs não codificantes em plantas
title_full_unstemmed RNAplonc: um classificador para identificação de longos RNAs não codificantes em plantas
title_sort rnaplonc: um classificador para identificação de longos rnas não codificantes em plantas
publisher Universidade Tecnológica Federal do Paraná
publishDate 2018
citation NEGRI, Tatianne da Costa. RNAplonc: um classificador para identificação de Longos RNAs não codificantes em plantas. 2017. 47 f. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2017.
url http://repositorio.utfpr.edu.br/jspui/handle/1/3415
_version_ 1805320623378923520
score 10,814766