Scaffolding algorithm using multiple referencegenomes: a case study of the rhizobium ecuadorensecnpso 671t

Recently, we started to realize the long-term consequences of artificial fertilizers. Besides, understanding the relationships between plants and micro-organisms in the soil (such as fungus -Mycorrhiza- and bacteria -Rhizobacteria-) has become the center of numerous studies looking forward to feedin...

ver descrição completa

Autor principal: Mercado, Hugo Mauricio Pena
Formato: Dissertação
Idioma: Inglês
Publicado em: Universidade Tecnológica Federal do Paraná 2020
Assuntos:
Acesso em linha: http://repositorio.utfpr.edu.br/jspui/handle/1/5439
Tags: Adicionar Tag
Sem tags, seja o primeiro a adicionar uma tag!
id riut-1-5439
recordtype dspace
spelling riut-1-54392020-11-04T06:01:26Z Scaffolding algorithm using multiple referencegenomes: a case study of the rhizobium ecuadorensecnpso 671t Mercado, Hugo Mauricio Pena Kashiwabara, Andre Yoshiaki 0000-0003-3280-2035 http://lattes.cnpq.br/3194328548975437 Cunha, Mariangela Hungria da http://lattes.cnpq.br/7355162785040506 Durham, Alan Mitchell http://lattes.cnpq.br/1927611801056285 Kashiwabara, Andre Yoshiaki http://lattes.cnpq.br/3194328548975437 Lopes, Fabricio Martins http://lattes.cnpq.br/1660070580824436 Genoma Nitrogênio - Fixação Plasmídeos Genomes Nitrogen - Fixation Plasmids CNPQ::ENGENHARIAS::ENGENHARIA BIOMEDICA::BIOENGENHARIA Engenharia/Tecnologia/Gestão Recently, we started to realize the long-term consequences of artificial fertilizers. Besides, understanding the relationships between plants and micro-organisms in the soil (such as fungus -Mycorrhiza- and bacteria -Rhizobacteria-) has become the center of numerous studies looking forward to feeding a 9.8 billion people world1. An approach to further study those organisms is the sequencing of its DNA. However, when these sequencing technologies only allow us to generate short-reads, this becomes a challenging computational problem(due to the presence of repeated sequences and non-uniform coverage). Here we present a scaffolding algorithm using multiple-reference genomes, that can discriminate between misassemblies and generate putative plasmids and chromosomes. Although there are many scaffolding algorithms already2, we found none of them take as input genomes in the contig stage, even though these genomes might also contain useful information. Furthermore, these scaffolders only take care of the assembly of scaffolds and neglect the possible introduction of misassemblies due to the use of graphs and heuristics. Our algorithm offers an alternative for more advanced analysis of genomes, and the possibility to personalize the outputted scaffolds according to specific needs. We hope our algorithm could help identify symbiotic plasmids within genomes, by finding homologous in reference genomes. Besides, the generalization of scaffolding can be brought not only to prokaryotes but also to larger genomes such as eukaryotes. Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) Universidade Tecnológica Federal do Paraná (UTFPR) As consequências de longo prazo da utilização dos fertilizantes artificiais começaram a serem percebidas. Além disso, as relações entre plantas e microorganismos no solo (tal como fungos -Mycorrhiza- e bactéria -Rhizobacteria-) vem se tornando tema de vários estudos que estão preocupados na alimentação de 9.8 bilhões de pessoas no mundo. Uma abordagem para estudar mais profundamente esses microorganismos é através do sequenciamento do DNA. Contudo, as tecnologias de sequenciamento geram sequências curtas, fornecendo um problema computacionalmente desafiante devido a presença de repetições e cobertura não-uniforme. Neste trabalho, é apresentado um algoritmo para o problema de scaffolding utilizando múltiplos genomas de referência, que tenta evitar os erros de montagens (missassemblies) e fornecer tanto cromossomos putativos, quanto plasmídeos putativos. Embora existam alguns algoritmos para o problema de scaffolding, não foi encontrado nenhum que recebe montagens de genomas em seu estado de contigs como referência, mesmo que essas montagens contenham informações úteis. Além disso, esses algoritmos apenas montam um único scaffold e negligenciam a possibilidade de introduzir misassemblies causados pela utilização de grafos e heurísticas. O algoritmo proposto oferece como alternativa uma analise mais avançada dos genomas, e a possibilidade de customizar a saída de acordo com necessidades específicas. É proposto que o algoritmo ajude na identificação de plasmídeos simbióticos com genomas, encontrando possíveis homólogos nos genomas de referencias. Finalmente, uma futura generalização do algoritmo de scaffolding poderá ser utilizado não apenas para procariotos, mas também para grandes genomas eucarióticos. 2020-11-03T18:59:17Z 2020-11-03T18:59:17Z 2019-12-12 masterThesis MERCADO, Hugo Mauricio Pena. Scaffolding algorithm using multiple reference genomes: a case study of the rhizobium ecuadorense cnpso 671t. 2019. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2019. http://repositorio.utfpr.edu.br/jspui/handle/1/5439 eng openAccess application/pdf Universidade Tecnológica Federal do Paraná Cornelio Procopio Brasil Programa de Pós-Graduação em Bioinformática UTFPR
institution Universidade Tecnológica Federal do Paraná
collection RIUT
language Inglês
topic Genoma
Nitrogênio - Fixação
Plasmídeos
Genomes
Nitrogen - Fixation
Plasmids
CNPQ::ENGENHARIAS::ENGENHARIA BIOMEDICA::BIOENGENHARIA
Engenharia/Tecnologia/Gestão
spellingShingle Genoma
Nitrogênio - Fixação
Plasmídeos
Genomes
Nitrogen - Fixation
Plasmids
CNPQ::ENGENHARIAS::ENGENHARIA BIOMEDICA::BIOENGENHARIA
Engenharia/Tecnologia/Gestão
Mercado, Hugo Mauricio Pena
Scaffolding algorithm using multiple referencegenomes: a case study of the rhizobium ecuadorensecnpso 671t
description Recently, we started to realize the long-term consequences of artificial fertilizers. Besides, understanding the relationships between plants and micro-organisms in the soil (such as fungus -Mycorrhiza- and bacteria -Rhizobacteria-) has become the center of numerous studies looking forward to feeding a 9.8 billion people world1. An approach to further study those organisms is the sequencing of its DNA. However, when these sequencing technologies only allow us to generate short-reads, this becomes a challenging computational problem(due to the presence of repeated sequences and non-uniform coverage). Here we present a scaffolding algorithm using multiple-reference genomes, that can discriminate between misassemblies and generate putative plasmids and chromosomes. Although there are many scaffolding algorithms already2, we found none of them take as input genomes in the contig stage, even though these genomes might also contain useful information. Furthermore, these scaffolders only take care of the assembly of scaffolds and neglect the possible introduction of misassemblies due to the use of graphs and heuristics. Our algorithm offers an alternative for more advanced analysis of genomes, and the possibility to personalize the outputted scaffolds according to specific needs. We hope our algorithm could help identify symbiotic plasmids within genomes, by finding homologous in reference genomes. Besides, the generalization of scaffolding can be brought not only to prokaryotes but also to larger genomes such as eukaryotes.
format Dissertação
author Mercado, Hugo Mauricio Pena
author_sort Mercado, Hugo Mauricio Pena
title Scaffolding algorithm using multiple referencegenomes: a case study of the rhizobium ecuadorensecnpso 671t
title_short Scaffolding algorithm using multiple referencegenomes: a case study of the rhizobium ecuadorensecnpso 671t
title_full Scaffolding algorithm using multiple referencegenomes: a case study of the rhizobium ecuadorensecnpso 671t
title_fullStr Scaffolding algorithm using multiple referencegenomes: a case study of the rhizobium ecuadorensecnpso 671t
title_full_unstemmed Scaffolding algorithm using multiple referencegenomes: a case study of the rhizobium ecuadorensecnpso 671t
title_sort scaffolding algorithm using multiple referencegenomes: a case study of the rhizobium ecuadorensecnpso 671t
publisher Universidade Tecnológica Federal do Paraná
publishDate 2020
citation MERCADO, Hugo Mauricio Pena. Scaffolding algorithm using multiple reference genomes: a case study of the rhizobium ecuadorense cnpso 671t. 2019. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2019.
url http://repositorio.utfpr.edu.br/jspui/handle/1/5439
_version_ 1805303285163229184
score 10,814766