Scaffolding algorithm using multiple referencegenomes: a case study of the rhizobium ecuadorensecnpso 671t
Recently, we started to realize the long-term consequences of artificial fertilizers. Besides, understanding the relationships between plants and micro-organisms in the soil (such as fungus -Mycorrhiza- and bacteria -Rhizobacteria-) has become the center of numerous studies looking forward to feedin...
Autor principal: | Mercado, Hugo Mauricio Pena |
---|---|
Formato: | Dissertação |
Idioma: | Inglês |
Publicado em: |
Universidade Tecnológica Federal do Paraná
2020
|
Assuntos: | |
Acesso em linha: |
http://repositorio.utfpr.edu.br/jspui/handle/1/5439 |
Tags: |
Adicionar Tag
Sem tags, seja o primeiro a adicionar uma tag!
|
id |
riut-1-5439 |
---|---|
recordtype |
dspace |
spelling |
riut-1-54392020-11-04T06:01:26Z Scaffolding algorithm using multiple referencegenomes: a case study of the rhizobium ecuadorensecnpso 671t Mercado, Hugo Mauricio Pena Kashiwabara, Andre Yoshiaki 0000-0003-3280-2035 http://lattes.cnpq.br/3194328548975437 Cunha, Mariangela Hungria da http://lattes.cnpq.br/7355162785040506 Durham, Alan Mitchell http://lattes.cnpq.br/1927611801056285 Kashiwabara, Andre Yoshiaki http://lattes.cnpq.br/3194328548975437 Lopes, Fabricio Martins http://lattes.cnpq.br/1660070580824436 Genoma Nitrogênio - Fixação Plasmídeos Genomes Nitrogen - Fixation Plasmids CNPQ::ENGENHARIAS::ENGENHARIA BIOMEDICA::BIOENGENHARIA Engenharia/Tecnologia/Gestão Recently, we started to realize the long-term consequences of artificial fertilizers. Besides, understanding the relationships between plants and micro-organisms in the soil (such as fungus -Mycorrhiza- and bacteria -Rhizobacteria-) has become the center of numerous studies looking forward to feeding a 9.8 billion people world1. An approach to further study those organisms is the sequencing of its DNA. However, when these sequencing technologies only allow us to generate short-reads, this becomes a challenging computational problem(due to the presence of repeated sequences and non-uniform coverage). Here we present a scaffolding algorithm using multiple-reference genomes, that can discriminate between misassemblies and generate putative plasmids and chromosomes. Although there are many scaffolding algorithms already2, we found none of them take as input genomes in the contig stage, even though these genomes might also contain useful information. Furthermore, these scaffolders only take care of the assembly of scaffolds and neglect the possible introduction of misassemblies due to the use of graphs and heuristics. Our algorithm offers an alternative for more advanced analysis of genomes, and the possibility to personalize the outputted scaffolds according to specific needs. We hope our algorithm could help identify symbiotic plasmids within genomes, by finding homologous in reference genomes. Besides, the generalization of scaffolding can be brought not only to prokaryotes but also to larger genomes such as eukaryotes. Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) Universidade Tecnológica Federal do Paraná (UTFPR) As consequências de longo prazo da utilização dos fertilizantes artificiais começaram a serem percebidas. Além disso, as relações entre plantas e microorganismos no solo (tal como fungos -Mycorrhiza- e bactéria -Rhizobacteria-) vem se tornando tema de vários estudos que estão preocupados na alimentação de 9.8 bilhões de pessoas no mundo. Uma abordagem para estudar mais profundamente esses microorganismos é através do sequenciamento do DNA. Contudo, as tecnologias de sequenciamento geram sequências curtas, fornecendo um problema computacionalmente desafiante devido a presença de repetições e cobertura não-uniforme. Neste trabalho, é apresentado um algoritmo para o problema de scaffolding utilizando múltiplos genomas de referência, que tenta evitar os erros de montagens (missassemblies) e fornecer tanto cromossomos putativos, quanto plasmídeos putativos. Embora existam alguns algoritmos para o problema de scaffolding, não foi encontrado nenhum que recebe montagens de genomas em seu estado de contigs como referência, mesmo que essas montagens contenham informações úteis. Além disso, esses algoritmos apenas montam um único scaffold e negligenciam a possibilidade de introduzir misassemblies causados pela utilização de grafos e heurísticas. O algoritmo proposto oferece como alternativa uma analise mais avançada dos genomas, e a possibilidade de customizar a saída de acordo com necessidades específicas. É proposto que o algoritmo ajude na identificação de plasmídeos simbióticos com genomas, encontrando possíveis homólogos nos genomas de referencias. Finalmente, uma futura generalização do algoritmo de scaffolding poderá ser utilizado não apenas para procariotos, mas também para grandes genomas eucarióticos. 2020-11-03T18:59:17Z 2020-11-03T18:59:17Z 2019-12-12 masterThesis MERCADO, Hugo Mauricio Pena. Scaffolding algorithm using multiple reference genomes: a case study of the rhizobium ecuadorense cnpso 671t. 2019. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2019. http://repositorio.utfpr.edu.br/jspui/handle/1/5439 eng openAccess application/pdf Universidade Tecnológica Federal do Paraná Cornelio Procopio Brasil Programa de Pós-Graduação em Bioinformática UTFPR |
institution |
Universidade Tecnológica Federal do Paraná |
collection |
RIUT |
language |
Inglês |
topic |
Genoma Nitrogênio - Fixação Plasmídeos Genomes Nitrogen - Fixation Plasmids CNPQ::ENGENHARIAS::ENGENHARIA BIOMEDICA::BIOENGENHARIA Engenharia/Tecnologia/Gestão |
spellingShingle |
Genoma Nitrogênio - Fixação Plasmídeos Genomes Nitrogen - Fixation Plasmids CNPQ::ENGENHARIAS::ENGENHARIA BIOMEDICA::BIOENGENHARIA Engenharia/Tecnologia/Gestão Mercado, Hugo Mauricio Pena Scaffolding algorithm using multiple referencegenomes: a case study of the rhizobium ecuadorensecnpso 671t |
description |
Recently, we started to realize the long-term consequences of artificial fertilizers. Besides, understanding the relationships between plants and micro-organisms in the soil (such as fungus -Mycorrhiza- and bacteria -Rhizobacteria-) has become the center of numerous studies looking forward to feeding a 9.8 billion people world1. An approach to further study those organisms is the sequencing of its DNA. However, when these sequencing technologies only allow us to generate short-reads, this becomes a challenging computational problem(due to the presence of repeated sequences and non-uniform coverage). Here we present a scaffolding algorithm using multiple-reference genomes, that can discriminate between misassemblies and generate putative plasmids and chromosomes. Although there are many scaffolding algorithms already2, we found none of them take as input genomes in the contig stage, even though these genomes might also contain useful information. Furthermore, these scaffolders only take care of the assembly of scaffolds and neglect the possible introduction of misassemblies due to the use of graphs and heuristics. Our algorithm offers an alternative for more advanced analysis of genomes, and the possibility to personalize the outputted scaffolds according to specific needs. We hope our algorithm could help identify symbiotic plasmids within genomes, by finding homologous in reference genomes. Besides, the generalization of scaffolding can be brought not only to prokaryotes but also to larger genomes such as eukaryotes. |
format |
Dissertação |
author |
Mercado, Hugo Mauricio Pena |
author_sort |
Mercado, Hugo Mauricio Pena |
title |
Scaffolding algorithm using multiple referencegenomes: a case study of the rhizobium ecuadorensecnpso 671t |
title_short |
Scaffolding algorithm using multiple referencegenomes: a case study of the rhizobium ecuadorensecnpso 671t |
title_full |
Scaffolding algorithm using multiple referencegenomes: a case study of the rhizobium ecuadorensecnpso 671t |
title_fullStr |
Scaffolding algorithm using multiple referencegenomes: a case study of the rhizobium ecuadorensecnpso 671t |
title_full_unstemmed |
Scaffolding algorithm using multiple referencegenomes: a case study of the rhizobium ecuadorensecnpso 671t |
title_sort |
scaffolding algorithm using multiple referencegenomes: a case study of the rhizobium ecuadorensecnpso 671t |
publisher |
Universidade Tecnológica Federal do Paraná |
publishDate |
2020 |
citation |
MERCADO, Hugo Mauricio Pena. Scaffolding algorithm using multiple reference genomes: a case study of the rhizobium ecuadorense cnpso 671t. 2019. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2019. |
url |
http://repositorio.utfpr.edu.br/jspui/handle/1/5439 |
_version_ |
1805303285163229184 |
score |
10,814766 |