top of page

Muito obrigada por acessar meu portfolio e pelo interesse a esse projeto!

Este portfolio continua em construção, e logo farei uma descrição da análise e do desenvolvimento do pipeline de forma mais detalhada.

Por enquanto, você pode acessar o projeto em forma de qualificação de doutorado acessando o link a seguir: 

Qualquer dúvida não hesite em me contatar para maiores dúvidas e esclarecimentos pelo e-mail tahilaandrighetti@gmail.com .

RESUMO

 

Estudos de metagenômica têm evidenciado a importância da composição das comunidades microbianas nos mais diversos ambientes. A partir da metagenômica é possível sequenciar e analisar o material genético de uma comunidade microbiana sem a necessidade de cultura dos micro-organismos. Uma vez que 99% dos micro-organismos não são cultiváveis, a metagenômica se tornou a metodologia padrão para investigar a dinâmica e composição das comunidades microbianas. Entretanto, os metagenomas são compostos por diversos fragmentos de DNA originados de diferentes micro-organismos. Além disso, a falta de genomas de referência nos bancos de dados dificulta a identificação taxonômica de organismos desconhecidos.

 

Nesse trabalho, avaliamos o poder de predição de uma ferramenta de classificação taxonômica de reads de metagenômica desconhecidos desenvolvida a partir do algoritmo de aprendizagem de máquina Support Vector Machine (SVM).

 

Para simular a identificação de micro-organismos desconhecidos, utilizamos sequência de Gammaproteobacteria excluindo as sequências da espécie Escherichia coli como conjunto de treinamento para a SVM. Do modelo treinado, classificamos as sequências de E. coli e computamos as corretamente identificadas como Gammaproteobacteria. Executamos os testes com sequências de 100, 400 e 1000 pares de base para avaliar a influência do tamanho na predição. As simulações foram executadas utilizando as seguintes características de sequência como dados de entrada para o SVM: conteúdo GC, entropia de di, tri e tetrapletes, frequências de di, tri e tetranucleotídeos (2, 3 e 4-mers), abundância de dinucleotídeos e correlações de tetranucleotídeos derivadas de z-score (TETRA).

 

Nós testamos conjuntos de medidas compostas por todos parâmetros excluindo um de cada vez para comparar o impacto relativo de cada medida. Observamos que os grupos que excluíam TETRA apresentam menos poder de predição para a maioria dos tamanhos testados. Os outros grupos mostraram valores AUC maiores do que 0.7 para a predição de sequências desconhecidas.

 

Os resultados mostram que a utilização das características de sequência é uma abordagem interessante para caracterizar sequências de organismos cujas sequências não estão disponíveis em bancos de dados e para a realização de caracterização taxonômica de comunidades microbianas.

bottom of page