Algoritmos de clusterização aplicados na análise genômica da bactéria Escherichia coli
Author
Fontana, Eduardo Andreetta
Orientador
Silva, Scheila de Avila e
Metadata
Show full item recordAbstract
Um volume crescente de dados de sequências genômicas está disponível em banco de dados públicos e privados. Além desse armazenamento ocorre, paralelamente, a necessidade de análise desses dados através de plataformas computacionais. A exploração destes dados por um processo mediado por computador caracteriza-se uma tarefa de mineração de dados e pode ser realizada por meio de diferentes abordagens, dentre as quais a clusterização (clustering, agrupamento, ou análise de cluster). Este trabalho consiste em efetuar uma análise genômica do DNA da bactéria E. coli (Escherichia coli) através da aplicação dos métodos de clusterização como os algoritmos K-Means e CURE (Clustering Using Representatives ? Clusterização Utilizando Representantes). Estes algoritmos foram implementados em uma linguagem de programação de modo a processar os segmentos de promotores, genes e terminadores do DNA da bactéria, através do uso de ferramentas diferenciadas e uma metodologia própria, com base nas etapas da análise de cluster. Os resultados obtidos foram analisados e comparados de modo a demonstrar a eficácia do reconhecimento de padrões por vias computacionais, contribuindo assim nos estudos de pesquisas com padrões de genes, promotores e terminadores desta bactéria. Sendo que, os clusters gerados apresentaram aglomerações pertinentes ao contexto biológico, isto é, cluster com muitas sequências pertencentes a uma mesma classificação. Considerando que ambos os algoritmos apresentaram grupos de objetos bem definidos, em pelo menos um contexto de configuração, a técnica mostra-se válida e aberta a aplicações futuras (sic).