Predição de regiões promotoras em Bacillus subtilis através do uso de redes neurais artificiais e máquinas de vetor de suporte
Fecha
2018-06-07Autor
Coelho, Rafael Vieira
Orientador
Delamare, Ana Paula Longaray
Metadatos
Mostrar el registro completo del ítemResumen
O processo de transcrição diz respeito à leitura da informação contida no DNA para geração do RNA mensageiro correspondente. Para iniciar o processo de transcrição de um determinado gene, a enzima RNA polimerase necessita reconhecer a região promotora, atuando assim na regulação da expressão dos genes. A literatura propõe diversos métodos computacionais para a predição de sequências promotoras, mas a maioria dos trabalhos concentra-se em bactérias Gram-negativas. O objetivo deste trabalho é predizer promotores em regiões intergênicas da bactéria Bacillus subtilis (Gram-positiva) através da aplicação de técnicas de aprendizado de máquina: Redes Neurais Artificias (RN) e Máquinas de Vetor de Suporte (SVM). O treinamento das RN foi realizado através do algoritmo Multilayer Perceptron (MLP) que se baseia na regra de aprendizagem por correção de erro (backpropagation). Já para SVM, destaca-se os kernels (faz o mapeamento no espaço de características para a identificação dos vetores de suporte ideais) Radial Basis Function (RBF) que utiliza uma função gaussiana; SIGMOID que utiliza uma função de tangente hiperbólica; e Nu-Support Vector Classification (Nu-SVC) que limita o custo de penalização entre 0 e 1. O primeiro passo do trabalho foi a coleta do genoma e dos promotores reconhecidos pelos fatores sigma da bactéria Bacillus subtilis a partir dos dadoscontidos em bancos de dados públicos. O processamento dos dados biológicos obtidos da bactéria Bacillus subtilis gerou 767 regiões promotoras, sendo a maioria encontrada a partir do fator Sigma SigA. Estes dados foram processados e utilizados como entrada na aplicação das técnicas de aprendizado de máquina RN e SVM. Desta forma, foi possível comparar o desempenho das duas soluções para o problema em questão. Em ambas as soluções foram usados os mesmos dados de entrada e validação cruzada (k-cross validation) de 5-fold. Os resultados são condizentes e competitivos com os encontrados na literatura, obtendo 93.20% e 95.63% de acurácia em sua predição com o SVM (combinando os kernels SIGMOID e RBF com o algoritmo Nu-SVC) e obtendo 98.57% e 97.69% de acurácia em sua predição com RN (MLP com 5 e 7 neurônios na camada oculta e 1 neurônio na camada de saída). A partir dos resultados obtidos, é possível afirmar que a predição, reconhecimento e caracterização de regiões promotoras de Bacillus subtilis pode ser realizado com sucesso tanto usando RN quanto SVM, embora RN tenha obtido melhor desempenho.