Desenvolvimento de um algoritmo imunológico para agrupamento de dados
Mostra/ Apri
Autore
Machado, Raquel de Lima
Orientador
Weber, Carine Geltrudes
Metadata
Mostra tutti i dati dell'itemAbstract
A tarefa de agrupar dados é de grande valia no mundo atual, visto que a quantidade de dados armazenados e manipulados tem crescido muito. O principal objetivo de um processo de agrupamento é formar grupos de instâncias, de forma a aumentar a homogeneidade dentro do grupo e a heterogeneidade entre grupos. Um processo de agrupamento é composto por cinco etapas principais: (a) preparação dos dados, (b) escolha de uma medida de similaridade, (c) seleção de uma técnica de agrupamento, (d) validação dos grupos formados e por fim, (e) a interpretação dos resultados. Este trabalho apresenta uma revisão de cada uma dessas etapas separadamente. Sabe-se que cada problema de agrupamento pode ser melhor resolvido por um método adequado , porém nem todos os métodos conseguem resolver todos os problemas de uma maneira satisfatória. O objetivo deste trabalho é propor um algoritmo para agrupamento de dados com base no comportamento do sistema imunológico. Os sistemas imunológicos artificiais se baseiam nos processos do sistema imune dos vertebrados, em especial na teoria da seleção clonal, no princípio da seleção negativa e na teoria das redes imunológicas. Todas elas auxiliam na construção de novos algoritmos, como o sistema imunológico de reconhecimento de padrão e alguns algoritmos de agrupamento descritos neste trabalho. Partindo-se do estudo de agrupamento de dados e das teorias do sistema imunológico artificial é proposto um algoritmo que tem como entrada um dataset, e como saída um conjunto de grupos dos dados. O algoritmo foi desenvolvido utilizando a linguagem Java e sua arquitetura foi feita em três camadas. Foram realizados testes em três datasets públicos: Iris Plants Database, Wisconsin Breast Cancer Database e Diabetes Data Set. Os resultados obtidos de cada um dos datasets foram comparados com os resultados do algoritmo k-means. O algoritmo imunológico se mostrou tão ou mais eficiente que o algoritmo k-means em todos os datasets testados (sic).