Estudo comparativo de algoritmos de agrupamento para mineração de dados educacionais
Autor
Zat, Daline
Orientador
Webber, Carine Geltrudes
Metadatos
Mostrar el registro completo del ítemResumen
A mineração de dados educacionais é um campo de pesquisa que vem adquirindo destaque dentro da área de mineração de dados. Ela é uma disciplina que busca obter novas informações através de dados educacionais com o intuito de desenvolver e fortalecer as teorias cognitivas de ensino-aprendizagem. O grande volume dos dados educacionais disponíveis dificulta a análise manual dos mesmos, por isso são necessárias técnicas automáticas para fazer essa análise. Dentre estas técnicas destaca-se: a predição, o agrupamento, a mineração relacional, a descoberta com modelos e a destilação de dados para o julgamento humano. Sendo uma das mais importantes, a técnica de agrupamento consiste em formar grupos de dados com grande similaridade entre si e uma grande dissimilaridade entre elementos de grupos diferentes. Este trabalho apresenta uma revisão bibliográfica sobre mineração de dados educacionais e o uso de técnicas de agrupamento de dados, apresentando um estudo comparativo dos algoritmos de agrupamento, tais como: k-média, maximização da expectativa, modelo imunológico e métodos hierárquicos. O algoritmo k-média é o mais conhecido dentre os algoritmos de agrupamento. Ele forma os grupos visando minimizar a distância entre os elementos do grupo em relação ao centro. A maximização da expectativa é um algoritmo de estimativa e possui o objetivo de encontrar o melhor ajuste de um modelo para um conjunto de dados através da estimativa da máxima verossimilhança. O modelo imunológico procura formar grupos, levando em consideração uma maior homogeneidade entre os elementos do mesmo grupo e uma maior heterogeneidade entre os elementos de grupos diferentes, utilizando dois conceitos da área de Sistemas Imunológicos Artificiais. Os algoritmos hierárquicos agrupam os elementos em uma estrutura de árvore, organizando os grupos em formato hierárquico, resultando assim uma sequência aninhada de partições. Neste estudo, foram utilizadas as ferramentas WEKA (Mark et al., 2009) e R (Chambers, 2008). Além disso, três conjuntos de dados públicos: Geometry, Chinese Tone Study e Álgebra I 2006 foram analisados. Os resultados da execução dos algoritmos foram tabulados e analisados através dos critérios de homogeneidade e separação. A análise dos critérios identificou que os algoritmos não estão suficientemente preparados para trabalhar com os dados educacionais. Dentre todos os testes o algoritmo imunológico foi o que apresentou melhores resultados em relação aos critérios de homogeneidade e separação (sic).