Classificação de mensagens de e-mail utilizando o algoritmo Artificial Bee Colony
View/ Open
Author
Crestani, Vinícius
Orientador
Webber, Carine Geltrudes
Metadata
Show full item recordAbstract
Insetos como abelhas, formigas e cupins apresentam um nível de inteligência individual muito baixo, mas coletivamente são capazes de resolver problemas complexos de forma altamente organizada (Lianying e Fengyu, 2006). Buscando inspiração no senso de inteligência coletiva destes insetos, este trabalho tem o objetivo de realizar um estudo sobre algoritmos que baseiam-se nesta metáfora e assim desenvolver um sistema que seja capaz de identificar e classificar mensagens de e-mail. O algoritmo utilizado neste trabalho é o Artificial Bee Colony (Karaboga, 2005). Ele baseia-se no comportamento natural das abelhas forrageadoras, abelhas responsáveis por encontrar fontes de alimentos e informar às outras abelhas, que estão na colmeia esperando por estas informações. Para o algoritmo de classificação de mensagens podem ser consideradas como fontes de alimentos as próprias mensagens. Elas serão exploradas pelas abelhas artificiais na tentativa de obter as melhores regras para classificação ou então descobrir a classe a que a mensagem pertence. As mensagens podem ser classificadas em seguras, de phishing ou spam. Mensagens de phishing são aquelas que tentam se passar por empresas reais na tentativa de obter dados pessoais. Outra categoria de mensagens são os spams que podem ser classificadas como mensagens de cunho publicitário cujo recebimento não foi solicitado. Para aplicar o algoritmo das abelhas, um sistema de classificação foi desenvolvido a partir de modelos de engenharia de software sobre datasets contendo mensagens de e-mail. Após o desenvolvimento do sistema, métricas e técnicas de amostragem foram aplicadas com o objetivo de avaliar e comparar a utilização desta técnica em relação a outras para classificação de mensagens. Os resultados obtidos através da comparação com outros algoritmos podem ser considerados como positivos já que em alguns casos a taxa de mensagens classificadas corretamente foi superior ao algoritmo comparado (sic).