Detecção de diabetes com aprendizado de máquina e embeddings para variáveis categóricas

dc.contributor.advisorAdami, André Gustavo
dc.contributor.authorFracalossi, Guilherme Gabrielli
dc.contributor.otherRibeiro, Helena Graziottin
dc.contributor.otherSilva, Scheila de Ávila e
dc.date.accessioned2026-04-22T12:14:36Z
dc.date.issued2026-01-02
dc.date.submitted2025-11-27
dc.descriptionO diabetes mellitus representa um problema de saúde pública global e no Brasil, caracterizado por alta prevalência e subdiagnóstico. A detecção precoce é fundamental, e o aprendizado de máquina emerge como uma ferramenta para essa finalidade. Contudo, a aplicação de aprendizado de máquina a dados de saúde enfrenta desafios, especialmente no tratamento de variáveis categóricas. Métodos tradicionais, como a codificação one-hot, podem gerar representações de alta dimensionalidade e esparsas, limitando a capacidade dos modelos de capturar relações complexas entre os preditores. Neste contexto, este trabalho investigou o uso de embeddings — uma técnica que aprende representações vetoriais densas e de baixa dimensionalidade — como uma alternativa para a codificação dessas variáveis. O objetivo foi desenvolver e avaliar modelos para a detecção de diabetes mellitus utilizando dados do National Health and Nutrition Examination Survey (NHANES), verificando se essa abordagem melhora o desempenho preditivo em comparação com métodos convencionais. A metodologia consistiu na implementação de uma arquitetura de rede neural com camadas de embedding integradas. O desempenho dessa abordagem foi comparado ao de modelos de referência, como XGBoost e Regressão Logística, treinados com dados processados via codificação one-hot. Os resultados indicaram que a inclusão de variáveis categóricas melhorou o desempenho de todos os classificadores. A abordagem com embeddings gerou um espaço de características mais compacto e alcançou, com o modelo XGBoost, o melhor desempenho individual (F1-Score de 0,573), embora a diferença em relação à codificação one-hot não tenha se mostrado estatisticamente significativa. O melhor desempenho geral foi obtido por um modelo de conjunto (ensemble) com Soft Voting, que atingiu um F1-Score de 0,583. Os resultados mostram que os embeddings são uma alternativa viável e compacta para a representação de variáveis categóricas, e que a combinação de representações densas com algoritmos de conjunto representa uma estratégia mais eficaz para a detecção de diabetes no conjunto de dados analisado. [resumo fornecido pelo autor]pt_BR
dc.identifier.urihttps://repositorio.ucs.br/11338/15486
dc.language.isoptpt_BR
dc.subjectDiabetes
dc.subjectAprendizado do computador
dc.subjectModelos matemáticos
dc.subjectRedes neurais (Computação)
dc.subjectImersões (Matemática)
dc.subjectArquitetura de computador
dc.subjectVariáveis (Matemática)
dc.titleDetecção de diabetes com aprendizado de máquina e embeddings para variáveis categóricas
dc.typeMonografiapt_BR
local.observacao
mtd2-br.advisor.instituationUniversidade de Caxias do Sulpt_BR
mtd2-br.campusCampus Universitário da Região dos Vinhedospt_BR
mtd2-br.program.nameBacharelado em Ciência da Computação

Arquivos

Campus-Sede

Rua Francisco Getúlio Vargas, 1130
CEP 95070-560 - Caxias do Sul

Todos os campi - Como chegar

Central de Atendimento

Youtube

© 2001-2025 Universidade de Caxias do Sul. Todos os direitos reservados

Youtube