Detecção de diabetes com aprendizado de máquina e embeddings para variáveis categóricas

Carregando...
Imagem de Miniatura

Data de Submissão

Data de Defesa

2025-11-27

Edição

Coorientadores

Editores

Título da Revista

ISSN da Revista

Título de Volume

Editor

Descrição

O diabetes mellitus representa um problema de saúde pública global e no Brasil, caracterizado por alta prevalência e subdiagnóstico. A detecção precoce é fundamental, e o aprendizado de máquina emerge como uma ferramenta para essa finalidade. Contudo, a aplicação de aprendizado de máquina a dados de saúde enfrenta desafios, especialmente no tratamento de variáveis categóricas. Métodos tradicionais, como a codificação one-hot, podem gerar representações de alta dimensionalidade e esparsas, limitando a capacidade dos modelos de capturar relações complexas entre os preditores. Neste contexto, este trabalho investigou o uso de embeddings — uma técnica que aprende representações vetoriais densas e de baixa dimensionalidade — como uma alternativa para a codificação dessas variáveis. O objetivo foi desenvolver e avaliar modelos para a detecção de diabetes mellitus utilizando dados do National Health and Nutrition Examination Survey (NHANES), verificando se essa abordagem melhora o desempenho preditivo em comparação com métodos convencionais. A metodologia consistiu na implementação de uma arquitetura de rede neural com camadas de embedding integradas. O desempenho dessa abordagem foi comparado ao de modelos de referência, como XGBoost e Regressão Logística, treinados com dados processados via codificação one-hot. Os resultados indicaram que a inclusão de variáveis categóricas melhorou o desempenho de todos os classificadores. A abordagem com embeddings gerou um espaço de características mais compacto e alcançou, com o modelo XGBoost, o melhor desempenho individual (F1-Score de 0,573), embora a diferença em relação à codificação one-hot não tenha se mostrado estatisticamente significativa. O melhor desempenho geral foi obtido por um modelo de conjunto (ensemble) com Soft Voting, que atingiu um F1-Score de 0,583. Os resultados mostram que os embeddings são uma alternativa viável e compacta para a representação de variáveis categóricas, e que a combinação de representações densas com algoritmos de conjunto representa uma estratégia mais eficaz para a detecção de diabetes no conjunto de dados analisado. [resumo fornecido pelo autor]

Resumo

Citação

Avaliação

Revisão

Suplementado Por

Referenciado Por

Campus-Sede

Rua Francisco Getúlio Vargas, 1130
CEP 95070-560 - Caxias do Sul

Todos os campi - Como chegar

Central de Atendimento

Youtube

© 2001-2025 Universidade de Caxias do Sul. Todos os direitos reservados

Youtube