Detecção de diabetes com aprendizado de máquina e embeddings para variáveis categóricas

Fracalossi, Guilherme Gabrielli

Detecção de diabetes com aprendizado de máquina e embeddings para variáveis categóricas

Arquivos

TCC Guilherme Gabrielli Fracalossi.pdf (762.31 KB)

Data de Submissão

2026-01-02

Data de Defesa

2025-11-27

Autores

Fracalossi, Guilherme Gabrielli

Orientadores

Adami, André Gustavo

Descrição

O diabetes mellitus representa um problema de saúde pública global e no Brasil, caracterizado por alta prevalência e subdiagnóstico. A detecção precoce é fundamental, e o aprendizado de máquina emerge como uma ferramenta para essa finalidade. Contudo, a aplicação de aprendizado de máquina a dados de saúde enfrenta desafios, especialmente no tratamento de variáveis categóricas. Métodos tradicionais, como a codificação one-hot, podem gerar representações de alta dimensionalidade e esparsas, limitando a capacidade dos modelos de capturar relações complexas entre os preditores. Neste contexto, este trabalho investigou o uso de embeddings — uma técnica que aprende representações vetoriais densas e de baixa dimensionalidade — como uma alternativa para a codificação dessas variáveis. O objetivo foi desenvolver e avaliar modelos para a detecção de diabetes mellitus utilizando dados do National Health and Nutrition Examination Survey (NHANES), verificando se essa abordagem melhora o desempenho preditivo em comparação com métodos convencionais. A metodologia consistiu na implementação de uma arquitetura de rede neural com camadas de embedding integradas. O desempenho dessa abordagem foi comparado ao de modelos de referência, como XGBoost e Regressão Logística, treinados com dados processados via codificação one-hot. Os resultados indicaram que a inclusão de variáveis categóricas melhorou o desempenho de todos os classificadores. A abordagem com embeddings gerou um espaço de características mais compacto e alcançou, com o modelo XGBoost, o melhor desempenho individual (F1-Score de 0,573), embora a diferença em relação à codificação one-hot não tenha se mostrado estatisticamente significativa. O melhor desempenho geral foi obtido por um modelo de conjunto (ensemble) com Soft Voting, que atingiu um F1-Score de 0,583. Os resultados mostram que os embeddings são uma alternativa viável e compacta para a representação de variáveis categóricas, e que a combinação de representações densas com algoritmos de conjunto representa uma estratégia mais eficaz para a detecção de diabetes no conjunto de dados analisado. [resumo fornecido pelo autor]

Palavras-chave

Diabetes, Aprendizado do computador, Modelos matemáticos, Redes neurais (Computação), Imersões (Matemática), Arquitetura de computador, Variáveis (Matemática)

URI

https://repositorio.ucs.br/11338/15486

Coleções

Ciência da Computação - Bacharelado

Página do item completo

Detecção de diabetes com aprendizado de máquina e embeddings para variáveis categóricas

Arquivos

Data de Submissão

Data de Defesa

Edição

Autores

Orientadores

Coorientadores

Editores

Título da Revista

ISSN da Revista

Título de Volume

Editor

Descrição

Resumo

Palavras-chave

Citação

URI

Coleções

Avaliação

Revisão

Suplementado Por

Referenciado Por