Detecção de diabetes com aprendizado de máquina e embeddings para variáveis categóricas

Fracalossi, Guilherme Gabrielli

Detecção de diabetes com aprendizado de máquina e embeddings para variáveis categóricas

dc.contributor.advisor	Adami, André Gustavo
dc.contributor.author	Fracalossi, Guilherme Gabrielli
dc.contributor.other	Ribeiro, Helena Graziottin
dc.contributor.other	Silva, Scheila de Ávila e
dc.date.accessioned	2026-04-22T12:14:36Z
dc.date.issued	2026-01-02
dc.date.submitted	2025-11-27
dc.description	O diabetes mellitus representa um problema de saúde pública global e no Brasil, caracterizado por alta prevalência e subdiagnóstico. A detecção precoce é fundamental, e o aprendizado de máquina emerge como uma ferramenta para essa finalidade. Contudo, a aplicação de aprendizado de máquina a dados de saúde enfrenta desafios, especialmente no tratamento de variáveis categóricas. Métodos tradicionais, como a codificação one-hot, podem gerar representações de alta dimensionalidade e esparsas, limitando a capacidade dos modelos de capturar relações complexas entre os preditores. Neste contexto, este trabalho investigou o uso de embeddings — uma técnica que aprende representações vetoriais densas e de baixa dimensionalidade — como uma alternativa para a codificação dessas variáveis. O objetivo foi desenvolver e avaliar modelos para a detecção de diabetes mellitus utilizando dados do National Health and Nutrition Examination Survey (NHANES), verificando se essa abordagem melhora o desempenho preditivo em comparação com métodos convencionais. A metodologia consistiu na implementação de uma arquitetura de rede neural com camadas de embedding integradas. O desempenho dessa abordagem foi comparado ao de modelos de referência, como XGBoost e Regressão Logística, treinados com dados processados via codificação one-hot. Os resultados indicaram que a inclusão de variáveis categóricas melhorou o desempenho de todos os classificadores. A abordagem com embeddings gerou um espaço de características mais compacto e alcançou, com o modelo XGBoost, o melhor desempenho individual (F1-Score de 0,573), embora a diferença em relação à codificação one-hot não tenha se mostrado estatisticamente significativa. O melhor desempenho geral foi obtido por um modelo de conjunto (ensemble) com Soft Voting, que atingiu um F1-Score de 0,583. Os resultados mostram que os embeddings são uma alternativa viável e compacta para a representação de variáveis categóricas, e que a combinação de representações densas com algoritmos de conjunto representa uma estratégia mais eficaz para a detecção de diabetes no conjunto de dados analisado. [resumo fornecido pelo autor]	pt_BR
dc.identifier.uri	https://repositorio.ucs.br/11338/15486
dc.language.iso	pt	pt_BR
dc.subject	Diabetes
dc.subject	Aprendizado do computador
dc.subject	Modelos matemáticos
dc.subject	Redes neurais (Computação)
dc.subject	Imersões (Matemática)
dc.subject	Arquitetura de computador
dc.subject	Variáveis (Matemática)
dc.title	Detecção de diabetes com aprendizado de máquina e embeddings para variáveis categóricas
dc.type	Monografia	pt_BR
local.observacao
mtd2-br.advisor.instituation	Universidade de Caxias do Sul	pt_BR
mtd2-br.campus	Campus Universitário da Região dos Vinhedos	pt_BR
mtd2-br.program.name	Bacharelado em Ciência da Computação

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: TCC Guilherme Gabrielli Fracalossi.pdf
Tamanho:: 762.31 KB
Formato:: Adobe Portable Document Format

Baixar

Coleções

Ciência da Computação - Bacharelado