Detecção de diabetes com aprendizado de máquina e embeddings para variáveis categóricas
| dc.contributor.advisor | Adami, André Gustavo | |
| dc.contributor.author | Fracalossi, Guilherme Gabrielli | |
| dc.contributor.other | Ribeiro, Helena Graziottin | |
| dc.contributor.other | Silva, Scheila de Ávila e | |
| dc.date.accessioned | 2026-04-22T12:14:36Z | |
| dc.date.issued | 2026-01-02 | |
| dc.date.submitted | 2025-11-27 | |
| dc.description | O diabetes mellitus representa um problema de saúde pública global e no Brasil, caracterizado por alta prevalência e subdiagnóstico. A detecção precoce é fundamental, e o aprendizado de máquina emerge como uma ferramenta para essa finalidade. Contudo, a aplicação de aprendizado de máquina a dados de saúde enfrenta desafios, especialmente no tratamento de variáveis categóricas. Métodos tradicionais, como a codificação one-hot, podem gerar representações de alta dimensionalidade e esparsas, limitando a capacidade dos modelos de capturar relações complexas entre os preditores. Neste contexto, este trabalho investigou o uso de embeddings — uma técnica que aprende representações vetoriais densas e de baixa dimensionalidade — como uma alternativa para a codificação dessas variáveis. O objetivo foi desenvolver e avaliar modelos para a detecção de diabetes mellitus utilizando dados do National Health and Nutrition Examination Survey (NHANES), verificando se essa abordagem melhora o desempenho preditivo em comparação com métodos convencionais. A metodologia consistiu na implementação de uma arquitetura de rede neural com camadas de embedding integradas. O desempenho dessa abordagem foi comparado ao de modelos de referência, como XGBoost e Regressão Logística, treinados com dados processados via codificação one-hot. Os resultados indicaram que a inclusão de variáveis categóricas melhorou o desempenho de todos os classificadores. A abordagem com embeddings gerou um espaço de características mais compacto e alcançou, com o modelo XGBoost, o melhor desempenho individual (F1-Score de 0,573), embora a diferença em relação à codificação one-hot não tenha se mostrado estatisticamente significativa. O melhor desempenho geral foi obtido por um modelo de conjunto (ensemble) com Soft Voting, que atingiu um F1-Score de 0,583. Os resultados mostram que os embeddings são uma alternativa viável e compacta para a representação de variáveis categóricas, e que a combinação de representações densas com algoritmos de conjunto representa uma estratégia mais eficaz para a detecção de diabetes no conjunto de dados analisado. [resumo fornecido pelo autor] | pt_BR |
| dc.identifier.uri | https://repositorio.ucs.br/11338/15486 | |
| dc.language.iso | pt | pt_BR |
| dc.subject | Diabetes | |
| dc.subject | Aprendizado do computador | |
| dc.subject | Modelos matemáticos | |
| dc.subject | Redes neurais (Computação) | |
| dc.subject | Imersões (Matemática) | |
| dc.subject | Arquitetura de computador | |
| dc.subject | Variáveis (Matemática) | |
| dc.title | Detecção de diabetes com aprendizado de máquina e embeddings para variáveis categóricas | |
| dc.type | Monografia | pt_BR |
| local.observacao | ||
| mtd2-br.advisor.instituation | Universidade de Caxias do Sul | pt_BR |
| mtd2-br.campus | Campus Universitário da Região dos Vinhedos | pt_BR |
| mtd2-br.program.name | Bacharelado em Ciência da Computação |
