Aplicação de máquinas de suporte vetorial na classificação textual

dc.contributor.advisorWebber, Carine Geltrudes
dc.contributor.authorBellini, Rafael
dc.contributor.otherBoff, Elisa
dc.contributor.otherLima, Maria de Fátima Webber do Prado
dc.date.accessioned2022-03-18T14:12:16Z
dc.date.available2022-03-18T14:12:16Z
dc.date.issued2020-12-19
dc.date.submitted2020-12-01
dc.descriptionA área de classificação de dados textuais envolve a coleta, o processamento, a análise e a construção de modelos para classificar textos. Ela se vale de algoritmos de machine learning. Dentre eles, destaca-se o algoritmo de Máquinas de Suporte Vetorial (SVM, do inglês, Support Vector Machines), amplamente utilizado com conjuntos de dados textuais. O objetivo deste trabalho é aplicar o SVM na construção de um modelo de classificação textual, usando como exemplo textos da área da saúde. As amostras textuais utilizadas neste trabalho foram coletadas por uma equipe de médicos especialistas da Universidade de Caxias do Sul e encontram-se em linguagem natural, na língua portuguesa brasileira, tendo sido previamente rotuladas em termos de suas características, tais como: descrição do tratamento, benefícios do tratamento, consequências do tratamento, influência na qualidade de vida do paciente e riscos do tratamento. Os textos de cada uma dessas categorias foram previamente classificados como positivos, negativos e regulares, configurando um problema do tipo multiclasse. A fase de pré-processamento dos textos foi realizada utilizando a biblioteca chamada Natural Language Toolkit (NLTK), já para os testes do algoritmo SVM utilizou-se a biblioteca chamada Scikit-learn e para o balanceamento das classes foi utilizado o algoritmo Synthetic Minority Over-sampling Technique (SMOTE), da biblioteca imblearn. Também foi utilizada a ferramenta Anaconda para Windows, que possibilitou executar tanto a linguagem Python quanto aplicativo, como o Jupyter Notebook. Os resultados obtidos através dos testes revelaram respostas satisfatórias para demonstrar a possibilidade de classificação supervisionada para os dados textuais das diversas categorias mencionadas, tendo apresentado resultados superiores a 90.0% de acurácia. Um dos desafios encontrados foi o desbalanceamento das classes, que necessitou de estudo e uso de métodos apropriados a fim de que se pudesse obter resultados satisfatórios. [resumo fornecido pelo autor]pt_BR
dc.identifier.urihttps://repositorio.ucs.br/11338/9693
dc.language.isoptpt_BR
dc.subjectComputaçãopt_BR
dc.subjectMáquinas de suporte vetorialpt_BR
dc.subjectMineração de dados (Computação)pt_BR
dc.subjectSistemas de reconhecimento de padrõespt_BR
dc.titleAplicação de máquinas de suporte vetorial na classificação textualpt_BR
dc.typeMonografiapt_BR
local.aprovaaluno.publicacaos
local.aprovadocente.publicacaos
local.aptidaocontinuidade
local.data.embargo2020-12-18
local.nota9,80
local.observacao
mtd2-br.advisor.instituationUniversidade de Caxias do Sulpt_BR
mtd2-br.campusCampus Universitário de Caxias do Sulpt_BR
mtd2-br.program.nameBacharelado em Ciência da Computaçãopt_BR

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
TCC Rafael Bellini.pdf
Tamanho:
1.39 MB
Formato:
Adobe Portable Document Format

Campus-Sede

Rua Francisco Getúlio Vargas, 1130
CEP 95070-560 - Caxias do Sul

Todos os campi - Como chegar

Central de Atendimento

Youtube

© 2001-2025 Universidade de Caxias do Sul. Todos os direitos reservados

Youtube