Análise textual automática : apreensibilidade e qualidade da informação na área da saúde
Autor
Abel, Fernando Andriolo
Orientador
Webber, Carine Geltrudes
Metadatos
Mostrar el registro completo del ítemResumen
O acesso facilitado de pessoas e pacientes a fontes de informação sobre saúde ampliou a necessidade de que tais informações disponíveis sejam revisadas e analisadas, principalmente em contextos onde o paciente deve participar da decisão do seu tratamento. A análise textual é caracterizada pela apreensibilidade e a qualidade do conteúdo. A apreensibilidade de um texto trata da facilidade de compreensão. Existem diversas fórmulas utilizadas para avaliá-la (Flesch Reading Ease, SMOG Index, etc.). A qualidade textual, por sua vez, é abordada através de estudos realizados sobre Mineração de Textos. A Mineração de Textos caracteriza-se como um processo que contém diversas técnicas a fim de organizar, descobrir e extrair informações em bases de dados textuais de forma ágil e automática. O objetivo principal deste trabalho foi propor a concepção de uma ferramenta web para avaliar textos em português a partir da fórmula de apreensibilidade Fernández-Huerta e técnicas de classificação (J48, Bayes Net, Naïve Bayes, Support Vector Machines, K-Nearest Neighbors e Multilayer Perceptron). Para atingir o objetivo proposto, coletou-se uma amostra de dados textual composta por textos de sites sobre saúde na internet. O conjunto de dados foi dividido entre dados para treinamento e dados para testes. A fim de proceder com as análises, implementou-se uma ferramenta de plataforma web para apoiar tanto a análise de apreensibilidade quanto de qualidade da informação. Foram realizados testes com o software. Os resultados obtidos foram comparados com classificações realizadas por especialistas humanos. Identificou-se que o algoritmo Naïve Bayes apresentou os melhores resultados na classificação dos dados (89% de acerto). Como conclusão, considera-se que os resultados são promissores e evidenciam a viabilidade de uso de técnicas de aprendizado automático no tratamento de textos da área da saúde (sic).