Mostrar registro simples

dc.contributor.advisorWebber, Carine Geltrudes
dc.contributor.authorScalco, Felipe Fagundes
dc.contributor.otherLima, Maria de Fátima Webber do Prado
dc.contributor.otherBoff, Elisa
dc.date.accessioned2022-03-21T19:41:52Z
dc.date.available2022-03-21T19:41:52Z
dc.date.issued2021-07-23
dc.date.submitted2021-07-07
dc.identifier.urihttps://repositorio.ucs.br/11338/9716
dc.descriptionCom o recente surgimento do Big Data a produção de dados sendo gerados diariamente nunca foi tão grande. E para que se possa extrair conhecimento desses dados o Machine Learning interpreta um papel fundamental, devido a sua capacidade de aprender com dados históricos. As técnicas de Machine Learning compreendem métodos orientados a dados que combinam conceitos fundamentais da ciência da computação com outros das áreas de estatística, probabilidade e otimização e tem como objetivo implementar algoritmos capazes de aprender, com pouca ou nenhuma necessidade de assistência ou intervenção humana. Tendo em vista a complexidade dos conjuntos de dados soma-se ao processo de Machine Learning componentes visuais. Os componentes visuais tem como objetivo representar visualmente as informações. Auxiliando desta maneira a interpretação dos dados, aproveitando o sistema visual dos seres humanos para reconhecer padrões. Além de oferecer diferentes maneiras de mostrar os resultados de uma forma mais amigável, ajudando na tomada de decisão. Para demonstrar a relevância da visualização de dados durante o processo de Machine Learning este trabalho desenvolve e avalia um processo de Machine Learning apoiado em ferramentas de visualização de dados. Utilizou-se como método o estudo de caso, por considerar-se que cada conjunto de dados deve ser tratado de maneira única, dadas as suas características e distribuições. As ferramentas de visualizações selecionadas foram as seguintes: Yellowbrick, Seaborn, Ploty, MatPlotLib. Neste trabalho, selecionou-se dois conjuntos de dados distintos. O primeiro conjunto de dados, contempla dados públicos que contém o número de casos de ocorrências de contaminados, recuperados e mortos pelo novo coronavírus em todos os continentes. Por meio deste conjunto explorou-se recursos de visualização de dados numéricos e categóricos, com mapas e gráficos mistos. Já o segundo conjunto de dados, amplamente utilizado em estudos na área, foi o conjunto de dados Iris. Este conjunto de dados é normalmente usado para avaliar algoritmos de classificação pois apresenta estrutura bem definida. Além disso, ele constitui um elemento importante para os estudos na área, pois seus dados apresentam características numéricas e categóricas (classes). Isso possibilita comparações, análises e visualizações que, uma vez compreendidas em cenário ilustrativo, podem ser replicadas em outros contextos complexos. Como resultados observados, destaca-se a importância das ferramentas de visualização no processo de Machine Learning, contribuindo para o entendimento e validação das suas etapas. Em especial, em conjuntos de dados com o Coronavirus recursos de análise do erro (médio, quadrático, etc) além de medidas estatísticas são as mais usadas. Já em conjuntos de dados com o Iris recursos de análise do precisão dos classificadores são mais relevantes. Para concluir, considera-se que os resultados foram satisfatórios e que as ferramentas de visualização, além de necessárias na tomada da decisão, auxiliam o ser humano no processo de exploração dos dados. [resumo fornecido pelo autor]pt_BR
dc.description.abstractWith the recent emergence of Big Data the amount of data being generated on a daily basis has never been greater. In order to extract knowledge from this data Machine Learning plays a key role, due to its ability to learn from historical data. Machine Learning techniques comprise data- driven methods that combine fundamental concepts from computer science with others fields like statistics, probability, optimization and aim to implement algorithms capable of learning, with little or no need for human assistance or intervention. Given the complexity of data sets, visual components are added to the Machine Learning process. The visual components aim to visually represent the information. Helping in the interpretation of data, taking advantage of the visual system of human beings to recognize patterns. Besides offering different ways to show the results in a more friendly way, helping in the decision making process. To demonstrate the relevance of data visualization during the Machine Learning process, this work develops and evaluates a Machine Learning process supported by data visualization tools. The case study method was used, since it is considered that each data set must be treated in a unique way, given its characteristics and distributions. The visualization tools selected were Yellowbrick, Seaborn, Ploty, and MatPlotLib. In this work, two distinct datasets were selected. The first data set, includes public data that contains the number of cases of those contaminated, recovered and killed by the new coronavirus in all continents. Through this set, numerical and categorical data visualization resources were explored, with maps and mixed graphics. The second dataset, widely used in studies in the area, was the Iris dataset. This dataset is commonly used to evaluate classification algorithms because it has a well-defined structure. Moreover, it constitutes an important element for studies in the area because its data present numerical and categorical characteristics (classes). This enables comparisons, analyses, and visualizations that, once understood in an illustrative scenario, can be replicated in other complex contexts. As observed results, we highlight the importance of visualization tools in the Machine Learning process, contributing to the understanding and validation of its steps. In particular, in data sets with Coronavirus, error analysis resources (mean, square, etc.) and statistical measures are the most used. On the other hand, on data sets with Iris, resources for analyzing the accuracy of the classifiers are more relevant. To conclude, it is considered that the results were satisfactory and that visualization tools, besides being necessary for decision making, help the human being in the data exploration process. [resumo fornecido pelo autor]pt_BR
dc.language.isoptpt_BR
dc.subjectComputaçãopt_BR
dc.subjectInteligência artificialpt_BR
dc.subjectAprendizado do computadorpt_BR
dc.subjectVisualizaçãopt_BR
dc.titleVisualização de dados em processos de Machine Learningpt_BR
dc.typeMonografiapt_BR
mtd2-br.advisor.instituationUniversidade de Caxias do Sulpt_BR
mtd2-br.program.nameBacharelado em Ciência da Computaçãopt_BR
mtd2-br.campusCampus Universitário de Caxias do Sulpt_BR
local.data.embargo2021-07-22


Arquivos deste item

Thumbnail

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples