Redes neurais deep learning aplicadas ao reconhecimento facial
Visualizar/ Abrir
Data
2019-06-25Autor
Chaves, Rodrigo Reuse
Orientador
Webber, Carine Geltrudes
Metadata
Mostrar registro completoResumo
O reconhecimento facial por computadores ainda é uma tarefa desafiadora. Sistemas de redes neurais buscam soluções para que a tarefa de reconhecimento seja cada vez mais uma realidade. Hoje, as redes neurais convolucionais alcançam os resultados mais precisos se comparado a outros modelos de redes neurais. As redes neurais convolucionais são bem adaptadas para a classificação de imagens, porque se utilizam da estrutura espacial da imagem para realizar a análise. Por conta disso, redes neurais convolucionais e algumas variantes próximas são as mais utilizadas no reconhecimento de faces e imagens em geral. Técnicas de aprendizado de máquina chamadas de deep learning são aplicadas em conjunto com as redes neurais artificiais na tarefa de reconhecimento. O aprendizado de máquina realiza a busca de padrões nas imagens. O resultado da busca é aquisição de conhecimento, o que possibilita a adaptação necessária da rede neural para realizar o reconhecimento das imagens. A busca de padrões é feita através de treinamentos, que são realizados diversas vezes sobre uma base de dados com imagens de exemplo. Para o reconhecimento facial, o método de aprendizado mais utilizado é o aprendizado de máquina supervisionado. Nesse método a base de dados com imagens de exemplo já é previamente rotulada, indicando qual é a classe de cada imagem. A implementação de redes neurais artificiais e utilização de métodos de deep learning normalmente são feitos com o auxilio de frameworks. Existem frameworks open source voltados para a criação de redes neurais e aprendizado de máquina. Eles agilizam o processo de criação de sistemas de reconhecimento, já que criar um sistema de reconhecimento de imagens apartir do zero é algo complexo e demorado. Os frameworks possuem arquiteturas de redes neurais e métodos de aprendizado de máquina já implementados, deixando ao programador a tarefa de parametrização. No experimento apresentado nesse trabalho, foi realizado a identificação facial em tempo real de 10 pessoas. Utilizando 3 arquiteturas de rede neural diferentes, Inception V3, Inception V4 e Mobilenet V1 224. Todas as arquiteturas obtiveram as mesmas imagens de treinamento, 1149 fotos, que variou entre 74 e 160 fotos de cada um dos participantes. Na análise das imagens foi utilizado uma câmera de 13 Mpx, para a captura das imagens, e um equipamento Raspeberry para o processamento dos dados. A arquitetura Inception V4 não pode ser iniciada no equipamento Raspeberry, pois o mesmo não conseguiu carregá-la devido a pouco quantidade de memória RAM, 1 GB, e, portanto, os seus resultados não foram contabilizados. Quanto as demais, Inception V3 e Mobilenet V1 224, obtiveram resultados distintos em termos de acurácia e velocidade de processamento. A Inception V3 obteve uma maior acurácia, enquanto a Mobilenet V1 224 obteve a maior velocidade de processamento (sic).