Ferramenta para digitalização de acervos baseada em crowdsourcing
Mostra/ Apri
Autore
Pastori, Mateus
Orientador
Lima, Maria de Fátima Webber do Prado
Metadata
Mostra tutti i dati dell'itemAbstract
Apesar dos sistemas de reconhecimento ótico de caracteres (OCR) terem evoluído consideravelmente nas últimas décadas, eles ainda apresentam algumas falhas, principalmente tratando-se da digitalização de documentos antigos. No entanto, com a rápida expansão da internet nos últimos anos e os bilhões de usuários espalhados pelo planeta, novos paradigmas de interação humano-computador vêm ganhando força, como é o caso do crowdsourcing. Esse paradigma baseia-se na colaboração on-line em escala massiva, ou seja, o seu principal objetivo é utilizar a capacidade intelectual humana, de uma multidão de usuários, para resolver algum problema computacional aberto. Um desses problemas é o reconhecimento ótico de caracteres, que pode ser facilmente resolvido utilizando uma ferramenta baseada em crowdsourcing. Baseando-se nisso, esse trabalho teve como principal objetivo desenvolver um protótipo para a digitalização de acervos, que utilize um software de OCR, e que faça o uso do crowdsourcing, buscando corrigir as eventuais falhas resultantes do mesmo. O estudo de algumas ferramentas revelou que isso pode ser feito utilizando mecanismos de segurança para websites, denominados CAPTCHAs. A principal função de um CAPTCHA é distinguir usuários humanos de máquinas. O CAPTCHA pode ser utilizado em diversos tipos de websites, como sites de enquetes on-line e de contas de e-mail. Esse fato torna o CAPTCHA um mecanismo de crowdsourcing extremamente poderoso, por oferecer a possibilidade e facilidade de ser utilizado em larga escala. Definidas a arquitetura e as ferramentas a serem utilizadas, foi desenvolvido um protótipo composto de uma aplicação web e uma API CAPTCHA. A aplicação web possibilita a digitalização de documentos, para isso ela faz uso de um software OCR. A API CAPTCHA atua como uma ferramenta de crowdsourcing, cuja a função é resolver as falhas resultantes do processamento do OCR (sic)