Ferramenta para digitalização de acervos baseada em crowdsourcing
View/ Open
Author
Pastori, Mateus
Orientador
Lima, Maria de Fátima Webber do Prado
Metadata
Show full item recordAbstract
Apesar dos sistemas de reconhecimento ótico de caracteres (OCR) terem evoluído consideravelmente nas últimas décadas, eles ainda apresentam algumas falhas, principalmente tratando-se da digitalização de documentos antigos. No entanto, com a rápida expansão da internet nos últimos anos e os bilhões de usuários espalhados pelo planeta, novos paradigmas de interação humano-computador vêm ganhando força, como é o caso do crowdsourcing. Esse paradigma baseia-se na colaboração on-line em escala massiva, ou seja, o seu principal objetivo é utilizar a capacidade intelectual humana, de uma multidão de usuários, para resolver algum problema computacional aberto. Um desses problemas é o reconhecimento ótico de caracteres, que pode ser facilmente resolvido utilizando uma ferramenta baseada em crowdsourcing. Baseando-se nisso, esse trabalho teve como principal objetivo desenvolver um protótipo para a digitalização de acervos, que utilize um software de OCR, e que faça o uso do crowdsourcing, buscando corrigir as eventuais falhas resultantes do mesmo. O estudo de algumas ferramentas revelou que isso pode ser feito utilizando mecanismos de segurança para websites, denominados CAPTCHAs. A principal função de um CAPTCHA é distinguir usuários humanos de máquinas. O CAPTCHA pode ser utilizado em diversos tipos de websites, como sites de enquetes on-line e de contas de e-mail. Esse fato torna o CAPTCHA um mecanismo de crowdsourcing extremamente poderoso, por oferecer a possibilidade e facilidade de ser utilizado em larga escala. Definidas a arquitetura e as ferramentas a serem utilizadas, foi desenvolvido um protótipo composto de uma aplicação web e uma API CAPTCHA. A aplicação web possibilita a digitalização de documentos, para isso ela faz uso de um software OCR. A API CAPTCHA atua como uma ferramenta de crowdsourcing, cuja a função é resolver as falhas resultantes do processamento do OCR (sic)