Mostrar el registro sencillo del ítem
Uso de características significativas em sistema de identificação de língua em música
dc.contributor.advisor | Adami, André Gustavo | |
dc.contributor.author | Slaviero, Douglas Eduardo | |
dc.contributor.other | Webber, Carine Geltrudes | |
dc.contributor.other | Notari, Daniel Luís | |
dc.date.accessioned | 2023-05-18T18:11:23Z | |
dc.date.available | 2023-05-18T18:11:23Z | |
dc.date.issued | 2022-12-15 | |
dc.date.submitted | 2022-12-01 | |
dc.identifier.uri | https://repositorio.ucs.br/11338/11991 | |
dc.description | No decorrer dos anos a indústria da música vem se adaptando e, atualmente, está passando por um estágio de transição. A receita, que tinha seu predomínio em vendas de mídias físicas, passou a ser majoritariamente de serviços de streaming. Com o advento dos serviços de streaming, o modo de consumir e ouvir mídias de áudio se tornou uma experiência além da música. Conteúdos categorizados, gerando recomendações segundo as características e históricos dos usuários, são cada vez mais utilizados. Uma das informações que pode ser utilizada no intuito de categorizar as músicas é a língua. A partir dela é possível explorar mais pontos do seu âmbito, como reconhecimento de locutor e transcrição de letras. Trabalhos de identificação de língua em música, em sua grande maioria, exploram características estáticas do sinal de áudio propostas para o reconhecimento de fala e não o de língua. Visando contornar essa limitação, o objetivo deste trabalho foi avaliar o uso da rede SincNet em um modelo deep learning para fazer a extração de características significativas do sinal de áudio, para ser feita a identifica ção de língua em música. Além disso, este trabalho emprega o uso de diferentes técnicas de processamento de sinais para dirimir informações irrelevantes (por exemplo, som instrumental ou plateia) do sinal de música. Assim, o sistema proposto, primeiramente, remove os segmentos onde a voz cantante não ocorre (segmentação) e em seguida separa o sinal da voz do som instrumental (separação de áudio). O sinal de voz é alimentado na rede deep learning para extração de características e identificação da língua. O sistema proposto foi avaliado em uma base construída a partir das músicas de um serviço de streaming. Os resultados mostraram que as etapas de pré-processamento, segmentação e separação contribuem significativamente para o desempenho do sistema. Além disso, o sistema proposto obteve desempenho superior de aproximadamente 12% em comparação com sistema utilizando características estáticas e mesmas etapas de pré-processamento. [resumo fornecido pelo autor] | pt_BR |
dc.language.iso | pt | pt_BR |
dc.subject | Aprendizado profundo (Aprendizado do computador) | pt_BR |
dc.subject | Música | pt_BR |
dc.title | Uso de características significativas em sistema de identificação de língua em música | pt_BR |
dc.type | Monografia | pt_BR |
mtd2-br.advisor.instituation | Universidade de Caxias do Sul | pt_BR |
mtd2-br.program.name | Bacharelado em Ciência da Computação | pt_BR |
mtd2-br.campus | Campus Universitário de Caxias do Sul | pt_BR |
local.data.embargo | 2022-12-14 |