Universidade Federal do Rio de Janeiro Escola Politécnica Departamento de Eletrônica e de Computação Projeto, Gravação e Edição de Base de Voz para Aplicações em Síntese e Reconhecimento da Fala Autor: _________________________________________________ Ramón Aguilera da Costa Martins Orientador: _________________________________________________ Prof. Fernando Gil Vianna Resende Junior, Ph. D. Examinador: _________________________________________________ Prof. Sergio Barbosa Villas-Boas, Ph. D. Examinador: _________________________________________________ Prof. Amaro Azevedo de Lima, Ph. D. DEL Março de 2011 UNIVERSIDADE FEDERAL DO RIO DE JANEIRO Escola Politécnica – Departamento de Eletrônica e de Computação Centro de Tecnologia, bloco H, sala H-217, Cidade Universitária Rio de Janeiro – RJ CEP 21949-900 Este exemplar é de propriedade da Universidade Federal do Rio de Janeiro, que poderá incluí-lo em base de dados, armazenar em computador, microfilmar ou adotar qualquer forma de arquivamento. É permitida a menção, reprodução parcial ou integral e a transmissão entre bibliotecas deste trabalho, sem modificação de seu texto, em qualquer meio que esteja ou venha a ser fixado, para pesquisa acadêmica, comentários e citações, desde que sem finalidade comercial e que seja feita a referência bibliográfica completa. Os conceitos expressos neste trabalho são de responsabilidade do(s) autor(es) e do(s) orientador(es). ii DEDICATÓRIA Dedico este trabalho a meus pais e irmãos. iii AGRADECIMENTO Agradeço a Deus, por tudo. E a Jesus Cristo, pelas lições de amor e simplicidade. A toda minha família. A meu pai, pelo carinho e por me mostrar o caminho do autodidatismo. À minha mãe, pelo amor e dedicação inigualáveis que me levaram a compreender o valor do estudo. Ao meu irmão, pelo exemplo que sempre segui. À minha irmã, pela brutalidade de seu afeto. A meu tio João Luiz, pela imensa colaboração na formação de minha mãe, minha e de meus irmãos. A meu tio Mário, responsável pela maior parte dos encontros familiares e sempre disposto a ajudar. Ao meu orientador, professor Fernando Gil, por todas as lições, pela paciência e pela confiança. Ao Denílson, que com seu aguçado senso prático, colaborou decisivamente para o sucesso deste trabalho. Aos amigos Leonardo Cidade e Lissandro, pelos valiosos conselhos. Aos meus amigos de turma André Renato, Breno Espindola, Danilo Enoque, Dmitri Antunes, Felipe Martins, Lyno Henrique, Marcelo Domingues, Marcelo Larcher, Michel Igor e Thiago Pedra, pelo companheirismo. Ao povo brasileiro, que com seu trabalho custeou meus estudos. Ao recém coroado tricampeão brasileiro, Fluminense Football Club, por inspirar a minha jornada. iv RESUMO Neste trabalho são apresentados o projeto de textos a serem lidos, as técnicas utilizadas na gravação, e a metodologia adotada na edição de uma base de voz para aplicações em síntese e reconhecimento da fala em português brasileiro. A totalidade da base de dados foi gravada em 300 horas. A base de reconhecimento foi gravada em 200 horas, por 10 locutores masculinos e 10 femininos. A base de síntese foi gravada em 100 horas, por 1 locutor masculino e 1 feminino. Foram utilizados nas gravações os seguintes equipamentos: microfone Neumann VA87, pré-amplificador Universal Audio 610-2, conversor analógico-digital Digi001, software licenciado Protools 8.0 e computador Mac Pro. A base de dados foi cuidadosamente editada. Os textos foram corrigidos de acordo com a leitura realizada pelos locutores. Palavras-Chave: base de voz, síntese, reconhecimento, processamento de sinais da fala. v ABSTRACT In this work we carry out the project of texts to be recorded, the techniques used to record, and the methodology adopted in the edition of a speech database for applications in synthesis and recognition in Brazilian Portuguese. The full database has been recorded in 300 hours. The recognition base has been recorded in 200 hours, by 10 male and 10 female speakers. The synthesis base has been recorded in 100 hours, by 1 male and 1 female speaker. The following equipments have been used: a Neumann VA87 microphone, a Universal Audio 610-2 preamplifier, a Digi001 AD converter, Protools 8.0 licensed software, and a Mac Pro computer. The database has been carefully edited. All the texts have been corrected according to the actual pronunciation of the speakers. Key-words: speech database, synthesis, recognition, speech signal processing. vi SIGLAS HMM – hidden Markov models (modelos ocultos de Markov) TTS – text-to-speech (conversão texto-fala) G2P – grapheme-to-phoneme (conversão grafema-fonema) PB – português brasileiro PTF – ProTools File vii Sumário 1 Introdução 1 1.1 - Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 - Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 - Descrição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 Projeto da Base de Voz 3 2.1 - Projeto da Base de Reconhecimento . . . . . . . . . . . . . . . . . . . . 3 2.1.1 - 1000 frases de contexto jornalístico . . . . . . . . . . . . . . 3 2.1.2 - Conteúdo de Emoções . . . . . . . . . . . . . . . . . . . . . . . . 5 2.1.3 - Conteúdo de Expressão . . . . . . . . . . . . . . . . . . . . . . . 6 2.2 - Projeto da Base de Síntese . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 3 Gravação 8 3.1 - Equipamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3.2 - Seleção de Locutores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3.2.1 - Base de Reconhecimento . . . . . . . . . . . . . . . . . . . . . . 8 3.2.2 - Base de Síntese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 viii 3.3 - Procedimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 4 Edição 11 4.1 - Organização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 4.2 - Edição da Base de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 5 Recursos 13 6 Conclusões e Trabalhos Futuros 15 Bibliografia 16 A Base de Reconhecimento 17 B Base de Síntese 33 ix Lista de Tabelas 2.1 - Fones e exemplos de palavras para cada fone . . . . . . . . . . . . . . . . . . . . . . . . 4 2.2 - Freqüência relativa de fones da base do CETEN-Folha . . . . . . . . . . . . . . . . . 4 2.3 - Freqüência relativa de fones das 1000 frases . . . . . . . . . . . . . . . . . . . . . . . . . 5 5.1 - Duração média das gravações da base de reconhecimento com edição intercalada (3 locutores) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 5.2 - Duração média das gravações da base de reconhecimento sem edição intercalada (17 locutores) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 x
Description: