Table Of Content

DEPTO. DE TEORÍA DE LA SENÃL Y COMUNICACIONES UNIVERSIDAD CARLOS III DE MADRID TESIS DOCTORAL ´ MAQUINAS DE VECTORES SOPORTE PARA RECONOCIMIENTO ROBUSTO DE HABLA Autor: RUBEŃ SOLERA URENÃ Directores: DR. FERNANDO DÍAZ DE MARÍA DR. MANEL MARTÍNEZ RAMOŃ LEGANE´S, 2011 Tesis doctoral: MA´QUINAS DE VECTORES SOPORTE PARA RECONOCIMIENTO ROBUSTO DE HABLA Autor: RUBEŃ SOLERA URENÃ Directores: DR. FERNANDO DÍAZ DE MARÍA DR. MANEL MARTÍNEZ RAMOŃ El tribunal nombrado para juzgar la tesis doctoral arriba citada, compuesto por los doctores: Presidente: Secretario: Vocales: acuerda otorgarle la calificacioń de: Leganés, a RESUMEN El objetivo de esta tesis doctoral es estudiar la viabilidad de la aplicación praćtica de la ma´quina de vectores soporte (support vector machine, SVM) en el campo del reconocimiento automa´tico de habla (RAH). Tanto la formulación teo´rica de esta herramienta como los resultados conseguidos en otros a´mbitos han llevado a con- siderarla una opcioń apropiada para solventar algunos de los problemas presentes en los reconocedores de habla actuales. En concreto, esta tesis dirige su atencioń al problema del reconocimiento robusto de habla en condiciones acu´sticas adversas. Una primera l´ınea de trabajo se centra en la etapa de modelado acu´stico de los reconocedores de habla, en la que los modelos de mezclas de Gaussianas (Gaussian mixture models, GMMs) empleados tradicionalmente se sustituyen por una ma´quina devectoressoportemulticlaseparaclasificación(support vector classifier,SVC).Dada una cierta observacioń, esta SVM se encarga de estimar la probabilidad a posteriori de cada una de las clases acu´sticas consideradas. Este sistema h´ıbrido SVM/HMM, usando un contexto acu´stico adecuado y un conjunto de datos de entrenamiento mucho menor que los sistemas convencionales, obtiene resultados prometedores a costa de una complejidad computacional mayor. Con el objetivo de reducir dicha complejidad y lograr as´ı que el reconocedor h´ıbrido opere en tiempo real, se propone el uso de SVMs ‘compactas’ entrenadas medianteunprocedimientodem´ınimoscuadradosponderados(weighted least squares, WLS). El método empleado permite fijar de antemano la complejidad de la ma´quina devectoressoporteimponiendounmodeloreducidosobreelvectordepesosquedefine elhiperplanodeseparacioń.Deestaforma,esposiblecontrolarelcostecomputacional en la etapa de reconocimiento sin que ello suponga una pérdida apreciable en las prestaciones del sistema SVM/HMM. La segunda l´ınea de trabajo en esta tesis se centra en la etapa de parametrizacioń de la senãl de voz. En este caso, se propone el uso de un método no paramétrico de estimación espectral basado en la ma´quina de vectores soporte para regresioń (support vector regressor, SVR), como etapa previa a la obtencioń de los coeficientes cepstrales. La posibilidad de definir distintas regiones en la funcioń de coste depen- diendo de la magnitud del error confiere a la SVR una mayor robustez en presencia de ruido impulsivo, situacioń relativamente comuń en el ámbito del reconocimiento automa´tico de habla. Los resultados experimentales obtenidos reflejan una clara me- jora respecto al método convencional de estimacioń espectral cuando la senãl de voz esta´ contaminada con ruido impulsivo de corta duracioń. Las propuestas que se describen en esta tesis doctoral se han evaluado sobre una tarea de reconocimiento de d´ıgitos conectados en castellano, con una complejidad moderada. Esto ha facilitado el desarrollo de la fase experimental del trabajo, ob- teniéndose resultados significativos que avalan la viabilidad del uso en el campo del RAH de los métodos presentados en esta tesis doctoral. Finalmente, se han identifi- cado ciertas l´ıneas de trabajo futuro con el objetivo de que las técnicas propuestas lleguen a ser totalmente viables y competitivas. ABSTRACT The objective of this Ph.D. thesis is to study the viability of the practical application of support vector machines (SVM) in the field of automatic speech recognition (ASR). Both the theoretical formulation of this tool and the performances achieved in other fields of application have led us to consider the SVM as an appropriate al- ternative for solving some of the problems exhibited by current speech recognizers. Namely, this thesis focuses on the problem of robust speech recognition in adverse environmental conditions. The first research line concentrates on the acoustic modelling stage of speech recognizers, where the typical Gaussian mixture models (GMMs) are substituted by a multiclass support vector machine for classification (support vector classifier, SVC). Given an input vector, this SVM estimates the a-posteriori probabilities for each of the acoustic classes considered in the problem. This hybrid SVM/HMM system, using an appropriate acoustic context length and a much smaller training dataset than conventional recognizers, achieves encouraging performance levels at the cost of a higher computational complexity. With the aim of reducing its complexity and attaining a real-time operation of the hybrid recognizer, we propose the use of ‘compact’ SVMs, which are trained using a weighted least squares (WLS) method. The procedure employed in this work allows us to fix in advance the complexity of the support vector machine by imposing a reduced model on the weight vector that defines the separating hyperplane. In this way, it is possible to control the computational cost at the recognition stage while keeping the overall performance of the SVM/HMM system. The second research line in this thesis focuses on the parameterization stage of the speech recognizer. Here, we propose the use of a non-parametric spectral estimation method based on the support vector machine for regression (support vector regressor, SVR)as apreviousstage tothe calculation ofthe cepstral coefficients. The possibility to define several regions in the cost function depending on the magnitude of the error provides a higher robustness to the SVR in the presence of impulsive noise, which is a common situation in the field of automatic speech recognition. Our experimental results show substantial improvements with respect to the conventional spectral estimation procedure when the speech signal is corrupted with short-duration impulsive noise. The proposals described in this Ph.D. thesis have been assessed for a Spanish connected-digit recognition task, with a moderate complexity. This has facilitated the development of the experimental stage, while achieving significant results that support the viability of the use of the methods presented in this Ph.D. thesis in the field of ASR. Finally, further research lines have been identified that aim at making the proposed techniques fully practical and competitive. Agradecimientos Como colofoń de la pequenã aventura que ha supuesto para m´ı la realizacioń de esta tesis doctoral, quisiera plasmar aqu´ı mi agradecimiento hacia todas aquellas personas que, de una forma u otra, me han ayudado a alcanzar este objetivo. Espero no dejarme a nadie en el tintero. Enprimerlugar,quieroagradecerlapacienteyvaliosadedicaciońdemisdirectores de tesis, Fernando D´ıaz de Mar´ıa y Manel Mart´ınez Ramoń. A Fernando, por el d´ıa en el que me propuso incorporarme al GPM, dando comienzo as´ı a una carrera que tanto me atra´ıa y sobre la que tan poco conoc´ıa. A Manel, por las interesantes charlas que se transformaron posteriormente en una colaboración más cercana. A ambos, por su disposicioń, ayuda y confianza a lo largo de estos anõs. También quiero dar las gracias a Carmen Peláez Moreno y Ana I. Garc´ıa Moral por sus valiosas discusiones y aportaciones sobre el trabajo realizado en esta tesis doctoral. De todos estos anõs en el Departamento de Teor´ıa de la Senãl y Comunicacio- nes de la UCIIIM me quedo especialmente con los momentos compartidos con los compan˜eros con los que he tenido la suerte de coincidir. Son muchos los que me han aportado su granito de arena en lo profesional y lo personal. A todos ellos les debo mi agradecimiento, aunque algunos merecen una mención especial: Al nodo53, que nunca me falló. A Harold, porque no siempre le reconocemos suficientemente su labor como domador del cluster. ´ A Eduardo Ugarte, Daniel, Nacho, Javier Montero, Oscar Garc´ıa y Belén, que convierten la hora de la comida en un agradable rato de desconexión de la vorágine diaria. A la gente que en alguń momento ha pasado por el GPM y el laboratorio 4.2.A01, con los que he compartido muchas horas de trabajo y algunos ratos ma´s agradables de charlas y risas. ´ ALorena,Felipe,Jesu´sRequena,DaviddeCastro,MariLuz,Dar´ıoMart´ın,Oscar Quevedo, Eloy, Javier Herraiz, Bertrand y Dar´ıo, porque, aunque ya no andaís por los pasillos del departamento, compartimos muy buenos ratos en él. ´ Finalmente, quiero acordarme especialmente de Ana Isabel, Yago, Roc´ıo, Oscar del Ama, Manolo, Luis Azpicueta, Ivań, Edu, Sergio, Chelus, Rau´l y Sara, a los que no sólo considero buenos compan˜eros sino también amigos. ´ A mis amigos de siempre, Alejandro, Santi, Jesu´s, Adriań, Angel, Ivań, Paco, Marta, Irene, Gema, Verońica, Lali, Ana, Mayte, Silvia, Vanesa, Lorena y Laura, tendré que agradecerles siempre su inestimable amistad, los inolvidables momentos que hemos pasado juntos y los que, sin duda, estań por llegar. A pesar de que no todos terminan de entender cómo me met´ı en esto del doctorado, siempre me han dado su apoyo y su ánimo en esta tarea. Todas las palabras son pocas para agradecer en justa medida el apoyo y carinõ de mi familia. La presencia, siempre cercana, de mis t´ıas Sagrario y Andrea, t´ıos Rufino y Tomás y abuela Andrea. Los alentadores ańimos, desde la distancia, de mi hermana Myriam y mi cunãdo Christian. La vitalidad de mis sobrinitas Aixa y Jimena, que han revolucionado a la familia. Mi hermano José Rufino, embarcado en ´ la misma aventura, ha sido siempre un so´lido apoyo y sabio consejero. ¡Animo, ya queda poco! A mis padres Mar´ıa del Prado y José Mar´ıa nunca les podré agradecer suficientemente las oportunidades que me han dado y su apoyo constante durante todos estos anõs. Os quiero a todos.

m´aquinas de vectores soporte para reconocimiento robusto de habla PDF

218 Pages·2012·1.15 MB·Spanish

Checking for file health...

Save to my drive

Quick download

Download

Upgrade Premium

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview m´aquinas de vectores soporte para reconocimiento robusto de habla

See more

The list of books you might like

Upgrade Premium

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.