Incorporación de información suprasegmental en el proceso de reconocimiento automático del habla

Desarrollar sistemas informáticos capaces de interactuar con sus usuarios de la forma más natural y eficiente posible es uno de los requisitos esenciales para lograr la integración del mundo tecnológico en la so- ciedad. En ese marco el habla se presenta como una de las formas de comu- nicación más...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autor principal: Evin, Diego Alexis
Otros Autores: Gurlekian, Jorge Alberto
Formato: Tesis doctoral publishedVersion
Lenguaje:Español
Publicado: Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales 2011
Materias:
Acceso en línea:https://hdl.handle.net/20.500.12110/tesis_n4920_Evin
Aporte de:
id tesis:tesis_n4920_Evin
record_format dspace
institution Universidad de Buenos Aires
institution_str I-28
repository_str R-134
collection Biblioteca Digital - Facultad de Ciencias Exactas y Naturales (UBA)
language Español
orig_language_str_mv spa
topic PROSODIA
ENTONACION
ACENTUACION
MODELOS OCULTOS DE MARKOV
RECONOCIMIENTO AUTOMATICO DEL HABLA
PROSODY
INTONATION
STRESS PATTERNS
HIDDEN MARKOV MODELS
AUTOMATIC SPEECH RECOGNITION
spellingShingle PROSODIA
ENTONACION
ACENTUACION
MODELOS OCULTOS DE MARKOV
RECONOCIMIENTO AUTOMATICO DEL HABLA
PROSODY
INTONATION
STRESS PATTERNS
HIDDEN MARKOV MODELS
AUTOMATIC SPEECH RECOGNITION
Evin, Diego Alexis
Incorporación de información suprasegmental en el proceso de reconocimiento automático del habla
topic_facet PROSODIA
ENTONACION
ACENTUACION
MODELOS OCULTOS DE MARKOV
RECONOCIMIENTO AUTOMATICO DEL HABLA
PROSODY
INTONATION
STRESS PATTERNS
HIDDEN MARKOV MODELS
AUTOMATIC SPEECH RECOGNITION
description Desarrollar sistemas informáticos capaces de interactuar con sus usuarios de la forma más natural y eficiente posible es uno de los requisitos esenciales para lograr la integración del mundo tecnológico en la so- ciedad. En ese marco el habla se presenta como una de las formas de comu- nicación más eficientes y naturales que posee el ser humano. Es por ello que desde el origen mismo de la investigación en ciencias de la computación, el desarrollo de interfaces hombre-máquina a través de la voz ha despertado un gran interés. Uno de los elementos que componen dicha interfaz oral es el Re- conocimiento Automático del Habla (RAH), área de la Inteligencia Artificial que busca desarrollar sistemas computacionales capaces de transformar un fragmento de habla en su trascripción textual. El RAH es un problema de gran complejidad, lo que se puede atri- buir principalmente a dos factores: en primer lugar a la variabilidad de la señal de habla, que responde a múltiples factores como caracte- rísticas particulares del locutor y medio acústico donde se registra, la velocidad y estilos de elocución; y en segundo lugar a la necesidad de encontrar palabras individuales en un continuo acústico, es decir realizar al mismo tiempo las tareas de segmentación y clasificación. Si bien se pueden encontrar en los últimos años avances significa- tivos en el desempeño de los sistemas de RAH, aún hay mucho por mejorar en relación a la capacidad de reconocimiento que presentan los oyentes humanos para las mismas tareas y bajo las mismas con- diciones. Varias hipótesis intentan explicar esta diferencia de desem- peño: información insuficiente o representada de manera inadecuada en los sistemas automáticos, problemas en el modelado del sistema de reconocimiento, insuficientes cantidades de ejemplos empleados para lograr tasas de reconocimiento similares, etc. Con respecto al primero de estos puntos, los sistemas de RAH no utilizan toda la información acústica disponible en la señal de habla. Dichos sistemas interpretan el habla como secuencias de unidades cu- yas duraciones se encuentran a nivel segmental (fonético). Por lo tanto procesan la información acústica en la escala segmental para obtener las hipótesis de secuencias de unidades emitidas. Sin embargo estudios tanto psicoacústicos como psicolingüísticos resaltan el rol crucial que posee la información de una escala temporal mayor: la información su- prasegmental, en la percepción humana. Se entiende por información suprasegmental toda aquella que está dada en segmentos de duración superior al fonético, y cuyas propiedades están determinadas princi- palmente por la prosodia de una frase. Además se argumenta que en la tarea de reconocimiento e interpre- tación del habla los seres humanos emplean e integran varios niveles de conocimiento lingüístico, muchos de los cuales aún no han sido incorporados o aprovechados eficientemente en el RAH. A partir de esas evidencias resulta interesante investigar cuál es el aporte que puede brindar la información suprasegmental o prosódica para mejorar el desempeño de los sistemas de RAH estándar. En esta Tesis se investiga el empleo de información suprasegmental como factor de mejora en el desempeño, así como alternativas para su integración en sistemas de RAH estándar. En el Capítulo 1 se exponen argumentos que muestran la necesidad de mejorar los sistemas de RAH actuales a la luz del desempeño mos- trado en esta tarea por los seres humanos. Se presentan las bases de los mecanismos de producción, percepción y reconocimiento humano, así como un resumen de las principales aproximaciones al reconocimiento automático. Posteriormente se introducen los aspectos generales de la información suprasegmental y su rol en el mecanismo de comunica- ción oral. Seguidamente se hace una revisión de los antecedentes en el empleo de información suprasegmental dentro del proceso de RAH. Finalmente se delinean los objetivos de esta tesis. Debido a que en esta tesis se analiza la utilización de información suprasegmental en distintos módulos de los sistemas de RAH conven- cionales, en el Capítulo 2 se presenta la arquitectura y componentes principales de los reconocedores del habla actuales. Se detalla la arqui- tectura y forma de funcionamiento de estos sistemas, los fundamentos teóricos de los modelos de Markov, así como la forma de medir sus desempeños. El Capítulo 3 profundiza los aspectos de la información supraseg- mental introducidos en el Capítulo 1. Hace principal hincapié en las características prosódicas del español de Argentina, y presenta las téc- nicas computacionales empleadas en la tesis para la extracción auto- mática de sus atributos a partir de la señal de habla. El Capítulo 4 contiene una serie de estudios en que se busca vincular patrones de los atributos suprasegmentales con información lingüística útil para el proceso de RAH. En el primero de estos estudios se ana- liza la posibilidad de establecer agrupamientos de frases entonativas a partir de semejanzas en sus atributos suprasegmentales. El segundo experimento indaga la posibilidad de obtener información del número de palabras de contenido presentes en una frase, a partir de la mor- fología de sus curvas de F0. Finalmente el tercer estudio explora la viabilidad de establecer la tipología acentual de las palabras finales de frase utilizando rasgos suprasegmentales. En el Capítulo 5 se presenta una metodología para utilizar informa- ción suprasegmental a nivel de los modelos acústicos de un sistema de RAH. Específicamente se realiza una distinción entre modelos acústi- cos correspondientes a sonidos vocálicos acentuados y no acentuados. La metodología propuesta se evalúa y contrasta con distintas versiones de sistemas de RAH convencionales, empleando un corpus de habla continua. En el Capítulo 6 se expone una alternativa para emplear informa- ción suprasegmental durante la selección de hipótesis de reconoci- miento. Esta alternativa contempla la definición de un índice de se- mejanza entonativa entre la curva de F0 correspondiente a la frase a reconocer, y las posibles curvas de F0 correspondientes a las hipótesis de reconocimiento y obtenidas mediante un proceso de predicción. Se propone y desarrolla un modelo para su implementación y se realizan comparaciones de desempeño con respecto a un sistema de RAH de referencia. Finalmente en el Capítulo 7 se presentan las conclusiones y aportes de la tesis, juntamente con posibles líneas de investigación futura.
author2 Gurlekian, Jorge Alberto
author_facet Gurlekian, Jorge Alberto
Evin, Diego Alexis
format Tesis doctoral
Tesis doctoral
publishedVersion
author Evin, Diego Alexis
author_sort Evin, Diego Alexis
title Incorporación de información suprasegmental en el proceso de reconocimiento automático del habla
title_short Incorporación de información suprasegmental en el proceso de reconocimiento automático del habla
title_full Incorporación de información suprasegmental en el proceso de reconocimiento automático del habla
title_fullStr Incorporación de información suprasegmental en el proceso de reconocimiento automático del habla
title_full_unstemmed Incorporación de información suprasegmental en el proceso de reconocimiento automático del habla
title_sort incorporación de información suprasegmental en el proceso de reconocimiento automático del habla
publisher Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publishDate 2011
url https://hdl.handle.net/20.500.12110/tesis_n4920_Evin
work_keys_str_mv AT evindiegoalexis incorporaciondeinformacionsuprasegmentalenelprocesodereconocimientoautomaticodelhabla
AT evindiegoalexis incorporationofsuprasegmentalinformationintoautomaticspeechrecognitionprocess
_version_ 1782022766429470720
spelling tesis:tesis_n4920_Evin2023-10-02T20:02:26Z Incorporación de información suprasegmental en el proceso de reconocimiento automático del habla Incorporation of suprasegmental information into automatic speech recognition process Evin, Diego Alexis Gurlekian, Jorge Alberto PROSODIA ENTONACION ACENTUACION MODELOS OCULTOS DE MARKOV RECONOCIMIENTO AUTOMATICO DEL HABLA PROSODY INTONATION STRESS PATTERNS HIDDEN MARKOV MODELS AUTOMATIC SPEECH RECOGNITION Desarrollar sistemas informáticos capaces de interactuar con sus usuarios de la forma más natural y eficiente posible es uno de los requisitos esenciales para lograr la integración del mundo tecnológico en la so- ciedad. En ese marco el habla se presenta como una de las formas de comu- nicación más eficientes y naturales que posee el ser humano. Es por ello que desde el origen mismo de la investigación en ciencias de la computación, el desarrollo de interfaces hombre-máquina a través de la voz ha despertado un gran interés. Uno de los elementos que componen dicha interfaz oral es el Re- conocimiento Automático del Habla (RAH), área de la Inteligencia Artificial que busca desarrollar sistemas computacionales capaces de transformar un fragmento de habla en su trascripción textual. El RAH es un problema de gran complejidad, lo que se puede atri- buir principalmente a dos factores: en primer lugar a la variabilidad de la señal de habla, que responde a múltiples factores como caracte- rísticas particulares del locutor y medio acústico donde se registra, la velocidad y estilos de elocución; y en segundo lugar a la necesidad de encontrar palabras individuales en un continuo acústico, es decir realizar al mismo tiempo las tareas de segmentación y clasificación. Si bien se pueden encontrar en los últimos años avances significa- tivos en el desempeño de los sistemas de RAH, aún hay mucho por mejorar en relación a la capacidad de reconocimiento que presentan los oyentes humanos para las mismas tareas y bajo las mismas con- diciones. Varias hipótesis intentan explicar esta diferencia de desem- peño: información insuficiente o representada de manera inadecuada en los sistemas automáticos, problemas en el modelado del sistema de reconocimiento, insuficientes cantidades de ejemplos empleados para lograr tasas de reconocimiento similares, etc. Con respecto al primero de estos puntos, los sistemas de RAH no utilizan toda la información acústica disponible en la señal de habla. Dichos sistemas interpretan el habla como secuencias de unidades cu- yas duraciones se encuentran a nivel segmental (fonético). Por lo tanto procesan la información acústica en la escala segmental para obtener las hipótesis de secuencias de unidades emitidas. Sin embargo estudios tanto psicoacústicos como psicolingüísticos resaltan el rol crucial que posee la información de una escala temporal mayor: la información su- prasegmental, en la percepción humana. Se entiende por información suprasegmental toda aquella que está dada en segmentos de duración superior al fonético, y cuyas propiedades están determinadas princi- palmente por la prosodia de una frase. Además se argumenta que en la tarea de reconocimiento e interpre- tación del habla los seres humanos emplean e integran varios niveles de conocimiento lingüístico, muchos de los cuales aún no han sido incorporados o aprovechados eficientemente en el RAH. A partir de esas evidencias resulta interesante investigar cuál es el aporte que puede brindar la información suprasegmental o prosódica para mejorar el desempeño de los sistemas de RAH estándar. En esta Tesis se investiga el empleo de información suprasegmental como factor de mejora en el desempeño, así como alternativas para su integración en sistemas de RAH estándar. En el Capítulo 1 se exponen argumentos que muestran la necesidad de mejorar los sistemas de RAH actuales a la luz del desempeño mos- trado en esta tarea por los seres humanos. Se presentan las bases de los mecanismos de producción, percepción y reconocimiento humano, así como un resumen de las principales aproximaciones al reconocimiento automático. Posteriormente se introducen los aspectos generales de la información suprasegmental y su rol en el mecanismo de comunica- ción oral. Seguidamente se hace una revisión de los antecedentes en el empleo de información suprasegmental dentro del proceso de RAH. Finalmente se delinean los objetivos de esta tesis. Debido a que en esta tesis se analiza la utilización de información suprasegmental en distintos módulos de los sistemas de RAH conven- cionales, en el Capítulo 2 se presenta la arquitectura y componentes principales de los reconocedores del habla actuales. Se detalla la arqui- tectura y forma de funcionamiento de estos sistemas, los fundamentos teóricos de los modelos de Markov, así como la forma de medir sus desempeños. El Capítulo 3 profundiza los aspectos de la información supraseg- mental introducidos en el Capítulo 1. Hace principal hincapié en las características prosódicas del español de Argentina, y presenta las téc- nicas computacionales empleadas en la tesis para la extracción auto- mática de sus atributos a partir de la señal de habla. El Capítulo 4 contiene una serie de estudios en que se busca vincular patrones de los atributos suprasegmentales con información lingüística útil para el proceso de RAH. En el primero de estos estudios se ana- liza la posibilidad de establecer agrupamientos de frases entonativas a partir de semejanzas en sus atributos suprasegmentales. El segundo experimento indaga la posibilidad de obtener información del número de palabras de contenido presentes en una frase, a partir de la mor- fología de sus curvas de F0. Finalmente el tercer estudio explora la viabilidad de establecer la tipología acentual de las palabras finales de frase utilizando rasgos suprasegmentales. En el Capítulo 5 se presenta una metodología para utilizar informa- ción suprasegmental a nivel de los modelos acústicos de un sistema de RAH. Específicamente se realiza una distinción entre modelos acústi- cos correspondientes a sonidos vocálicos acentuados y no acentuados. La metodología propuesta se evalúa y contrasta con distintas versiones de sistemas de RAH convencionales, empleando un corpus de habla continua. En el Capítulo 6 se expone una alternativa para emplear informa- ción suprasegmental durante la selección de hipótesis de reconoci- miento. Esta alternativa contempla la definición de un índice de se- mejanza entonativa entre la curva de F0 correspondiente a la frase a reconocer, y las posibles curvas de F0 correspondientes a las hipótesis de reconocimiento y obtenidas mediante un proceso de predicción. Se propone y desarrolla un modelo para su implementación y se realizan comparaciones de desempeño con respecto a un sistema de RAH de referencia. Finalmente en el Capítulo 7 se presentan las conclusiones y aportes de la tesis, juntamente con posibles líneas de investigación futura. The development of computational systems capable of interacting with users in the most natural and efficient way is one of the essential re- quirements for the integration of the technological world in society. In this context speech is presented as one of the most efficient form of communication mechanisms available for human beings. That is why from the very beginning of research in computer science, the de- velopment of human-machine interfaces through voice have gain great interest. One of the elements that compose such interfaces is the Automatic Speech Recognition (ASR). ASR is a field of Artificial Intelligence which searches for the development of computational systems that transform speech segments into text transcriptions. ASR is a very complex problem, which can be attributed mainly to two factors: first, to the huge variability of the speech signal, depend- ing on multiple factors such as the speaker, the acoustic environment, linguistic context, speech rate, emotional states, locution styles, and many others; and secondly to the need of finding isolated words in an acoustic continuum, that is to say solving segmentation and classifica- tion problems simultaneously. Even thought we can find significant advances in the performance of ASR systems in recent years, there is still much space for improvement to match human recognition ability for the same tasks under the same conditions. Several hypotheses attempt to explain these differences on perfor- mance: insufficient information, inadequate way to represent it, prob- lems in modelling, insufficient quantities of used examples to achieve similar recognition rates, etc. Regarding the first point, ASR systems do not use all available acous- tic information in speech signal. These systems interpret the speech as sequences of units whose durations spans in a segmental (phonetic) level. Therefore they process the acoustic information at a segmental scale to obtain the hypotheses of sequences of uttered units. Nevertheless psychoacoustic and psycholinguistic research empha- size the essential role of information at a higher temporal level for the human speech perception: the suprasegmental information. Any information whose duration spans over several phonetic units can be thought as suprasegmental, and its properties are determined princi- pally by the prosody of an utterance. Furthermore, it is argued that during the task of speech recognition and interpretation, various linguistic knowledge are integrated and used. It has been also argued that no much of linguistic knowledge have yet been incorporated or utilized efficiently in the ASR From these evidences it seems relevant to investigate whether the suprasegmental or prosodic information could contribute to improve the performance of standard ASR systems. In this thesis the use of the suprasegmental information is investi- gated as a factor for improving performance, as well as an alternative for the integration of this information into the architecture of standard ASR systems. Chapter 1 arguments are presented that show the need to improve current ASR systems in the light of the performance showed by human speech recognition. The basis and mechanisms of production, perception and human speech recognition, as well as main approaches for ASR are revised. Subsequently the general aspects of the suprasegmental information and its roll in the mechanism of oral communication are introduced. After that, a review of the employment of information into the process of ASR is devised. Finally, we discuss the objectives of this thesis. Because this thesis examines the use of suprasegmental informa- tion in different modules of the conventional ASR systems, Chapter 2 presents the architecture and main components of current speech recognizers. The functionality, theoric foundations of hidden Markov models, and the performance evaluation methodology are detailed. Chapter 3 discusses in more detail the aspects of the suprasegmental information introduced in Chapter 1. Special emphasis is given to the prosodic characteristics of Argentinian Spanish. The computational techniques employed in this dissertation for the automatic extraction of these attributes from the speech signal are presented. Chapter 4 contains a series of studies that seeks to link attributes of suprasegmental patterns with linguistic information, useful in the ASR process. In the first experiment, the possibility of establishing groupings of intonative phrases based on similarities between their suprasegmental attributes is analyzed The second experiment explores the possibility of obtaining infor- mation about the number of content words contained in a phrase by analyzing the shape the of F0 curves. Finally the third study explores the feasibility of establishing the accentual typology of final words in sentences using suprasegmental features. Chapter 5 introduces a methodology for using suprasegmental in- formation at the level of acoustic models in a conventional ASR sys- tem. Specifically a distinction is made between acoustic models for accented and unaccented vowel sounds. The proposed methodology is evaluated and compared with different versions of conventional of ASR systems, using a corpus of continuous speech. Chapter 6 exposes an alternative for using suprasegmental informa- tion in the posprocessing of ASR. This alternative defines an index of intonative similarity, measured between the F0 contour estimated from the utterance to recognize, and the one corresponding to the alternative recognition hypotheses. This idea is implemented and compared to a reference standard ASR system. Finallly Chapter 7 concludes the Thesis. An overview of the main findings and contributions of this thesis is presented together with future works in this line of research. Fil: Evin, Diego Alexis. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales 2011 info:eu-repo/semantics/doctoralThesis info:ar-repo/semantics/tesis doctoral info:eu-repo/semantics/publishedVersion application/pdf spa info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar https://hdl.handle.net/20.500.12110/tesis_n4920_Evin