Thursday, August 30, 2012

Sistemas de Reconocimiento de Voz

La siguiente información es un extracto pequeño sobre lo que es el funcionamiento de lo que hoy se considera una herramienta indispensable, no solo para las personas con capacidades diferentes, sino para personas sanas y sin problemas de lenguaje, visión o en general capacidades cognitivas.

abstract from thesis of  David Huggins Daines Doctor of Philosophy
In Language and Information Technologies.

This thesis describes MultiSphinx, a concurrent architecture for scalable, low-latency automatic speech recognition. We first consider the problem of constructing a universal “core” speech recognizer on top of which domain and task specific adaptation layers can be constructed. We then show that when this problem is restricted to that of expanding the search space from a “core” vocabulary to a superset of this vocabulary across multiple passes of search, it allows us to effectively “factor” a recognizer into components of roughly equal complexity. We present simple but effective algorithms for constructing the reduced vocabulary and associated statistical language model from an existing system. Finally, we describe the MultiSphinx decoder architecture, which allows multiple passes of recognition to operate concurrently and incrementally, either in multiple threads in the same process, or across multiple processes on separate machines, and which allows the best possible partial results, including confidence scores, to be obtained at any time during the recognition process.


El Dr David Huggins se centra en su tesis en el estudio de la arquitectura de una especie de "procesador", "core" como lo menciona el, que nos permite interactuar con el ordenador de manera que pueda reconocer nuestra voz e interpretar los sonidos que de ella se desprenden. Sin embargo el estudio del doctor va mas alla de lo que requerimos para el proyecto de la materia, nos centraremos en lo especifico que encontramos en la tesis que es, el reconocimiento de voz mediante algoritmos y funciones especificas dentro del lenguaje a utilizar.

 practical systems require that recognition be done faster than real time, or in other words, that it should take less than one second of clock time to recognize one second of input. This implies that that results of recognition should be available either concurrently with the input or as soon as possible after a chunk of input (a sentence, for example) is complete. 
An alternative view of the speech recognition problem is that instead of a decoding task, it constitutes a lossy data compression or source coding task. Here, we view speech as simply a highly redundant encoding of the original message. The goal of speech recognition in this view is to find a compact representation of the speech which jointly minimizes the entropy rate of the output, and the distortion between the original message and the output, as measured by some distortion function.

En este punto Huggins plantea que una alternativa del problema de reconocimiento de voz es que en lugar de ser una tarea de decodificación, se vea el discurso como simplemente una codificación altamente redundante del mensaje original. El objetivo de reconocimiento de voz en este punto de vista es encontrar una representación compacta de la voz que conjuntamente minimice la tasa de entropía de la salida, y la distorsión entre el mensaje original y el mensaje de salida, como se mide por una función de distorsión. Si se elige una secuencia de palabras como la representación, y la acústica negativa de la probabilidad mencionada en la hipótesis, entonces esto es en realidad muy similar a la técnica estándar de decodificación MAP, que se describe al interior del documento

Para nuestro proyecto de la materia de Sistemas Adaptativos esto es un buen comienzo, ya que lo que queremos implementar realmente existe, pero ademas, permite que sea mejorado para poder ser evaluado desde otros puntos de vista.

Mas acerca de este documento Aqui
Mas Acerca de Dr David Huggins