DISTRIBUCIÓN | Artículos | 15 ENE 1998

Programas de reconocimiento del habla

Fco. Javier Gª Moratalla.

Cada vez se están poniendo más de moda los programas capaces de reconocer lo que estamos diciendo, para posteriormente interpretarlo y de este modo convertirlo en texto sobre el ordenador. Este auge ha sido todavía mayor con la aparición de la última generación de programas, en la que todos los fabricantes presentan como novedad la introducción del reconocimiento del habla continua, frente al habla discreta que era como venían funcionando hasta hace poco. La introducción del reconocimiento del habla continua supone el que ahora podemos dictar al ordenador de una manera natural, es decir, tal y como hablamos cotidianamente, y no palabra a palabra y pausadamente como se hacía antes. Esta novedad hace que este tipo de programas pasen de ser algo meramente anecdótico a convertirse en una aplicación funcional, a la que con el debido entrenamiento se le pueda sacar un partido bastante significativo.

Para esta prueba comparativa hemos escogido los tres programas que actualmente se comercializan en el mercado español, el IBM ViaVoice, el Dragon Naturally Speaking y el Gensoft Speak Naturally. Hemos de destacar que los dos últimos se basan en el mismo motor, es decir, la parte encargada del propio reconocimiento del habla es prácticamente la misma, lo cual nos ha dado unos resultados que, salvo pequeñas variaciones, son iguales.

Los productos

Los tres paquetes se presentan de un modo muy similar. En todos contamos con una caja que incluye además del CD-ROM con el propio programa, un micrófono de cabeza, de calidad más que aceptable las tres unidades. El Dragon cuenta con un pequeño dispositivo a pilas capaz de adaptar la voz y que en las pruebas resultó ser el más efectivo en funcionamiento, pero sin mucha ventaja sobre los otros dos. El modelo que incorpora el programa de Gensoft daba mejor calidad que el de IBM, pero como inconveniente nos encontramos con que el brazo que lo sostenía no resultaba muy estable. Por último, el modelo de IBM, resultó ser el que menos calidad dio de los tres, pero por el contrario fue el más cómodo a la hora de mantenerlo sobre la cabeza, gracias a su mejor diseño.

En cuanto a la documentación respecta, prácticamente es escasa en todos, nos encontramos con unos manuales diminutos, de los cuales tuvimos que sacar toda la información, además de la que se encuentra en las cajas de los productos, que fue en algunos casos tan valiosa como la propia documentación impresa. Aunque la documentación sea escasa, la sencillez de uso en los tres es algo que cabe reseñar, así como la gran ayuda con que cuentan, que hace que la falta de documentación sea suplida con creces.

La instalación

Los requisitos mínimos especificados por el fabricante varían en los tres productos, y a primera vista parecen algo elevados (ver tabla adjunta), pero si queremos un funcionamiento óptimo del producto, sería conveniente contar con un equipo suficientemente dotado tanto de procesador como de memoria RAM. Una configuración que en las pruebas nos funcionó suficientemente bien fue un Pentium a 200 MHz con 40 MB de memoria RAM. También pudimos constatar que los tres funcionan con menos requisitos de los especificados, pero hay que tener en cuenta que el rendimiento se vio claramente mermado, y la velocidad de proceso en algunos casos se salía de los límites de lo sensato. Por el contrario, en pruebas hechas sobre equipos más potentes, un Pentium 200 MMX con 64 MB de memoria RAM, se notó un mejor funcionamiento del sistema, no en la efectividad del reconocimiento, que fue aproximadamente la misma independientemente de la máquina en que corriese, sino en la velocidad con que este concluía su trabajo, que se veía disminuida muy significativamente.

El proceso de instalación es muy sencillo en los tres productos, y su única complejidad se limita a la configuración. Para la configuración todos consideran unas fases muy diferenciadas. En una primera fase lo que se realiza son lo que podríamos denominar ajustes de volúmenes y monitorización del sonido de ambiente para lograr luego un mayor rendimiento. La segunda fase es la que denomina inscripción el programa de IBM, y entrenamiento los otros dos. En ella realizaremos la lectura de unas frases concretas mediante las cuales los programas conseguirán adaptarse a nuestra voz. En el programa de IBM la lectura que se realiza se basa en unos capítulos del Quijote, mientras que en los otros dos el tema de lectura escogido es el conocido cuento de Pinocho. Citar también que las frases del ViaVoice son muchísimo más cortas que las de los demás.

Una vez terminada estas primeras fases de configuración el siguiente paso es optimizar todavía más el funcionamiento del programa, para ello podemos continuar dictándole todavía más frases, para por último tratar de ir adaptando el programa a nuestro timbre vocal mediante un entrenamiento de tipo correctivo, en el que iremos corrigiendo los fallos que vaya cometiendo el sistema con objeto de que vaya aprendiendo cada vez más sobre nuestra forma de hablar.

Funcionamiento

Nuevamente nos volvemos a encontrar con una gran similitud entre los tres programas, su modo de funcionar es prácticamente el mismo. Los tres cuentan con un editor de texto sobre el que se van realizando las tareas de dictado que él va escribiendo.

Otra opción con que cuentan todos es una serie de macros que se incorporan al procesador de textos, de modo que éste una vez reconocido pasa directamente al procesador, evitándonos de este modo tener que estar cortando y pegando para componer un documento.

Las pruebas

Para las pruebas nos hemos basado en dictar en las mismas circunstancias a los tres programas los mismos textos. Las pruebas se realizaron tres veces, una con cada uno de los tres micrófonos con que contábamos y se calculó la media de las tres pasadas.

Los textos seleccionados fueron: una serie de frases de manera aislada y de uso cotidiano, esta prueba gracias a su pequeña extensión pudo repetirse varias veces; un párrafo de un artículo de periódico en el que se daba una noticia; un artículo de la revista Dealer World en el que se incluían palabras técnicas pero no había casi anglicismos; una sentencia de un juzgado que cayó en nuestras manos, y un capítulo corto de una novela.

Las dos primeras pruebas las realizamos primero con el entrenamiento inicial solo y después con el entrenamiento completo. Cabe reseñar que los resultados hubieran sido superiores en los tres casos si hubieramos aplicado el tratamiento correctivo a los tres programas, pero emplearlo hubiera supuesto introducir ventajas a aquel programa que inicialmente fallara más, por lo que se optó por no incluirlo para las pruebas. Una vez terminadas se repitieron algunas tras efectuar un entrenamiento correctivo, y las conclusiones finales fueron un incremento en la efectividad en todos los programas, aunque las proporciones de acierto entre ellos se mantenían constantes. Un caso a destacar es el de los dos programas que incorporan el motor Dragon, ya que en teoría es el mismo programa, y los resultados deberían haber sido los mismos, lo cual nos hace sospechar que quizás las condiciones del aprendizaje no fueron exactas en ambas pruebas.

Conclusiones

IBM ViaVoice

El producto de IBM se posiciona muy bien gracias a su gran rendimiento y a su bajo precio. Su punto más flojo es la escasez en reconocimiento de términos técnicos.

Dragon Naturally Speaking

Cuenta como punto fuerte con un excelente micrófono, fue sin duda el mejor de la prueba, y con un vocabulario magistral, ha sido el que mejor ha reconocido términos de uso no cotidiano.

Gensoft Speak Naturally

Podríamos decir que se trata prácticamente del mismo producto que el Dragon, aunque en nuestras pruebas no tuvo el éxito del otro y presentó más fallos.

Comentar
Para comentar, es necesario iniciar sesión
Se muestran 0 comentarios