No cabe ninguna duda que la voz es la interface natural del ser humano, es decir, el medio más espontáneo y simple que tenemos para comunicarnos. Ejemplo de ello es que para hacernos entender no requerimos de ningún dispositivo especial más que nuestra voz. Además, mientras hablamos podemos estar realizando diferentes tareas al mismo tiempo.
Pese a que la evolución en el ámbito de las comunicaciones ha sido revolucionaria en el último tiempo, aún estamos acostumbrados a la necesidad de utilizar diferentes intermediarios para lograr una comunicación a distancia. Por ejemplo, estamos habituados a discar un aparato para hablar por teléfono y a usar el teclado o el mouse para comunicarnos con nuestro computador. Sin embargo, esta realidad ya está cambiando, gracias al vertiginoso avance de las tecnologías.
Entendiendo que el desarrollo tecnológico tiene como principal objetivo hacernos la vida cada día más fácil, es que los avances de los últimos años se han concentrado en rescatar a la voz como la interface idónea para lograr que nuestros sistemas de comunicación resulten más eficientes y cómodos. Se trata de un salto cualitativo que se viene desarrollando con ímpetu, más aún si consideramos que el tamaño físico de nuestros dedos es la principal limitante para no poder reducir aún más el tamaño de teléfonos, teclados y otras interfaces existentes. Por lo mismo, es que la implementación de la voz se convierte en el medio idóneo para acceder a dispositivos de comunicación remotos cada vez más pequeños.
Una década de avances
La evolución en los sistemas de reconocimiento de voz ha sido realmente impresionante. En sólo 10 años pasaron de ser sistemas discretos -que reconocían palabra por palabra y número por número- a sistemas continuos y naturales. Esto significa que si el computador le pregunta al usuario cuál es el origen y destino de su viaje y éste le responde de Antofagasta a Arica, lo que realmente le interesa al computador son los conceptos “Antofagasta y Arica”, independientemente de las demás palabras que contenga la respuesta.
Otro avance es el que se ha dado con los números, puesto que en la actualidad el PC es capaz de reconocerlos en forma continua, es decir, desde el simple 1, 2 y 3 hasta la interpretación correcta de 1.234.
Existen, además, otros sistemas que han evolucionado notablemente en el último tiempo, como son el Text to Speach y la Verificación de Voz. El primero es una tecnología que permite convertir cualquier texto en voz. Un salto cualitativo se ha dado en este ámbito, ya que antiguamente la voz del equipo era muy robótica -ya que traducía palabra por palabra- mientras que hoy es capaz de dar la entonación correspondiente a cada frase, siendo cada vez más parecida a la voz humana. En tanto, la Verificación de Voz es la tecnología que permite reconocer la identidad de la persona que está hablando. Se aplica con frecuencia en sistemas de seguridad y, si bien aún no es 100% segura, no cabe duda de que pronto alcanzará niveles de verificación más eficientes.
El mercado de los servicios
El reconocimiento de voz es, en definitiva, la tecnología que se está imponiendo en el mundo moderno. La madurez alcanzada por este tipo de herramientas se traduce en que éstas se están aplicando ampliamente en el mercado de los servicios, como, por ejemplo, en líneas aéreas, bancos, empresas de seguros, agencias de viajes y bolsas de valores. Gracias a ello es que muy pronto tendremos acceso a la información que necesitemos, sin importar dónde estemos, qué estemos haciendo o qué tan lejos nos encontremos de los centros de información a los que queramos acceder. Todo esto con sólo hablarle a un dispositivo más pequeño que un lápiz.
Abril de 2004