El establecimiento de las tecnologías de voz.
Encajando el sentido
Con una adopción de altavoces inteligentes mayor al 20%, con un billón de dispositivos móviles con asistentes de voz y muchos otros puntos de contacto donde la manera de interactuar es el lenguaje natural, no queda duda de que estamos en la que llaman: meseta de productividad en el ciclo de sobreexpectación que acuñara Gartner para describir el entusiasmo y siguiente decepción que ocurre habitualmente en la introducción de nuevas tecnologías.
Pero, ¿porque recién ahora? La primera idea que nos viene a la cabeza cuando pensamos en inteligencia artificial es la de un autómata que habla de manera natural. La palabra establece un puente de entendimiento, le da sentido a nuestro entorno, nos permite expresarnos. En la búsqueda de desentrañar nuestra propia manera de ver el mundo y la manera en la que somos capaces de modificarlo, el estudio del lenguaje ha sido clave.
La filosofía, la psicología, la lingüística son campos inseparables de los hallazgos técnicos necesarios para la comprensión automática del lenguaje natural y la síntesis de voz.
En la línea de tiempo de las tecnologías de la voz, vemos el inmenso trabajo conceptual, teórico y finalmente técnico fue necesario para llegar hasta el uso amplio y extendido de las interfaces de voz.
Hemos pasado por la sobre-expectación de IBM a comienzos de los 50s traduciendo unas pocas frases con un diccionario de doscientas palabras a utilizar los asistentes de voz de manera cotidiana.
El nivel actual de comprensión de lenguaje natural abre las puertas a nuevos servicios, productos y canales de distribución de contenidos o atención al cliente donde la voz tenga un papel clave en la interacción, pero que sin duda será multimodal.
En 1987 James Allen decía que hay dos motivaciones para construir una teoría computacional: La del fin tecnológico que solo implica desarrollar mejores ordenadores, y cualquier solución al respecto es aceptable y la del objetivo cognitivo de desarrollar un sistema análogo al mecanismo de procesamiento del lenguaje humano y que esa teoría solo será aceptable después de que pudiera verificarse en un experimento. Hoy podemos experimentar a diario hasta donde hemos llegado en este último camino.
La interfaz de voz mejor diseñada será aquella que no se perciba, cuando no sea necesario adecuar nuestra solicitud a nuestra expectativa.
Aunque el nivel actual hace práctico el uso de las tecnologías de voz, el “arte del discurso” es inespecífico. Cuando hablamos proveemos una descripción incompleta de la información que intentamos comunicar. Las palabras y frases que utilizamos frecuentemente dejan de lado información o detalles importantes que el “sistema” espera conocer. Además, nuevas palabras y expresiones hacen que el sentido evolucione, cambie.
En la comprensión humana estas frases forman parte de una expresión fluida de conceptos relacionados semánticamente, de experiencias pasadas y eventos relacionados que completan el sentido despojándolo de ambigüedad. Sinembargo aún muchas soluciones tecnológicas utilizan los paradigmas más sencillos de interpretación, en estos sistemas, las representaciones sintácticas de textos se basan ampliamente en detección de palabras claves, algoritmos de ranking (Page 1999) o modelos de lenguaje estadístico (Joachims 202) para extraer la intención del usuario, creando situaciones de bloqueo frente a la ambigüedad.
Todos hemos pasado alguna vez por la experiencia de enfrentarnos a un sistema automático de triaje en un servicio de atención al cliente en el que nuestra necesidad no entraba donde el sistema esperaba; la frustración resultante no proviene tanto del diseñador de esa solución que debe enfrentarse a una miríada de alternativas si no de la falta de contexto. Ese paso para atravesar la línea entre entendimiento y procesamiento requiere de un enfoque amplio que combine múltiples disciplinas, no es suficiente con construir un gran conjunto de vocabulario y entrenar una máquina con el.
En ese punto el modelo de diálogo se convierte en una herramienta conversacional y deja de ser una mera interfaz vocal.