El establecimiento de las tecnologías de voz.

Encajando el sentido


Con una adopción de altavoces inteligentes mayor al 20%, con un billón de dispositivos móviles con asistentes de voz y muchos otros puntos de contacto donde la manera de interactuar es el lenguaje natural, no queda duda de que estamos en la que llaman: meseta de productividad en el ciclo de sobreexpectación que acuñara Gartner para describir el entusiasmo y siguiente decepción que ocurre habitualmente en la introducción de nuevas tecnologías.

Pero, ¿porque recién ahora? La primera idea que nos viene a la cabeza cuando pensamos en inteligencia artificial es la de un autómata que habla de manera natural. La palabra establece un puente de entendimiento, le da sentido a nuestro entorno, nos permite expresarnos. En la búsqueda de desentrañar nuestra propia manera de ver el mundo y la manera en la que somos capaces de modificarlo, el estudio del lenguaje ha sido clave.

La filosofía, la psicología, la lingüística son campos inseparables de los hallazgos técnicos necesarios para la comprensión automática del lenguaje natural y la síntesis de voz.
En la línea de tiempo de las tecnologías de la voz, vemos el inmenso trabajo conceptual, teórico y finalmente técnico fue necesario para llegar hasta el uso amplio y extendido de las interfaces de voz.

Hemos pasado por la sobre-expectación de IBM a comienzos de los 50s traduciendo unas pocas frases con un diccionario de doscientas palabras a utilizar los asistentes de voz de manera cotidiana.
El nivel actual de comprensión de lenguaje natural abre las puertas a nuevos servicios, productos y canales de distribución de contenidos o atención al cliente donde la voz tenga un papel clave en la interacción, pero que sin duda será multimodal.
En 1987 James Allen decía que hay dos motivaciones para construir una teoría computacional: La del fin tecnológico que solo implica desarrollar mejores ordenadores, y cualquier solución al respecto es aceptable y la del objetivo cognitivo de desarrollar un sistema análogo al mecanismo de procesamiento del lenguaje humano y que esa teoría solo será aceptable después de que pudiera verificarse en un experimento. Hoy podemos experimentar a diario hasta donde hemos llegado en este último camino.

La interfaz de voz mejor diseñada será aquella que no se perciba, cuando no sea necesario adecuar nuestra solicitud a nuestra expectativa.

Aunque el nivel actual hace práctico el uso de las tecnologías de voz, el “arte del discurso” es inespecífico. Cuando hablamos proveemos una descripción incompleta de la información que intentamos comunicar. Las palabras y frases que utilizamos frecuentemente dejan de lado información o detalles importantes que el “sistema” espera conocer. Además, nuevas palabras y expresiones hacen que el sentido evolucione, cambie.
En la comprensión humana estas frases forman parte de una expresión fluida de conceptos relacionados semánticamente, de experiencias pasadas y eventos relacionados que completan el sentido despojándolo de ambigüedad. Sinembargo aún muchas soluciones tecnológicas utilizan los paradigmas más sencillos de interpretación, en estos sistemas, las representaciones sintácticas de textos se basan ampliamente en detección de palabras claves, algoritmos de ranking (Page 1999) o modelos de lenguaje estadístico (Joachims 202) para extraer la intención del usuario, creando situaciones de bloqueo frente a la ambigüedad.

Todos hemos pasado alguna vez por la experiencia de enfrentarnos a un sistema automático de triaje en un servicio de atención al cliente en el que nuestra necesidad no entraba donde el sistema esperaba; la frustración resultante no proviene tanto del diseñador de esa solución que debe enfrentarse a una miríada de alternativas si no de la falta de contexto. Ese paso para atravesar la línea entre entendimiento y procesamiento requiere de un enfoque amplio que combine múltiples disciplinas, no es suficiente con construir un gran conjunto de vocabulario y entrenar una máquina con el.

En ese punto el modelo de diálogo se convierte en una herramienta conversacional y deja de ser una mera interfaz vocal.

Otros Posts

Integración vocal (hardware)

Integración vocal (hardware)

Explora nuestra guía rápida para crear tu propio asistente de voz. Descubre cómo configurar el hardware necesario, instalar y ajustar el software y poner a prueba tu nuevo sistema de interacción vocal. ¡Haz clic para aprender a integrar tecnologías de voz de manera local y privada en tu proyecto!

más...
Alexa, Feliz cumpleaños

Alexa, Feliz cumpleaños

¡Celebra el aniversario de Alexa en Español con nosotros! Desde 2018, hemos explorado el mercado hispanohablante, desarrollando decenas de skills. Descubre insights sobre el desarrollo de skills en España y México, y análisis de categorias y autores. ¡Accede al reporte y conoce más sobre el mundo de Alexa en Español!

más...
Las leyes del arquitecto frugal

Las leyes del arquitecto frugal

En un análisis de las leyes presentadas por Werner Vogels de AWS en el sitio 'The Frugal Architect', se desglosan conceptos clave sobre la integración del costo en la arquitectura de sistemas. Desde la consideración del costo como un requisito explícito hasta la promoción de una cultura de innovación constante, el análisis busca proporcionar una comprensión clara y equilibrada, dirigida tanto a profesionales del sector como a aquellos interesados en la tecnología. ¿Cómo pueden estas leyes, enfocadas en la eficiencia y la sostenibilidad económica, transformar la forma en que arquitectos y desarrolladores abordan sus proyectos?

más...
Búsqueda Semántica y Bases de Datos Vectoriales:

Búsqueda Semántica y Bases de Datos Vectoriales:

Exploramos cómo la búsqueda semántica y las bases de datos vectoriales están transformando la recuperación de información en la era digital, tecnologías que permiten una comprensión más profunda del contexto y la intención detrás de cada consulta, superando las limitaciones de las búsquedas basadas en palabras clave. Estas bases de datos mapean y recuperan información basándose en sus propiedades semánticas, facilitando una búsqueda más precisa y matizada. En Mindgeist, implementamos estas soluciones para transformar la gestión y búsqueda de conocimiento en algo más intuitivo y poderoso.

más...
David Mantecón

David Mantecón

David Mantecón, experto en diseño sonoro, suma más de 30 años creando paisajes sonoros y música electroacústica para cine, series y publicidad. Su estudio 'No Problem Sonido' combina creatividad con la última tecnología. Especialista en colocar el sonido al mismo nivel que la imagen, su obra puede apreciarse en más de 50 películas y variadas plataformas. Con la revolución 'voice first', David y su equipo exploran el poder del sonido en la experiencia de usuario, analizando su papel en la interacción y comunicación bidireccional.

más...
Estas son noticias que en mindgeist creemos que no puedes pasar por alto.

Estas son noticias que en mindgeist creemos que no puedes pasar por alto.

El 2020 arranca con el **Consumer Electronic Show**, vitrina de avances tecnológicos. La voz, antes un nicho, ahora redefine la experiencia del usuario. Google reporta 500M de usuarios para su asistente en el CES. Alexa fortalece su presencia en Hispanoamérica. KFC recrea digitalmente la voz de su fundador, el Coronel Sanders. A pesar de avances, el voice commerce aún no satisface todas las expectativas. La tecnología vocal se vuelve cada vez más integral en la vida diaria.

más...
Estas son noticias que en mindgeist creemos que no puedes pasar por alto.

Estas son noticias que en mindgeist creemos que no puedes pasar por alto.

Las tendencias **Voice First** de 2022 evidencian la integración de **Amazon Alexa** en **Jaguar Land Rover** y una modificación para una interacción más fluida con Alexa. James Cameron advierte sobre los peligros de los deepfakes. Un estudio de **IBM** subraya el auge de chatbots de IA. Se destaca la 'curva en J' en la adopción tecnológica. Se pasaron 4 horas diarias en móviles en 2020, mayormente en redes sociales. Por último, **Alexa Together** asiste remotamente a ancianos, facilitando su monitoreo y comunicación.

más...
Estudio de las Skills de Alexa en Español - Invierno 2020

Estudio de las Skills de Alexa en Español - Invierno 2020

Alexa ya opera en español en tres países, reflejando una madurez creciente en estos mercados. En respuesta a esta tendencia ascendente, Mindgeist ha lanzado una edición actualizada de su estudio sobre skills en español, incorporando datos del mercado estadounidense. El informe detalla estadísticas sobre publicaciones de skills, categorias, editores y evaluaciones de usuarios. Además, se han sumado perspectivas de expertos en comunicación para analizar estos datos. El objetivo es entender cómo estas tendencias influirán en la forma en que las empresas se conectan y comunican con su público.

más...
"Hola, este es el resultado de tu búsqueda."​

"Hola, este es el resultado de tu búsqueda."​

La abundancia de información en la web nos inunda, a menudo más allá de nuestra capacidad de procesarla. Esta saturación recuerda a un buffet inagotable. Sin embargo, con la aparición de la búsqueda por voz y la importancia de posicionar contenidos, la dinámica está cambiando hacia una selección más cuidada, similar al concepto japonés de 'omakase', donde se confía en el chef para recibir lo mejor. Los altavoces inteligentes buscan ofrecer una respuesta precisa y directa. En este nuevo paradigma, no luchamos por la atención, sino que debemos ganárnosla.

más...
En mindgeist creemos que no puedes perderte estas noticias.

En mindgeist creemos que no puedes perderte estas noticias.

En Mindgeist, nos dedicamos a curar meticulosamente las noticias más relevantes para nuestra comunidad. Con el constante flujo de información diaria, seleccionamos cuidadosamente aquellas piezas que consideramos valiosas y trascendentales para nuestros lectores. Cada artículo que compartimos refleja nuestro compromiso con la calidad y la relevancia. Nuestra misión es garantizar que te mantengas informado con contenido significativo y actualizado.

más...
El timeline de las interfaces de voz

El timeline de las interfaces de voz

La historia de los asistentes de voz se extiende desde los esfuerzos iniciales en síntesis de voz. nos adentramos en la Comprensión de Lenguaje Natural, pilar de la inteligencia artificial, debatiendo si el enfoque debe ser estadístico o basado en modelos conceptuales. El avance en el Reconocimiento del Habla ha llevado a una comprensión similar a la humana, haciendo las interacciones vocales más naturales. Los Asistentes, que simulan conversaciones o tienen funciones específicas, han visto oportunidades expansivas con mejoras en la síntesis y comprensión del habla. La narración, en constante evolución, promete ser clave del sector.

más...
Truco: como depurar con  Web API for Games

Truco: como depurar con Web API for Games

En el mundo del desarrollo, la depuración es la piedra angular para garantizar aplicaciones de alto rendimiento y sin fallos. Si bien las herramientas locales como la consola Javascript resultan esenciales durante las fases iniciales, cuando migramos aplicaciones a dispositivos como Alexa, nos enfrentamos a un desafío: ¿cómo depurar eficazmente en un entorno remoto? Aquí es donde intervienen los depuradores remotos como RemoteJS. Estos no sólo permiten monitorear eventos en tiempo real, sino que también facilitan la ejecución de código a distancia y la captura de pantallas. Sin embargo, es crucial recordar retirar cualquier herramienta de depuración antes de finalizar y enviar la aplicación.

más...
Utiliza la Web API for Games de Alexa

Utiliza la Web API for Games de Alexa

Amazon ha lanzado la 'Web API for Games de Alexa', que permite a los desarrolladores fusionar la potencia de las aplicaciones web con las skills de Alexa para crear juegos interactivos. Esta API abre la puerta para integrar tecnologías como WebGL, WebAudio, CSS y Javascript en el ecosistema de Alexa. En un ejemplo práctico, se crea un juego que presenta formas geométricas en pantalla y el jugador debe seleccionar la forma roja. La estructura de estos juegos se divide en dos: la skill de Alexa, que gestiona los comandos de voz y la lógica, y la aplicación web, que visualiza y gestiona la interacción táctil. Sigue este tutorial paso a paso para descubrir el potencial de la nueva Web API de Amazon Alexa.

más...