Integración vocal (hardware)

¿Cómo integrar la interacción vocal?

Esta es una guía rápida para crear un primer prototipo de asistente de voz con el hardware y el software necesario.

Que coincidimos en que las tecnologías de voz han tenido un desarrollo acelerado y que hoy son parte clave en la experiencia de usuario lo daré por descontado si ya estás leyendo esta nota.

También asumiré un conocimiento general acerca de los componentes o servicios de un sistema de voz que, en breve, son:

  • Captura y procesamiento de audio
  • Reconocimiento automático del habla (ASR)
  • Procesamiento y comprensión de lenguaje natural (NLU & NLP)
  • Clasificación y gestión de intenciones
  • Síntesis vocal / Presentación de información (TTS)

Cada uno de estos componentes puede funcionar de manera local o remota, configurando una experiencia completamente privada y desconectada de la internet, mixta o dejando en mano de servicios on-line desde el Automatic Speech Recognition hasta el Text to Speech.

La configuración del hardware

Para que las cosas funcionen de manera fluida os recomiendo una configuración sencilla y robusta.

ReSpeaker 2-Mics Pi HAT con un coste en torno a los 12€ es una placa de expansión de doble micrófono que incluye 3 led RGB, un botón de usuario e interfaces para expandir la funcionalidad.

Los dos micrófonos dan la posibilidad de realizar procesamiento de señal para eliminar ecos y ruidos de fondo de manera más eficiente. Hay placas de expansión con más micrófonos y procesamiento digital de señales que hacen aún más eficiente la captura de audio, pero con esta configuración se desempeña de manera óptima en la mayor parte de los entornos.

Hemos utilizado una Raspberry Pi 3 Model Bque tiene un precio entorno a los 40€ aunque puede funcionar con una Raspberry Pi Zero.

También hará falta una tarjeta Micro SD de al menos 16Gb, una fuente de alimentación Micro USB de al menos 2.5A, y un altavoz o auriculares, accesorios muy comunes para smartphones.

El software que vamos a utilizar

Damos por descontado que en la MicroSD tenemos una versión, al menos, Raspberry Pi OS Buster.

Nos aseguraremos de que el sistema operativo está actualizado:

Obtenemos el código fuente de la placa de expansión de sonido, lo instalamos y reiniciamos:

Comprobamos que la placa de sonido es reconocida como entrada y salida:

Editamos el archivo /boot/config.txt para desactivar el sonido integrado de la Raspberry.

La solución integrada de voz

Rhasspy es un proyecto de código abierto que combina múltiples servicios para dar una solución integral que nos permite configurar un asistente de voz funcional en muy poco tiempo.

La manera más simple y rápida de instalar Rhasspy es utilizando Docker que instalaremos con el siguiente comando:

Una vez instalado vamos a agregar el usuario pi al grupo docker y reiniciaremos.

Cuando las Raspberry haya reiniciado instalaremos la imagen Docker de Rhasspy

Al terminar la descarga ejecutaremos el siguiente comando:

Se iniciará una imagen Docker a la que podremos acceder en el port 12101 de las Raspberry Pi, con el tiempo local, la interfaz de audio por defecto y un perfil en español.

¡Y con eso hemos terminado la configuración inicial!

Si apuntamos nuestro navegador a: http://<IP_ADDRESS>:12101, donde <IP_ADDRESS> es la dirección de nuestra Raspberry, accederemos a la interfaz web de Rhasspy.

Vamos a realizar una configuración básica, primero vamos a configurar el dispositivo de audio, de los íconos a la izquierda elegimos “Settings”, luego seleccionamos “Audio Recording” y hacemos “Refresh” para elegir la tarjeta “seeed2micvoicec”

Buscamos la opción “Audio Playing” y repetimos la misma operación para buscar el dispositivo correcto, salvamos la configuración y aceptamos el mensaje “restart Rhasspy”

Vamos a configurar un “Wake Word” y algunos “Intents” para probar el funcionamiento. Rhasspy integra los siguientes paquetes que soportan los lenguajes enumerados en la tabla.

Wake Word

Para la palabra de activación utilizaremos Pocketsphinx que aunque su performance es de las más bajas sirve para el propósito de una configuración rápida. Vamos a utilizar “okay rhasspy” y dejaremos las sensibilidad en 0.6

Intents

Vamos a crear unas oraciones para entrenar el modelo que discernirá las intenciones del diálogo con los usuarios.

¡Ahora es el momento de la prueba definitiva!

“Okay Rhasspy, ¿Qué hora es?”

Escucharemos el beep del wakeword, el beep de final de captura y obtendremos esta información en log:

Rhasppy implementa Hermes, un sistema de mensajería de la plataforma Snips que a su vez utiliza el protocolo Mosquito (MQTT), un protocolo ideado para la comunicación entre dispositivos (M2M) en la Internet de las cosas (IOT), para notificar de un evento que haya detectado a partir de la intención de un usuario que interactúa con la plataforma.

En el Log vemos dos mensajes, HotwordDetected y NluIntent con los datos de la interacción, ahora estamos preparados para desarrollar una aplicación que responda a estos eventos de voz.

Este es el punto de partida para integrar la interacción de voz en un proyecto de hardware, desde la automatización y la interacción transaccional hasta la narrativa interactiva.

Puede ser la piedra angular de un juego de mesa operado por voz, el motor de comprensión de instrucciones verbales para navegar un catálogo o lo que seas capaz de imaginar.

Sin necesidad de conexión a internet y sin conflictos de privacidad.

En Mindgeist podemos ayudarte a pensar cómo integrar la voz en tu producto, en tu experiencia de usuario, en tu estrategia de marketing, en cómo contar una historia o en todo eso junto.

Otros Posts

Alexa, Feliz cumpleaños

Alexa, Feliz cumpleaños

¡Celebra el aniversario de Alexa en Español con nosotros! Desde 2018, hemos explorado el mercado hispanohablante, desarrollando decenas de skills. Descubre insights sobre el desarrollo de skills en España y México, y análisis de categorias y autores. ¡Accede al reporte y conoce más sobre el mundo de Alexa en Español!

más...
Las leyes del arquitecto frugal

Las leyes del arquitecto frugal

En un análisis de las leyes presentadas por Werner Vogels de AWS en el sitio 'The Frugal Architect', se desglosan conceptos clave sobre la integración del costo en la arquitectura de sistemas. Desde la consideración del costo como un requisito explícito hasta la promoción de una cultura de innovación constante, el análisis busca proporcionar una comprensión clara y equilibrada, dirigida tanto a profesionales del sector como a aquellos interesados en la tecnología. ¿Cómo pueden estas leyes, enfocadas en la eficiencia y la sostenibilidad económica, transformar la forma en que arquitectos y desarrolladores abordan sus proyectos?

más...
Búsqueda Semántica y Bases de Datos Vectoriales:

Búsqueda Semántica y Bases de Datos Vectoriales:

Exploramos cómo la búsqueda semántica y las bases de datos vectoriales están transformando la recuperación de información en la era digital, tecnologías que permiten una comprensión más profunda del contexto y la intención detrás de cada consulta, superando las limitaciones de las búsquedas basadas en palabras clave. Estas bases de datos mapean y recuperan información basándose en sus propiedades semánticas, facilitando una búsqueda más precisa y matizada. En Mindgeist, implementamos estas soluciones para transformar la gestión y búsqueda de conocimiento en algo más intuitivo y poderoso.

más...
David Mantecón

David Mantecón

David Mantecón, experto en diseño sonoro, suma más de 30 años creando paisajes sonoros y música electroacústica para cine, series y publicidad. Su estudio 'No Problem Sonido' combina creatividad con la última tecnología. Especialista en colocar el sonido al mismo nivel que la imagen, su obra puede apreciarse en más de 50 películas y variadas plataformas. Con la revolución 'voice first', David y su equipo exploran el poder del sonido en la experiencia de usuario, analizando su papel en la interacción y comunicación bidireccional.

más...
El establecimiento de las tecnologías de voz.

El establecimiento de las tecnologías de voz.

La evolución de la tecnología de voz nos lleva a una adopción masiva de asistentes y altavoces inteligentes. A pesar de avanzar desde los rudimentarios intentos de IBM en los 50s, los desafíos persisten. El lenguaje humano es ambiguo; para una verdadera comprensión, es vital superar el uso simple de palabras clave. Necesitamos sistemas que sean genuinamente conversacionales, combinando diversas disciplinas para trascender las limitaciones actuales.

más...
Estas son noticias que en mindgeist creemos que no puedes pasar por alto.

Estas son noticias que en mindgeist creemos que no puedes pasar por alto.

El 2020 arranca con el **Consumer Electronic Show**, vitrina de avances tecnológicos. La voz, antes un nicho, ahora redefine la experiencia del usuario. Google reporta 500M de usuarios para su asistente en el CES. Alexa fortalece su presencia en Hispanoamérica. KFC recrea digitalmente la voz de su fundador, el Coronel Sanders. A pesar de avances, el voice commerce aún no satisface todas las expectativas. La tecnología vocal se vuelve cada vez más integral en la vida diaria.

más...
Estas son noticias que en mindgeist creemos que no puedes pasar por alto.

Estas son noticias que en mindgeist creemos que no puedes pasar por alto.

Las tendencias **Voice First** de 2022 evidencian la integración de **Amazon Alexa** en **Jaguar Land Rover** y una modificación para una interacción más fluida con Alexa. James Cameron advierte sobre los peligros de los deepfakes. Un estudio de **IBM** subraya el auge de chatbots de IA. Se destaca la 'curva en J' en la adopción tecnológica. Se pasaron 4 horas diarias en móviles en 2020, mayormente en redes sociales. Por último, **Alexa Together** asiste remotamente a ancianos, facilitando su monitoreo y comunicación.

más...
Estudio de las Skills de Alexa en Español - Invierno 2020

Estudio de las Skills de Alexa en Español - Invierno 2020

Alexa ya opera en español en tres países, reflejando una madurez creciente en estos mercados. En respuesta a esta tendencia ascendente, Mindgeist ha lanzado una edición actualizada de su estudio sobre skills en español, incorporando datos del mercado estadounidense. El informe detalla estadísticas sobre publicaciones de skills, categorias, editores y evaluaciones de usuarios. Además, se han sumado perspectivas de expertos en comunicación para analizar estos datos. El objetivo es entender cómo estas tendencias influirán en la forma en que las empresas se conectan y comunican con su público.

más...
"Hola, este es el resultado de tu búsqueda."​

"Hola, este es el resultado de tu búsqueda."​

La abundancia de información en la web nos inunda, a menudo más allá de nuestra capacidad de procesarla. Esta saturación recuerda a un buffet inagotable. Sin embargo, con la aparición de la búsqueda por voz y la importancia de posicionar contenidos, la dinámica está cambiando hacia una selección más cuidada, similar al concepto japonés de 'omakase', donde se confía en el chef para recibir lo mejor. Los altavoces inteligentes buscan ofrecer una respuesta precisa y directa. En este nuevo paradigma, no luchamos por la atención, sino que debemos ganárnosla.

más...
En mindgeist creemos que no puedes perderte estas noticias.

En mindgeist creemos que no puedes perderte estas noticias.

En Mindgeist, nos dedicamos a curar meticulosamente las noticias más relevantes para nuestra comunidad. Con el constante flujo de información diaria, seleccionamos cuidadosamente aquellas piezas que consideramos valiosas y trascendentales para nuestros lectores. Cada artículo que compartimos refleja nuestro compromiso con la calidad y la relevancia. Nuestra misión es garantizar que te mantengas informado con contenido significativo y actualizado.

más...
El timeline de las interfaces de voz

El timeline de las interfaces de voz

La historia de los asistentes de voz se extiende desde los esfuerzos iniciales en síntesis de voz. nos adentramos en la Comprensión de Lenguaje Natural, pilar de la inteligencia artificial, debatiendo si el enfoque debe ser estadístico o basado en modelos conceptuales. El avance en el Reconocimiento del Habla ha llevado a una comprensión similar a la humana, haciendo las interacciones vocales más naturales. Los Asistentes, que simulan conversaciones o tienen funciones específicas, han visto oportunidades expansivas con mejoras en la síntesis y comprensión del habla. La narración, en constante evolución, promete ser clave del sector.

más...
Truco: como depurar con  Web API for Games

Truco: como depurar con Web API for Games

En el mundo del desarrollo, la depuración es la piedra angular para garantizar aplicaciones de alto rendimiento y sin fallos. Si bien las herramientas locales como la consola Javascript resultan esenciales durante las fases iniciales, cuando migramos aplicaciones a dispositivos como Alexa, nos enfrentamos a un desafío: ¿cómo depurar eficazmente en un entorno remoto? Aquí es donde intervienen los depuradores remotos como RemoteJS. Estos no sólo permiten monitorear eventos en tiempo real, sino que también facilitan la ejecución de código a distancia y la captura de pantallas. Sin embargo, es crucial recordar retirar cualquier herramienta de depuración antes de finalizar y enviar la aplicación.

más...
Utiliza la Web API for Games de Alexa

Utiliza la Web API for Games de Alexa

Amazon ha lanzado la 'Web API for Games de Alexa', que permite a los desarrolladores fusionar la potencia de las aplicaciones web con las skills de Alexa para crear juegos interactivos. Esta API abre la puerta para integrar tecnologías como WebGL, WebAudio, CSS y Javascript en el ecosistema de Alexa. En un ejemplo práctico, se crea un juego que presenta formas geométricas en pantalla y el jugador debe seleccionar la forma roja. La estructura de estos juegos se divide en dos: la skill de Alexa, que gestiona los comandos de voz y la lógica, y la aplicación web, que visualiza y gestiona la interacción táctil. Sigue este tutorial paso a paso para descubrir el potencial de la nueva Web API de Amazon Alexa.

más...
Sonidos Ambientales

Sonidos Ambientales

Los altavoces inteligentes han emergido como centros neurálgicos en el hogar, ofreciendo la posibilidad de diseñar paisajes sonoros personalizados. Junto con aplicaciones de domótica, estos dispositivos convierten cada rincón de nuestro hogar. Ya sea el crepitar de una chimenea en una fría tarde de invierno, o el murmullo de un bosque en un relajante mediodía, los sonidos ambientales nos transportan, convirtiendo espacios comunes en escenarios vivos y sensoriales. Es una invitación a experimentar con el sonido, y a reconceptualizar nuestro espacio cotidiano.

más...
Contenidos Dinámicos

Contenidos Dinámicos

En el vasto universo digital, plataformas como Wikipedia se han convertido en auténticos pilares de información, abarcando desde noticias actuales hasta efemérides que marcan la historia. Sin embargo, aprovechar estos datos en dispositivos de voz no es una tarea sencilla. Las skills 'Noticias y Efemérides' se han diseñado para afrontar este reto. Mediante procesos dinámicos, transforman y adaptan el contenido de estas fuentes a una estructura apta para la interacción por voz, garantizando así una experiencia informativa fluida y enriquecedora para el usuario.

más...
La banda de sonido de tus juegos

La banda de sonido de tus juegos

Los más pequeños han mostrado una sorprendente capacidad para integrar los dispositivos de voz en sus juegos, fusionando la tecnología con la imaginación de formas innovadoras. Observando esta tendencia, hemos diseñado un conjunto de skills especialmente pensadas para ellos: una colección de sonidos que busca enriquecer su experiencia lúdica. Efectos sonoros que están destinados a dar vida a sus aventuras y fomentar su creatividad sin límites.

más...
Entrenador Santander

Entrenador Santander

Entrena en casa con la skill de Alexa, dirigida por Martín. Descubre decenas de ejercicios detallados y rutinas adaptadas para todos los niveles: desde principiantes hasta intermedios. Selecciona programas diseñados para objetivos específicos o ejercita grupos musculares concretos con guías claras sobre cómo y por qué realizar cada movimiento. Además, incorpora sesiones de estiramiento y relajación, para finalizar tus rutinas con vitalidad. Esta skill, parte de nuestra serie freemium, es perfecta para aquellos que buscan contenidos audiovisuales de calidad para entrenar con el apoyo de un smart speaker.

más...
Mi entrenador personal

Mi entrenador personal

Entrena en casa con la skill de Alexa, dirigida por Martín. Descubre decenas de ejercicios detallados y rutinas adaptadas para todos los niveles: desde principiantes hasta intermedios. Selecciona programas diseñados para objetivos específicos o ejercita grupos musculares concretos con guías claras sobre cómo y por qué realizar cada movimiento. Además, incorpora sesiones de estiramiento y relajación, para finalizar tus rutinas con vitalidad. Esta skill, parte de nuestra serie freemium, es perfecta para aquellos que buscan contenidos audiovisuales de calidad para entrenar con el apoyo de un smart speaker.

más...
Pulsos Binaurales

Pulsos Binaurales

Los pulsos binaurales, ondas sinusoidales que influyen en la actividad cerebral, han sido estudiados por su capacidad de dirigir las ondas cerebrales hacia estados específicos. Nuestras cuatro skills aprovechan este fenómeno para brindarte experiencias dirigidas: 'Relax' te invita a un descanso profundo, 'Placer' aplaca zonas de miedo para potenciar el disfrute, 'Concentración' favorece la activación neuronal y, finalmente, 'Sueño Profundo' facilita un reposo regenerador. Experimenta y sintoniza con estas frecuencias para alcanzar el estado mental deseado.

más...
Yoga Dinámico

Yoga Dinámico

Practica Yoga Dinámico con Alexa bajo la experta guía de Mercedes Abaitua. Desde secuencias como el saludo al sol hasta el saludo a la luna, experimenta una rutina completa y variada. Disponible de forma gratuita semanalmente o mediante la compra de pases de uso. Esta skill, parte de nuestra serie freemium, está optimizada para dispositivos con pantalla, incluyendo Echo Show, FireTV con Alexa, el innovador Echo Spot y otros dispositivos Alexa. ¡Enriquece tu práctica de yoga con interacción visual!

más...