TECNOLOGÍA, INTERNET, JUEGOS

El asistente de Google: cómo funciona

El asistente de Google: cómo funciona

By Bitor Camar

Todos hemos vivido el momento en el que se introdujeron al mercado (y a nuestras casas) los asistentes. En este caso, vamos a hablar del asistente de Google. Éste está en muchas casas hoy en día, y es una herramienta más. Puede que alguna vez se haya preguntado: ¿Cómo funcionan los asistentes activados por voz?, ¿cómo entienden lo que alguien pregunta y luego dan una respuesta correcta y útil?

El asistente de Google es capaz de responder a múltiples tipos de consultas distintas. El equipo que trabaja en el asistente está pensando constantemente en cómo hacer que las respuestas sean mejores, más rápidas y más útiles. En este artículo le mostramos qué fue lo que dijo la distinguida científica Françoise Beaufays, ingeniera e investigadora del equipo de voz de Google.

¿Cuál es el trabajo de Françoise en Google?

Dirige el equipo de reconocimiento de voz en Google. Su trabajo consiste en crear sistemas de reconocimiento de voz para todos los productos de Google que funcionan con voz. El trabajo que hace su equipo permite que el asistente escuche a sus usuarios, intente comprender lo que quieren y luego actúe. También permite escribir subtítulos en vídeos de YouTube y en Meet mientras la gente habla y permite a los usuarios dictar mensajes de texto a sus amigos y familiares. La tecnología de reconocimiento de voz está detrás de todas esas experiencias.

La importancia del reconocimiento de voz en el asistente

El asistente  se basa en comprender lo que alguien le dice y luego tomar medidas basadas en esa comprensión. Es tan crítico que la interacción es muy fluida. Si le hablas a una máquina y no estás seguro de que pueda entenderte rápidamente, la magia del proceso y su utilidad desaparecen.

¿Cómo entiende lo que digo?

Todo en el reconocimiento de voz es aprendizaje automático. El aprendizaje automático es un tipo de tecnología en el que se utiliza un algoritmo para ayudar a un «modelo» a aprender de los datos. La forma en la que se construye un sistema de reconocimiento de voz no es escribiendo reglas como: si alguien está hablando y hace un sonido «k» que dura de 10 a 30 milisegundos y luego un sonido «a» que dura de 50 a 80 milisegundos, tal vez la persona está a punto de decir «gato». El aprendizaje automático es más inteligente que eso.

En lugar de eso, presentaríamos un montón de fragmentos de audio al modelo y le diríamos al modelo, aquí, alguien dijo: «Este gato está feliz». Aquí, alguien dijo: “Ese perro está cansado”. Progresivamente, el modelo aprenderá la diferencia. Y también comprenderá variaciones de los fragmentos originales, como «Este gato está cansado» o «Este perro no está feliz», sin importar quién lo diga. Los modelos que se usan hoy en día para el asistente están basados en redes neuronales profundas.

¿Qué es una red neuronal profunda?

Las redes neuronales profundas son una especie de modelo inspirado en cómo funciona el cerebro humano. Los cerebros usan neuronas para compartir información y luego hacer que el resto de su cuerpo actúe. En las redes neuronales artificiales, las «neuronas» son lo que llamamos unidades computacionales, o bits de código que se comunican entre sí. Estas unidades computacionales se agrupan en capas. Estas capas se pueden apilar una encima de la otra para crear posibilidades más complejas de comprensión y acción. Terminas con estas «redes neuronales» que pueden crecer e involucrarse, por lo tanto, redes neuronales profundas.

Para el asistente, una red neuronal profunda puede recibir una entrada, como el audio de alguien que habla, y procesar esa información en una pila de capas para convertirla en texto. Esto es lo que llamamos “reconocimiento de voz”. Luego, el texto es procesado por otra pila de capas para analizarlo en piezas de información que ayudan al asistente a comprender lo que necesita y lo ayudan a mostrar un resultado o tomar una acción en su nombre. Esto es lo que se llama “procesamiento del lenguaje natural”.

¿Cómo entendería el asistente lo que digo y cómo respondería a mi consulta?

El primer paso es que el asistente procesa el “Ok Google” y le sirve de aviso, como si entendiese “ahora me van a preguntar o decir algo”. Después, el asistente recoge el resto del audio, procesa la pregunta y extrae el texto. Mientras lo hace, trata de entender de qué se trata su oración y qué tipo de interacción es. Para determinar esto, el asistente analizará el texto de la pregunta con otra red neuronal que intenta identificar la semántica, es decir, el significado de la pregunta.

Puede ser que le haya hecho una pregunta como: ¿cuál es el parque más cercano?. En ese caso, el asistente se dará cuenta de que es una pregunta que debe buscar, no le estamos pidiendo encender las luces ni nada por el estilo. Y dado que esta es una pregunta basada en la ubicación, si su configuración lo permite, el asistente puede enviar los datos geográficos de su dispositivo a Google Maps para devolver los resultados de qué parque está más cerca de usted.

¿Entiende el asistente diferentes idiomas? ¿Incluso mezclados?

Puede darse el caso de que un usuario hable dos idiomas distintos con frecuencia, o que, en una pareja, alguien hable inglés y otro francés. Este caso es más complicado para el asistente. La forma más sencilla de abordar un caso en el que la persona habla dos idiomas es que el Asistente escuche un poco de lo que dice e intente reconocer en qué idioma está hablando. El asistente de Google puede hacer esto usando diferentes modelos, cada uno dedicado a comprender un idioma específico.