¿Cómo hace Lens para convertir las imágenes en textos?

loiscarlosg

hace 2 años

black and white smartphone displaying google search

Muchas veces abrimos la cámara de nuestro celular y encontramos una serie de funciones que de inmediato no conocemos y pueden ser de muchísima ayuda para resolver algunos inconvenientes que se nos va presentando en nuestra cotidianidad, por ejemplo, cuando nos hablan de LENS, algunas personas no tenemos ni idea de lo que esto significa o cual es la función que cumple en nuestro dispositivo.

En este artículo te mostraremos lo que sabemos sobre esta función y la mejor manera que tenemos para sacarle provecho.

¿Qué es Lens?

Google Lens es una aplicación que permite el reconocimiento de la imagen, fue desarrollada por Google y se anunció por primera vez en el 2017, su diseño fue realizado para mostrar información importante a través del análisis Visual.

Su uso se realiza a partir de la cámara principal del dispositivo hacia un objeto, lo que hace la aplicación, es tratar de identificar el objeto o leer las etiquetas con texto y a partir de esto poder mostrar los mejores resultados con la información relevante acerca de estos temas.

En el 2022 se anunció que Google Lens realizará algunas mejoras a partir de la implementación de una inteligencia artificial que permitirá comprender hasta la letra más incomprensible.

Por ejemplo, si queremos o necesitamos tomar notas de un libro electrónico, podríamos tomar notas de audio o escribir algunos apuntes en un cuaderno o simplemente usar Lens para seleccionar la sección del libro y copiarla y pegarla en algún documento, pero ¿Cómo es posible realizar esta gestión desde el dispositivo móvil? ¿Cómo hace una cámara para reconocer estas letras, en las diferentes fuentes e idiomas?

Entrevista con una Googlers

Ana Manasovska, ingeniera de Software de Google en la Sede de Zúrich y quien es una de las Googlers de la primera línea para realizar la conversión de imagen a texto nos habla del tema:

Ana, ¿Qué haces en Lens?

Estoy involucrada con el aspecto del texto, así que me aseguro de que la aplicación pueda discernir el texto y copiarlo para una búsqueda o traducirlo, sin necesidad de escribir.

Por ejemplo, si apunta la cámara de su teléfono a un cartel en un idioma extranjero, la aplicación puede traducir el texto en él. Además, para las personas ciegas o con baja visión, puede leer el texto en voz alta, es bastante impresionante.

Entonces, parte de lo que hace mi equipo es hacer que Lens reconozca no solo el texto, sino también la estructura del texto. Los humanos entendemos automáticamente la escritura que está separada en oraciones y párrafos, o bloques y columnas, y sabemos lo que va junto. Sin embargo, es muy difícil para una máquina distinguir eso.

A esto, ¿Se le puede llamar aprendizaje automático?

Sí. En otras palabras, utiliza sistemas (los llamamos modelos) que hemos entrenado para discernir los caracteres y la estructura de las imágenes. Un sistema informático tradicional tendría solo una capacidad limitada para hacer esto. Pero nuestro modelo de aprendizaje automático se ha creado para «aprender por sí mismo» en enormes conjuntos de datos y está aprendiendo a distinguir estructuras de texto de la misma manera que lo haría un ser humano.

¿Funciona para varios idiomas?

Sí, puede reconocer 30 alfabetos, incluidos cirílico, devanagari, chino y árabe. Es más preciso en los idiomas con alfabeto latino en este momento, pero incluso allí, los diferentes tipos de fuentes presentan desafíos. El japonés y el chino son complicados porque tienen muchos matices en los caracteres. Lo que parece una pequeña variación para el ojo inexperto puede cambiar completamente el significado.

Si se una la codificación real ¿Cómo Sería?

Principalmente utilizo un lenguaje de programación llamado C++, que le permite ejecutar los pasos de procesamiento necesarios para pasar de una imagen a una representación de palabras y estructura.