TECNOLOGÍA, INTERNET, JUEGOS

DatologyAI está desarrollando tecnología para seleccionar conjuntos de datos de entrenamiento de IA

DatologyAI está desarrollando tecnología para seleccionar conjuntos de datos de entrenamiento de IA

By Bitor Camar

DatologyAI

DatologyAI es una empresa líder en inteligencia artificial que se especializa en el desarrollo de soluciones innovadoras para el análisis y la interpretación de datos. Su última novedad más importante es el lanzamiento de una plataforma de análisis de datos avanzada que integra capacidades de aprendizaje automático y análisis predictivo para proporcionar insights más precisos y útiles a sus clientes. Además, han implementado mejoras significativas en la escalabilidad y la facilidad de uso de su plataforma, lo que permite a los usuarios aprovechar al máximo sus datos de manera eficiente y efectiva. Ahora, la compañía nos ofrece su tecnología para seleccionar conjuntos de datos de forma automática.

Tecnología para seleccionar conjuntos de datos automáticamente

Los grandes conjuntos de datos son esenciales para alimentar modelos de IA poderosos, pero también pueden ser su perdición. Los sesgos pueden surgir de patrones prejuiciosos en estos conjuntos, como la predominancia de imágenes de directores ejecutivos blancos. Además, estos conjuntos pueden ser desordenados y ruidosos, con formatos que dificultan su comprensión para los modelos.

Según una encuesta de Deloitte, el 40% de las empresas que adoptan IA citan los desafíos relacionados con los datos, como la preparación y limpieza exhaustiva, como una de sus principales preocupaciones. Otra encuesta a científicos de datos reveló que aproximadamente el 45% de su tiempo se dedica a tareas de preparación de datos, como cargar y limpiar datos. Ari Morcos, que ha trabajado en la industria de la IA durante casi una década, quiere abstraer muchos de los procesos de preparación de datos en torno al entrenamiento de modelos de IA, y ha fundado una startup para hacer precisamente eso.

Nueva herramienta

La compañía de Morcos, DatologyAI, desarrolla herramientas que automatizan la curación de conjuntos de datos utilizados para entrenar modelos como ChatGPT de OpenAI, Gemini de Google y otros de GenAI. La plataforma puede determinar qué datos son más relevantes según la aplicación del modelo, como escribir correos electrónicos. Además, puede sugerir formas de enriquecer el conjunto de datos con información adicional y cómo estructurarlo durante el entrenamiento del modelo, ya sea agrupándolo o dividiéndolo en segmentos más manejables.

«Los modelos son lo que comen, los modelos son un reflejo de los datos con los que se entrenan», dijo Morcos a TechCrunch en una entrevista por correo electrónico. «Sin embargo, no todos los datos son iguales, y algunos datos de entrenamiento son mucho más útiles que otros. Entrenar modelos con los datos correctos de la manera correcta puede tener un impacto dramático en el modelo resultante».

Morcos, con un doctorado en neurociencia de Harvard, dedicó dos años en DeepMind a aplicar técnicas inspiradas en la neurología para mejorar los modelos de IA. Posteriormente, pasó cinco años en el laboratorio de IA de Meta, donde exploró los mecanismos fundamentales detrás de las funciones de los modelos. Junto a sus cofundadores Matthew Leavitt y Bogdan Gaza, lanzó DatologyAI con el objetivo de optimizar la curación de conjuntos de datos para IA.

Influencia en las características de un modelo

Morcos destaca que la composición de un conjunto de datos de entrenamiento influye en todas las características de un modelo entrenado, desde su rendimiento hasta su tamaño y conocimiento del dominio. Conjuntos de datos eficientes pueden acortar el tiempo de entrenamiento y reducir el tamaño del modelo, ahorrando en costos computacionales.

Además, conjuntos de datos diversos pueden manejar mejor solicitudes variadas. Con el interés creciente en GenAI, cuyos costos son considerables, los ejecutivos están preocupados por los costos de implementación de IA. Muchas empresas optan por ajustar modelos existentes o usar servicios administrados a través de API. Sin embargo, algunas crean modelos personalizados desde cero, gastando significativamente en computación para entrenar y ejecutarlos debido a razones de gobernanza o cumplimiento.

«Las empresas han recopilado tesoros de datos y quieren entrenar modelos de IA eficientes, de alto rendimiento y especializados que puedan maximizar el beneficio para su negocio», dijo Morcos. «Sin embargo, hacer un uso efectivo de estos conjuntos de datos masivos es increíblemente desafiante y, si se hace incorrectamente, conduce a modelos de peor rendimiento que tardan más en entrenarse y [son más grandes] de lo necesario».

Aumentar hasta petabytes

DatologyAI tiene la capacidad de escalar hasta «petabytes» de datos en diversos formatos, como texto, imágenes, video, audio, tablas, y hasta modalidades más especializadas como genómica y geoespacial. Se puede implementar en la infraestructura del cliente, ya sea en sus instalaciones o a través de una nube privada virtual. Esto lo distingue de otras herramientas de preparación y curación de datos, como CleanLab, Lilac, Labelbox, YData y Galileo, que suelen tener un alcance más limitado en términos de tipos de datos que pueden procesar.

Además, DatologyAI puede identificar los «conceptos» más complejos dentro de un conjunto de datos, como los relacionados con la historia de EE. UU. en un conjunto de entrenamiento para un chatbot educativo. Esto permite determinar qué muestras requieren una mayor calidad y qué datos podrían llevar a un comportamiento no deseado por parte del modelo.

«Resolver [estos problemas] requiere identificar automáticamente los conceptos, su complejidad y cuánta redundancia es realmente necesaria», dijo Morcos. «El aumento de datos, a menudo utilizando otros modelos o datos sintéticos, es increíblemente poderoso, pero debe hacerse de manera cuidadosa y específica». La pregunta es, ¿qué tan efectiva es la tecnología de DatologyAI? Hay razones para ser escépticos. La historia ha demostrado que la curación automatizada de datos no siempre funciona según lo previsto, por muy sofisticado que sea el método o por muy diversos que sean los datos.

LAION

LAION, una organización sin fines de lucro con sede en Alemania que lidera proyectos de GenAI, se vio obligada a retirar un conjunto de datos de entrenamiento de IA que había sido curado algorítmicamente, luego de descubrir que incluía imágenes de abuso sexual infantil. Por otro lado, modelos como ChatGPT han demostrado generar contenido tóxico incluso cuando se filtran automáticamente por toxicidad. Algunos expertos argumentan que la curación manual sigue siendo indispensable para obtener resultados sólidos con IA.

Grandes proveedores como AWS, Google y OpenAI confían en equipos de expertos humanos para dar forma y refinar conjuntos de datos de entrenamiento. Morcos, de DatologyAI, sostiene que sus herramientas no pretenden reemplazar por completo la curación manual, sino ofrecer sugerencias que podrían pasar desapercibidas para los científicos de datos, especialmente relacionadas con la reducción del tamaño de los conjuntos de datos. Este enfoque se basa en un artículo académico que Morcos coescribió en 2022, que ganó el premio al mejor artículo en la conferencia de aprendizaje automático NeurIPS. Según Morcos, identificar los datos adecuados a gran escala es un desafío extremadamente complejo y una frontera de investigación crucial. Su enfoque busca acelerar el entrenamiento de modelos y mejorar su rendimiento en tareas posteriores.

Una tecnología prometedora

La tecnología desarrollada por DatologyAI ha captado la atención de importantes figuras del mundo de la tecnología e IA, quienes invirtieron en la ronda inicial de la startup. Entre ellos se encuentran destacados nombres como Jeff Dean, científico jefe de Google, Yann LeCun, científico jefe de IA de Meta, Adam D’Angelo, fundador de Quora y miembro de la junta directiva de OpenAI, y Geoffrey Hinton, reconocido por sus contribuciones fundamentales en el campo de la IA moderna.

Además de estos nombres, otros inversores iniciales en la financiación de 11,65 millones de dólares de DatologyAI incluyen a Aidan Gomez e Ivan Zhang, cofundadores de Cohere, Douwe Kiela, fundador de Contextual AI, Naveen Rao, ex vicepresidente de IA de Intel, y Jascha Sohl-Dickstein, uno de los creadores de modelos de difusión generativa. Esta impresionante lista de luminarias de la IA respalda las afirmaciones de Morcos y subraya el potencial de la tecnología de DatologyAI.

«Los modelos son tan buenos como los datos con los que se entrenan, pero identificar los datos de entrenamiento correctos entre miles de millones o billones de ejemplos es un problema increíblemente desafiante», dijo LeCun a TechCrunch en un comunicado enviado por correo electrónico. «Ari y su equipo en DatologyAI son algunos de los expertos mundiales en este problema, y creo que el producto que están construyendo para hacer que la curación de datos de alta calidad esté disponible para cualquiera que quiera entrenar un modelo es de vital importancia para ayudar a que la IA funcione para todos».