¿Qué es la Data Oscura y cómo gestionarla correctamente?

octubre 29, 2020
La Internet, madre de todos los avances actuales, es responsable directa de todos los procesos tecnológicos que vivimos en nuestra realidad. Hoy en día las grandes empresas pueden mantener su información estructurada, con base de datos muy bien indexadas y organizadas, así como los datos internos que resguardan con mucho celo. Al igual que los datos internos, las empresas tienen que lidiar con los datos externos que provienen de diferentes orígenes procedentes de Internet tales como las redes sociales, noticias, propaganda, y open data; los cuales reciben en formatos poco estructurados como HTML, imágenes, PDF, vídeos, etc. La cantidad de data de este tipo que manejan las compañías es casi un 80% del total general. A estos datos poco estructurados se les conoce como Dark Data (Data Oscura), y el poder analizar todo esta cantidad de información es sumamente complicado.
Existen retos que se necesitan superar, a parte de los éticos que tienen que ver con la privacidad. Se debe poder controlar el paradero de esta data y la utilización que se haga de toda la información. Además, se debe tener la capacidad técnica para gestionar un nuevo tipo de activos (datos) con alto volumen, velocidad y variedad, que demandan soluciones radicalmente innovadoras para su análisis, el reconocimiento de patrones y la interpretación de resultados. No todo se basa en procesar la información, también se deben reconocer patrones y saber interpretarlos.
Rastros de nuestra actividad informática
La Data Oscura es almacenada en sus sistemas por muchas empresas a diario, se trata de archivos virtuales mal estructurados, que son producto de tareas repetitivas de los empleados o bien de los clientes y socios. El contenido de toda esta información puede ser difícil de analizar, mucha de ella, no está categorizada ni ordenada. Y es de poco valor para la compañía ya que no cuentan con la importancia en su actividad económica, o quizás en los espacios donde se encuentran almacenados.
En todos estos espacios de almacenamiento, se encuentran datos de este tipo:
- Archivos de registro.
- Información de antiguos empleados.
- Encuestas realizadas.
- Notas de voz, imágenes y videos.
- Estados financieros tanto de los empleados como de la empresa.
- Emails no deseados o simples restos de emails, cuentas digitales.
- Historiales de actividad por cada empleado.
Otro caso sería la mala interpretación de la data, esto podría fomentar la acumulación de data oscura en los sistemas. Todo esto acarrea la pérdida de estadísticas tan valoradas por las organizaciones o información clave para la resolución de problemas informáticos.
El lugar de la Data Oscura esta con los sistemas. El eliminar cualquier información residual puede implicar apertura de nuevas vulnerabilidades, problemas legales y riesgos de incumplimiento.
¿Cómo sacar partido a la Data Oscura?
El principal inconveniente que tiene la data oscura es la inaccesibilidad de los datos, así como la dificultad para registrarlos y procesarlos. La identificación de oportunidades, es el objetivo de cualquier empresa y la data oscura puede proporcionar mucha información valiosa para esta, con la finalidad de obtener nuevo conocimiento y tener una ventaja competitiva.
Extracción de datos con software avanzados de diversas fuentes como las redes sociales, los sensores, open data, etc., y, a través de de estos sistemas, tomar la información que deseamos y cruzar los datos para mejorar así la información obtenida.
Para un mejor manejo de los datos y análisis de los datos, se debe implementar una limpieza de toda esa información, separándola por campos y luego unificarla. A esto se le llama, homogenización de los datos, a través de lo cual obtendrás una estandarización o clasificación de la información extraída completamente organizada.
Se busca enriquecer los datos insertando bien sea nuevos datos o datos internos ya existentes a los datos extraídos de la Data Oscura, para así poder armar y darle sentido a toda esa información. Por ejemplo, incluir información geográfica, datos de clientes, líneas de ventas, estrategias de mercado, etc.
¿Qué problemas encontramos en la Data Oscura?
No es tan simple manejar toda esta información, puede ser un dolor de cabeza el solo imaginar la cantidad de espacio que se requiere. El problema de estos datos oscuros, no es que sean algo que guardemos inútilmente, sino que pueden traer otras clases de problemas.
El tener que destinar más presupuesto que no estaba planificado para resguardar toda esta información, y en función de cómo y dónde la guardamos puede afectar muchas cosas. Los equipos necesitaran más potencia para mantener el rendimiento de los procesadores y dispositivos informáticos.
La información que genera la data oscura podría no parecer útil, pero mucha de ella contiene información de carácter personal que debe ser controlada. Además, se debe aplicar protección a estos archivos por la sensibilidad de los mismos, y cumplir políticas de seguridad más complejas y costosas, ya que debemos protegerla. En vista de que muchos de los ataques cibernéticos se centran es esta data, por aquello de su supuesta falta de valor, podría dañar la reputación de la empresa y sería más perjudicada si el alcance del ataque tiene que ver con datos de información personal.
Este tipo de información exige dedicarle tiempo, casi todos los datos tienen una fecha de caducidad, y el mantener a un personal dedicado al mantenimiento y resguardo de esta información acarrea más gastos. Los datos que no se utilizan de manera oportuna se volverán rápidamente inútiles y una carga a la final.
Casos de uso de la Data Oscura
Todo tipo de datos tienen un valor significativo y posibles aplicaciones para crear soluciones innovadoras. Una vez que son procesados, los datos pueden ser utilizados para generar algoritmos y aplicarlos a la Inteligencia Artificial en campos muy diversos.
Para este tipo de casos están los profesionales llamados los Científicos de la Data, que se encargan de darle sentido a todos estos datos, tratándolos y analizándolos. Muchas veces se busca la pericia de ciertas áreas para complementar y darle un sentido más cognitivo según la rama y la tendencia que tenga la información. Profesionales en las áreas de psicología o lingüística, quizás expertos en marketing digital por ejemplo, para buscar fuentes, armar y reorganizar toda esta información para lo que sea necesario.
- Data Oscura en RR.HH.: la interacción de los empleados de una organización genera muchísima data que a simple vista podría no ser importante. Pero si se observa muy de cerca se podrían identificar trazas de conocimientos o relaciones dentro de una organización, todos los correos, memorándums, chats, son tomados en cuenta.
- Data Oscura en Salud: la mayoría de las historias clínicas no están digitalizadas, pero casi todas las alertas están allí y se basan en sus textos.
- Data Oscura en Marketing: todos los trazos de ventas y estrategias utilizadas en el pasado, podrían traer beneficios entrelazándolas con las realidades actuales.
En definitiva la Data Oscura es útil si sabes cómo utilizarla y sacarle provecho.