En este artículo, exploraremos el origen y los estándares de esta revolución tecnológica en un mundo saturado de datos. La analogía humorística de Dan Ariely resalta la tendencia de usar términos de moda sin entender su verdadero significado, una práctica común en el mercado tecnológico. Mientras tanto, la explosión digital acelerada por la pandemia ha generado una cantidad masiva de información, pero Big Data va más allá de la simple acumulación de datos, se trata de cómo se emplea la información. Esta necesidad ha impulsado un mercado tecnológico en crecimiento que supera los 162.000 millones de dólares, evidenciando una revolución en desarrollo que requiere una comprensión clara de sus fundamentos.
¿Qué es Big Data y para qué sirve?
Para la firma analista Gartner, Big Data trata de activos de información de gran volumen, velocidad y variedad, que exigen formas rentables e innovadoras de procesamiento para mejorar la comprensión, la toma de decisiones y la automatización de procesos.
O si queremos una versión más sencilla, podemos decir que Big Data es un término que describe el gran volumen de datos –estructurados, semiestructurados y no estructurados– que inundan una empresa todos los días.
Pero lo realmente importante, no es la cantidad de datos que se captan, sino cómo se usan. Big Data no busca acumular datos ni procesarlos; el fin último es generar insights, información relevante que ayude a la mejor toma de decisiones.
El Big Data sirve para recopilar, procesar y analizar grandes cantidades de datos con el objetivo de obtener información valiosa. Facilita la identificación de patrones, tendencias y relaciones que, a su vez, respaldan la toma de decisiones informadas. Además, permite optimizar procesos, mejorar la eficiencia operativa y potenciar el rendimiento empresarial al proporcionar insights significativos basados en datos. En resumen, el Big Data se utiliza para aprovechar el potencial de la información y obtener ventajas estratégicas en diversos ámbitos.
Historia y evolución del Big Data
La popularización del término “Big Data” no se atribuye a un único individuo, sino que surgió como una respuesta a la creciente cantidad de información generada en la era de Internet. En los años 90, con el nacimiento de Internet y el advenimiento de la Web 2.0, el contenido en línea dejó de ser exclusivo de grandes empresas, permitiendo la participación masiva de usuarios en redes sociales y otros medios digitales. Este fenómeno se vio potenciado por el surgimiento de smartphones y mejoras en redes móviles, lo que resultó en un explosivo aumento en la generación de datos. Para 2023, la cantidad de información generada a nivel mundial superó los 120 zettabytes, con un notable 90 % generado en los últimos 2 años, según informes de medios en 2018.
Esta avalancha de datos planteó desafíos y oportunidades para las empresas. Por un lado, se enfrentaron al dilema de cómo gestionar y procesar tanta información, mientras que, por otro lado, reconocieron en estos datos una invaluable fuente para la toma de decisiones y la evolución hacia un modelo empresarial impulsado por datos.
Gráfico: Statista.
Las 3 y las 5 V de Big Data
Aunque originalmente, en 2001, el analista de Gartner Doug Laney determinó 3 grandes V que definen al Big Data, que son Variedad, Volumen y Velocidad, esta definición se ha ido ampliando con los años, y ahora se habla de las 5 V, que incluyen Veracidad y Valor.
Gráfico: Edureka.
De esta forma, para que unos datos sean considerados Big Data, se requiere que tengan:
- Volumen: Es tal vez la característica más esperada de Big Data, y es el tamaño cada vez más grande de los datos que entran en cualquier organización. Una variable que crece gracias al potencial de las nuevas redes móviles y de la nueva generación de dispositivos que la conforma (Smartphones, cámaras de seguridad, IoT, etc.).
- Variedad: No todos los datos son iguales. El vídeo, las fotos, la ubicación geoespacial, la cantidad de compras de una empresa, todos ellos suelen tener sus propios formatos: jpg, .xls, mp4, etc. Los datos suelen variar según el nicho de mercado y por ello, Big Data suele estar compuesto por innumerables fuentes de información.
- Velocidad: Los datos deben estar presentes cuando se les necesita. En algún momento, las cartas y los telegramas fueron los medios de comunicación más rápidos de su tiempo, pero esto cambió con la tecnología. Ahora los datos se necesitan en tiempo real: piense en una emergencia, un desastre natural, la caída en el precio de las acciones, etc. No solo se deben capturar rápido, también procesar con la misma urgencia.
- Veracidad: Añadida posteriormente, la veracidad incluye una variable fundamental y es la calidad de los datos: ¿qué tan útil es un dato si es inexacto?, ¿su fuente es de confianza?, ¿se presentan anomalías?, ¿inconsistencias?, ¿es un dato duplicado? La respuesta a estos interrogantes determina el valor real que pueda tener la información.
- Valor: La última variable para muchos es la más importante y es el valor que se pueda generar con base en los datos. Todas las empresas pueden llegar a tener la misma información y herramientas tecnológicas para trabajarla, pero el valor, el impacto en el negocio que cada una pueda sacar de ellas, eso es diferente.
Fuentes de Big Data, tipos de datos
Para entender cómo funciona Big Data, debemos entender que no todos los datos son iguales, así como tampoco lo son su procedencia. Por ello, en Big Data hablamos de datos estructurados, datos semiestructurados y datos no estructurados.
Los datos estructurados son aquellos que ya han sido organizados en un repositorio. Suelen clasificarse como datos cuantitativos y son los típicos que vemos en hojas de cálculo, formularios web, encuestas digitales, hojas de Excel con direcciones, formularios, etc.
Precisamente por su orden, los datos estructurados son los más fáciles de usar y se gestionan usando el lenguaje de programación Structured Query Language (SQL) y bases de datos relacionales.
Entre 80 % y 90 % de los datos existentes en el planeta son datos no estructurados. Su abundancia se explica cuando consideramos su naturaleza, porque pueden ser cualquier cosa, desde una imagen en una red social, hasta mensajes de audio, información de un sensor IoT en un cultivo, un vídeo en una red social, etc.
La data no estructurada suele ser más cualitativa y, por su variedad, puede almacenarse dentro de una base de datos no relacional o NoSQL.
Por su parte, los datos semiestructurados están en la mitad, usando elementos de ambos mundos. Una foto, por ejemplo, es información no estructurada, pero si es tomada desde un teléfono, puede estar relacionada directamente con valores numéricos como fecha y direcciones.
En resumen podemos declarar:
Fuentes de Big Data
- Redes Sociales: Datos generados por usuarios en plataformas como Facebook, Twitter y LinkedIn.
- Sensores y Dispositivos IoT: Información recopilada de dispositivos conectados, como sensores de temperatura, cámaras de vigilancia, y wearables.
- Registros de Servidores: Datos de registros de servidores web que registran la actividad en línea.
- Datos de Transacciones: Información sobre transacciones financieras, compras en línea y registros comerciales.
- Datos Geoespaciales: Información basada en ubicación, como mapas y coordenadas geográficas.
- Datos de Medios: Contenido multimedia, como imágenes y videos.
Tipos de datos
- Datos Estructurados: Información organizada en tablas con un formato definido, como bases de datos relacionales.
- Datos No Estructurados: Información sin un formato predefinido, como texto libre, imágenes y archivos multimedia.
- Datos Semiestructurados: Información que no se ajusta completamente a un formato específico, pero que tiene algún grado de organización, como documentos XML y JSON.
Estas diversas fuentes y tipos de datos contribuyen a la complejidad y riqueza del Big Data, ofreciendo oportunidades para extraer insights valiosos y tomar decisiones fundamentadas.
¿Cómo funciona Big Data?
Ahora que conocimos los diferentes tipos de datos, la materia prima de Big Data, podemos saber qué pasa con ellos. Se trata de varios pasos que van desde la captura de la información hasta la toma de decisiones. Un proceso que, en más detalle, se divide en:
- Recolección de los datos: según los objetivos establecidos, se comienza a buscar información relevante que pueda aportar a esta meta. Esta información puede venir de diferentes fuentes y ser de diferentes tipos.
- Preprocesamiento de los datos: no todos los datos son útiles, por lo que se comienza con un primer filtrado de la información para asegurarnos de su calidad. Es en esta etapa cuando hablamos de integración, limpieza, reducción y transformación de los datos.
- Almacenamiento de los datos: todos estos datos seleccionados deben separarse del resto y guardarse en diferentes bases de datos, nodos y dispositivos para ser tratados, ya sea desde servicios en la nube o en equipós in-house.
Gráfico: Researchgate.
- Procesamiento de los datos: en este paso, debemos aplicar diferentes programas de minería de datos para detectar patrones y anomalías dentro de la información.
- Visualización de los datos: no importa qué tan buenos sean los programas de análisis de datos si la interfaz de usuario es deficiente o confusa. En esta parte, la información es presentada ante los expertos.
- Análisis de datos: en esta fase se establece el tipo de procesos al cual someteremos la información, ya sea agrupamiento por similitud (clustering), por relaciones entre datos (asociación), por relación entre variables (regresión), etc.
- Toma de decisiones: es el punto final por el cual se emprendió todo el camino, y es tener la información necesaria para tomar una buena decisión basada en datos.
Desafíos y ventajas de Big Data
Nadie considera de por sí que tener información a la mano sea algo negativo; sin embargo, el problema con Big Data es la magnitud y diversidad de la materia prima, una situación que puede ser desafiante para algunas organizaciones si no cuentan con los recursos para sacar ventaja de los datos. Pero los precios están bajando y las ventajas del Big Data son demasiado importantes para ser ignoradas.
Ventajas del Big Data
- Incidencia en la mejor toma de decisiones: Big Data permite que no se tomen decisiones a ciegas, informando a las empresas sobre sus finanzas y ventas, el estado del mercado (la competencia), los retos, e incluso permite detectar patrones de comportamiento y nuevas tendencias antes de que estas se conviertan en los nuevos estándares. Big Data proporciona el combustible para que los algoritmos encuentren nuevos patrones y puedan generar modelos predictivos.
- Optimización de los procesos: Una de las partes más importantes de Big Data es saber cómo está funcionando, por dentro, una organización. Una visión que permite ayudar a mejorar los procesos y, por ello, reducir costos. De hecho, 59,4 % de los encuestados de diferentes empresas ha afirmado que usa Big Data precisamente para eso.
- Ayuda a prevenir el fraude: Usada especialmente en los servicios financieros, Big Data proporciona la información necesaria no solo para detectar transacciones ilegales (robo de tarjetas, suplantación de identidad, etcétera) y detectar anomalías, sino que también permite calificar el historial crediticio y de riesgo de cada cliente.
- Desarrollar un marketing más acertado y personalizado: Big Data permite conocer mejor a los clientes. Catalogado por analistas como un imperativo estratégico, esta tendencia muestra el camino para lograr establecer una conexión emotiva con los usuarios al entregar productos a la medida, cuando y donde los necesiten. O dicho de otra forma, Big Data facilita la vida de los clientes, mejorando su experiencia de uso (UX).
- Permite establecer mejores alianzas: En medio de un mercado tan competido, es vital saber qué socio de negocios puede proporcionar una ventaja sobre la competencia. Big Data puede entregar esa respuesta al proporcionar información sobre qué le conviene más a cada organización, qué necesita y quién puede proporcionarlo.
Desafíos del Big Data
- La falta de talento: Es un fenómeno global que enfrentan todas las empresas tecnológicas. Para ser más exactos, se estima que para 2030 habrá una escasez mundial de más de 85 millones de trabajadores en ciencia y tecnología, lo que representará una pérdida de ingresos anuales de 8,5 billones de dólares. Los científicos de datos y analistas se encuentran en este listado.
- Riesgos de seguridad: Los datos son uno de los activos más buscados por los delincuentes modernos, como lo demuestra el secuestro de información o ransomware. Tanto es así que esta modalidad delictiva generó más de 493 millones de ataques en 2022 y evolucionó hasta convertirse en un servicio conocido como Ransomware-as-a-Service (RaaS).
- Regulación: Vivimos en un mundo conectado con innumerables operaciones transnacionales, pero los datos no son tratados de la misma forma en todas las naciones. La Comunidad Europea tiene diferentes exigencias referentes a la privacidad y al manejo de los datos de sus ciudadanos, comparados con las regulaciones asiáticas o latinoamericanas y esto es solo un ejemplo.
- Costos: Aunque las tecnologías se han ido democratizando, también es cierto que la inmensa cantidad de datos que se generan diariamente impone la necesidad de usar nuevas herramientas de analítica. Esto quiere decir que hay costos que no todas las organizaciones están dispuestas a invertir.
- Garantizar la calidad de los datos: No todos los datos son relevantes, incluso aunque no estén duplicados y no presenten distorsiones. La información adecuada para un proceso solo puede ser garantizada si es comple deta, adecuada y precisa. Para este fin, existen estándares que buscan garantizar estos procesos.
¿Cuáles son los estándares de calidad de datos?
A primera vista, se puede decir que la calidad de los datos es la cualidad de los mismos para ser usados en una organización, cumpliendo con características como exactitud, integridad, exhaustividad, coherencia, validez, unicidad, actualidad y que sean completos, entre otras variables.
Pero también es cierto que no todas las partes de una organización comparten las mismas exigencias. Es decir, para las áreas de negocio, la calidad de los datos se define en función de su relevancia, facilidad de acceso y puntualidad, mientras que para las áreas de sistemas está más relacionada con su participación en los procesos informáticos.
A pesar de esas diferencias, existen estándares independientes para definir esta calidad, como son las normas ISO (International Organization for Standardization) 8000 y las ISO 25000.
La ISO 8000 tiene como fin garantizar la calidad de los datos que se intercambian entre dos organizaciones. Aprobada en 2009, esta norma está compuesta por cuatro grandes ejes relacionados con la naturaleza de la calidad de los datos, su gestión y evaluación, el intercambio de los “datos maestros” y la información de ingeniería.
La ISO 25000, aunque enfocada en evaluar la calidad en la producción software, tiene una subdivisión, la ISO 25012, que define un modelo de calidad de datos para datos almacenados en un sistema informático. Dentro de este marco, se establecen una serie de requisitos para estos datos que se dividen en inherentes y dependientes.
Gráfico: Datos.gob.es.
La calidad de datos inherentes son propias del mismo dato, independientemente de su contexto o uso, como lo son su exactitud, consistencia, completitud, credibilidad y actualidad. La calidad de datos dependientes viene definida por su uso, con ejemplos como la disponibilidad, recuperabilidad y portabilidad.
También existen otras variables intermedias entre estas dos grandes divisiones que incluyen cualidades como conformidad, accesibilidad, confidencialidad, eficiencia, precisión, comprensibilidad y precisión.
Tecnología y Big Data
Es complicado imaginar las tendencias tecnológicas de forma independiente, ya que estas siempre trabajan en conjunto. Por ejemplo, Big Data y la analítica, la computación en la nube y el almacenamiento, la analítica predictiva y la inteligencia artificial, por dar solo algunos ejemplos. Sin embargo, si simplificamos un poco podemos dividir Big Data en cuatro grandes componentes tecnológicos como son:
- Almacenamiento de datos.
- Minería de datos.
- Analítica.
- Visualización de datos.
Como su nombre lo indica, las tecnologías de almacenamiento de datos se relacionan con la capacidad de buscar, gestionar y almacenar información. Algunas de las herramientas más usadas en este campo son Apache Hadoop, de código abierto, y la base de datos NoSQL, MongoDB.
La minería de datos, según la Universidad Complutense de Madrid, se define como un campo de la estadística y las ciencias de la computación que permite explorar grandes conjuntos de datos a través de varias técnicas y cuyo objetivo es encontrar patrones y/o anomalías que sirvan para explicar el comportamiento de los datos.
La analítica de datos busca limpiar, transformar y modelar datos para encontrar información útil que ayude a tomar mejores decisiones de negocios, aplicando diferentes técnicas de relacionamiento y agrupamiento de datos.
Por su parte, las tecnologías de visualización de datos son responsables de traducir la información de forma clara a una audiencia, permitiendo incluso contar una historia.
¿Cómo establecer una estrategia de Big Data?
Aunque nadie duda del poder de los datos para la toma de decisiones, Big Data es algo más que buenos deseos. Se necesita una estrategia que permita a las organizaciones establecer prácticas, objetivos y responsabilidades. Aunque existen varias metodologías para diseñar esta estrategia, todas tienen algunos pasos comunes, como los siguientes:
- Definir los objetivos empresariales.
- Realizar una evaluación del estado actual.
- Identificar y priorizar los casos de uso.
- Formular una hoja de ruta.
- Integrar mediante la gestión del cambio.
El potencial de los datos es casi infinito y, por ello, desafiante. Por eso, se debe intentar establecer algunos objetivos claros. ¿Qué pretende cambiar la organización y para cuándo? Este análisis debe incluir conocer los procesos exitosos y comprender qué los hace tan buenos. Para lograr esto, es indispensable involucrar a diferentes elementos de la empresa que trabajan en estos procesos, involucrar el talento y establecer metas realistas.
Gráfico: Big Data Framework.
Otra parte fundamental de la estrategia es conocer sobre el terreno en el que estamos pisando. ¿Cómo funcionan los procesos empresariales actuales? ¿Cuáles son las fuentes de datos empleadas? ¿Qué herramientas tecnológicas se usan? ¿Cuáles son las políticas de datos de la organización?
El siguiente paso es identificar y priorizar los casos de uso que tengan mayor potencial de crecimiento y que estén alineados con los objetivos de negocio. Una vez establecidos, se debe pasar al siguiente paso, que es priorizar su implementación según la cantidad de recursos requeridos y su posible impacto en los negocios.
Ninguna estrategia funciona si se queda en el abstracto, es necesario establecer un plan de acción (roadmap) con pasos a seguir, personas responsables, objetivos prioritarios y plazos establecidos.
Por último, algo que va más allá de Big Data y que afecta a toda la organización es incluir la gestión del cambio, apropiarse de ella como un elemento de innovación que ayudará en la implementación de todos los nuevos procesos, incluyendo los de Big Data.
Herramientas de big data
En el ámbito del Big Data, se emplean diversas herramientas destinadas a manejar y procesar grandes volúmenes de datos de manera eficiente. Entre estas herramientas se encuentran sistemas de almacenamiento distribuido como Hadoop y Apache Spark, así como plataformas de análisis y visualización de datos como Tableau y Power BI. Además, se utilizan herramientas especializadas en el procesamiento de lenguaje natural, como NLTK y spaCy, para analizar texto no estructurado, y frameworks de aprendizaje automático como TensorFlow y PyTorch, para desarrollar modelos predictivos e impulsar la inteligencia artificial. Este conjunto diverso de herramientas forma un ecosistema tecnológico robusto que permite a las organizaciones extraer insights valiosos y tomar decisiones fundamentadas basadas en datos.
Usos de Big Data por sectores
Gráfico: TechVidvam.
Big Data despliega su utilidad de manera diferenciada en diversos sectores, adaptándose a necesidades específicas. A continuación, se presenta una síntesis de los usos más destacados según el ámbito de mercado:
Comercio electrónico:
- Utiliza Big Data para proporcionar experiencias personalizadas y aumentar las ventas.
- Proyección de alcanzar los 6.200 millones de dólares para 2025.
Empresas como Amazon y Walmart utilizan Big Data para analizar el comportamiento de compra de los clientes y ofrecer recomendaciones de productos personalizadas, optimizar la gestión de inventario y predecir tendencias de ventas.
Aerolíneas y transporte
- Emplea Big Data para reducir costos, mejorar ventas y garantizar la seguridad.
- Análisis de datos de componentes de aeronaves para mantenimiento preventivo.
Uber y Lyft utilizan datos de localización en tiempo real y patrones de viaje para optimizar la asignación de conductores, predecir la demanda y mejorar la eficiencia del servicio de transporte compartido.
Comidas rápidas y restaurantes:
- Versatilidad en la planificación de menús, optimización del tiempo y experiencia en servicios drive-thru.
- Considera tendencias, historial de clientes y factores estacionales.
Agricultura:
- Ayuda a producir más alimentos, reducir el consumo de recursos y medir la demanda en grandes ciudades.
- Responde a la necesidad de alimentar a una población proyectada de 9.700 millones para 2050.
La empresa de biotecnología agrícola Monsanto implementó el proyecto “Granjas de Datos”, donde recopila datos sobre el rendimiento de los cultivos, las condiciones del suelo y el clima de miles de campos agrícolas en todo el mundo. Estos datos se analizan utilizando algoritmos de Big Data para identificar patrones y tendencias que ayudan a los agricultores a optimizar sus prácticas agrícolas y aumentar la producción.
Servicios financieros:
- Imprescindible en la prevención de fraude, gestión de riesgos y diseño de productos financieros.
- Aplicaciones desde la seguridad hasta el desarrollo innovador de servicios.
Los bancos y las instituciones financieras utilizan Big Data para detectar y prevenir fraudes, evaluar el riesgo crediticio de los clientes, y desarrollar estrategias de marketing dirigidas basadas en el comportamiento financiero de los usuarios.
Predicción climática:
- Ampliamente empleado para generar informes, alertas y salvar vidas anticipándose a desastres naturales.
- Contribuye a ciudadanos y empresarios brindando información precisa.
Salud:
- Mejora la eficiencia hospitalaria, reduce tiempos de espera y facilita el desarrollo de medicamentos.
- Industria proyectada a superar los 105.000 millones de dólares para 2030.
La empresa IBM ha desarrollado Watson, un sistema de inteligencia artificial que utiliza Big Data para ayudar en el diagnóstico y tratamiento de enfermedades, analizando grandes cantidades de datos médicos para identificar patrones y tendencias que podrían pasar desapercibidos para los médicos humanos.
Sector público:
- Gobiernos utilizan Big Data para mejorar servicios, crear regulaciones efectivas y fortalecer la seguridad.
- Contribuye al bienestar ciudadano y optimiza la interacción con los servicios gubernamentales.
Educación:
- Aplicado para comparar oferta y demanda, evaluar el desempeño estudiantil y mejorar procesos educativos.
- Facilita la toma de decisiones basada en datos para instituciones educativas.
Plataformas educativas en línea, como Khan Academy y Coursera, utilizan datos de usuarios para personalizar la experiencia de aprendizaje, recomendando contenido específico y adaptando el ritmo de enseñanza a las necesidades individuales de cada estudiante.
Big Data e Inteligencia Artificial
Big Data y la Inteligencia Artificial tienen una relación simbiótica. Por un lado, la Inteligencia Artificial necesita enormes cantidades de datos para detectar y generar patrones, crear modelos predictivos, etc. Mientras tanto, Big Data necesita de la Inteligencia Artificial para procesar la inmensa cantidad de datos que se generan diariamente.
Gráfico: Bertelsmann-stiftung
Pero tal vez una relación más directa se puede apreciar en el aprendizaje automático (Machine Learning), un subcampo de la Inteligencia Artificial que confiere a las computadoras la capacidad de aprender sin ser programadas explícitamente para ello.
Es precisamente Big Data el que proporciona las grandes cantidades de datos de entrenamiento necesarios para un algoritmo de Machine Learning, y es Big Data el que ayuda a mejorar la precisión de estos algoritmos.
Decisiones basadas en datos
Aunque existen varias definiciones, se puede decir que la toma de decisiones basadas en los datos se define como el uso de hechos, métricas y datos para guiar decisiones estratégicas de negocios que se alineen con las metas, los objetivos y las iniciativas de una organización.
En términos empresariales, se habla de empresas basadas en datos (data-driven) para referirse a las organizaciones que han integrado el análisis de datos en el núcleo de sus procesos empresariales y utilizan la información para transformar sus operaciones empresariales.
Gráfico: Replicon
Hablamos de empresas que han reconocido la importancia de los datos y los utilizan para generar una ventaja competitiva. Según cifras de PwC, las organizaciones impulsadas por los datos pueden superar a sus competidores en un 5 % en productividad y un 6 % en rentabilidad.
Gobernanza de datos y cómo elaborar un plan
Existen varias definiciones. Una sostiene que el gobierno de datos o data governance es una estructura organizativa para apoyar la gestión de datos empresariales. Está formado por un conjunto de normas, políticas y procesos de una organización que garantizan que los datos sean correctos, confiables, seguros y útiles.
Otra definición del Data Governance Institute (DGI) afirma que la Gobernanza de datos es un sistema de derechos de decisión y responsabilidades para los procesos relacionados con la información, ejecutados según modelos que describen quién puede tomar qué acciones con qué información y cuándo.
Existen otras opiniones al respecto, pero básicamente lo que estas definiciones tienen en común es que la Gobernanza de datos crea una estructura y unos responsables para el control de los datos mediante reglas predefinidas.
¿Ahora la pregunta es cuándo es necesario ese gobierno de datos?
Según el Data Governance Institute, las empresas necesitan un gobierno de datos cuando son tan grandes que la gestión tradicional no puede abordar las actividades relacionadas con los datos, cuando las regulaciones del mercado o los gobiernos lo exigen, o cuando las herramientas son tan complejas que obstaculizan otros procesos.
Gráfico: Predictive analytics today
Algunas de las ventajas de este gobierno son una mejor eficiencia operativa, un impulso a los esfuerzos colaborativos y una limpieza de los datos.
En cuanto a la eficiencia, la gobernanza permite que los datos estén en un solo lugar y no pasen de un departamento a otro, evitando la duplicación y las confusiones.
En lo que se refiere a la colaboración, al tener datos abiertos al resto de la organización, se facilita la colaboración y la transparencia de la información.
Por último, la gobernanza se asegura de que se guarden los datos relevantes y no aquellos que se almacenan sin una razón coherente, asegurándose de que la información almacenada sea útil.
Pasos para elaborar un plan de gobernanza en Big Data
- Establecer objetivos y alcance:
- Definir claramente los objetivos del Data Governance en el contexto de Big Data.
- Determinar el alcance del programa, incluyendo fuentes de datos, tipos de datos y usuarios involucrados.
- Identificar Stakeholders y responsabilidades:
- Identificar a los stakeholders clave, como propietarios de datos, científicos de datos y responsables de seguridad.
- Asignar responsabilidades y roles específicos para garantizar la rendición de cuentas.
- Evaluar y mejorar la calidad de datos:
- Establecer estándares de calidad de datos para el Big Data.
- Implementar procesos para la limpieza, estandarización y enriquecimiento de datos.
- Definir políticas de seguridad y privacidad:
- Desarrollar políticas claras de seguridad de datos y privacidad.
- Garantizar el cumplimiento con regulaciones como GDPR y otras normativas locales.
- Implementar metadatos y catalogación:
- Establecer un sistema robusto de gestión de metadatos para rastrear el origen, calidad y uso de los datos.
- Catalogar y documentar metadatos para facilitar la búsqueda y comprensión de conjuntos de datos.
- Establecer procesos de gestión de cambios:
- Implementar procesos para gestionar cambios en esquemas, políticas y procesos de Big Data.
- Asegurar que los cambios sean documentados y comunicados adecuadamente.
- Capacitación y concienciación:
- Proporcionar capacitación continua a los equipos sobre las políticas y prácticas de Data Governance.
- Crear conciencia sobre la importancia de la calidad y seguridad de datos.
- Monitoreo y cumplimiento continuo:
- Establecer un sistema de monitoreo continuo para evaluar el cumplimiento de políticas de Data Governance.
- Realizar auditorías periódicas para garantizar la efectividad del programa.
Al seguir estos pasos, las organizaciones pueden desarrollar un sólido plan de Data Governance que asegure la calidad, seguridad y eficacia de los datos en el entorno de Big Data.
Estándares de calidad de los datos
En Colombia, al igual que en el resto del mundo, los estándares de calidad en Big Data se basan en normativas y buenas prácticas reconocidas internacionalmente. Algunos de los estándares comunes incluyen:
- ISO 9001: Esta norma establece los requisitos para un sistema de gestión de calidad, que puede aplicarse a cualquier organización, independientemente de su tamaño o sector. Si bien no está específicamente diseñada para el Big Data, proporciona un marco general para garantizar la calidad en la gestión de datos y procesos relacionados.
- ISO/IEC 27001: Esta norma internacional se centra en la seguridad de la información, incluidos los datos almacenados, procesados y transmitidos en entornos de Big Data. Define requisitos para establecer, implementar, mantener y mejorar un sistema de gestión de seguridad de la información (SGSI).
- GDPR (Reglamento General de Protección de Datos): Aunque es una regulación de la Unión Europea, el GDPR ha tenido un impacto significativo en la forma en que se gestionan los datos personales en todo el mundo. En Colombia, se espera que las organizaciones que manejan datos personales se adhieran a principios similares de privacidad y protección de datos.
- COBIT (Control Objectives for Information and Related Technologies): Este marco de gestión de TI proporciona directrices para el control y monitoreo de procesos de tecnología de la información, lo que puede ser relevante para garantizar la calidad y seguridad de los datos en entornos de Big Data.
- Leyes y regulaciones locales: En Colombia, existen leyes y regulaciones específicas relacionadas con la protección de datos personales, como la Ley Estatutaria 1581 de 2012 y su decreto reglamentario 1377 de 2013. Estas normativas establecen los principios y obligaciones para el tratamiento adecuado de la información personal.
Situación del Big Data en Colombia
Aunque nadie niega la importancia y las ventajas de Big Data, las estadísticas parecieran contradecirla, al menos en países como Colombia, donde solo 18 % de las empresas sabe aprovechar los datos, según un estudio reciente. Para colmo de males, en este mismo estudio, 71 % de las organizaciones afirmó que los datos impulsan su toma de decisiones.
Estas cifras son respaldadas por otra investigación que mide el Índice de Madurez Analítica (IMA) de las organizaciones y que encontró que Colombia obtiene apenas un puntaje de 46,1 sobre 100, inferior incluso al promedio andino de 49,7 sobre 100.
Este puntaje presenta variaciones al comparar diferentes sectores del mercado, donde los servicios financieros son los líderes locales, con una puntuación de 47,9, seguidos por el sector estatal con 46 puntos. Desafortunadamente, el sector académico es el último del estudio, con apenas 40,3 sobre 100.
El IMA también encontró que apenas 5 % de las organizaciones siempre realiza un análisis predictivo de datos, en contraste con 45 % que casi nunca recurre a los datos para la toma de decisiones, y un 25 % que nunca los utiliza.
Una de las razones expuestas para este puntaje es la falta de talento capacitado, una situación que está cambiando en los últimos años, ya que Big Data, junto con la ciberseguridad, es una de las áreas con mayor crecimiento de talento humano en el país.
Otros retos locales son la falta de metodologías analíticas, que son practicadas por apenas 26 % de las empresas. En cuanto al acceso a la información, 52 % de las empresas cuenta con fuentes de datos (en la nube e internas), pero solo 19 % puede analizarlos cuando se les necesita.
Resumiendo, aunque Colombia ha crecido en sus procesos de Transformación Digital aún le falta en lo referente a sus políticas de datos, una solución que pareciera estar en camino a solucionarse dada la cantidad de talento que se está generando y la generación de políticas locales que buscan promover la conectividad y el ecosistema de emprendedores. Sin embargo, aún falta bastante trabajo en este campo.
A pesar del reconocimiento de la importancia del Big Data, las estadísticas muestran un bajo aprovechamiento de los datos en Colombia. Solo el 18 % de las empresas del país utiliza efectivamente los datos, a pesar de que el 71 % afirma que estos impulsan sus decisiones. El Índice de Madurez Analítica (IMA) revela que Colombia tiene un puntaje de 46,1 sobre 100, por debajo del promedio andino. Los servicios financieros lideran con 47,9 puntos, mientras que el sector académico obtiene solo 40,3. La falta de talento capacitado y la escasez de metodologías analíticas son algunos de los desafíos locales. Aunque se observa un crecimiento en el talento humano en áreas como Big Data y Ciberseguridad, todavía hay un largo camino por recorrer en términos de políticas de datos y acceso a la información.
Según datos del Ministerio de Tecnologías de la Información y las Comunicaciones (MinTIC), se estima que el sector de tecnologías de la información y la comunicación (TIC) en Colombia representó aproximadamente el 3.4% del Producto Interno Bruto (PIB) del país en 2020. Dentro de este sector, el Big Data juega un papel crucial al impulsar la innovación y el desarrollo empresarial.
En términos de empleo, el Big Data ha generado nuevas oportunidades laborales en Colombia. Según la Cámara Colombiana de Informática y Telecomunicaciones (CCIT), se estima que alrededor del 10% de las empresas del país contratan profesionales especializados en Big Data y análisis de datos. Además, el crecimiento de las empresas tecnológicas dedicadas al Big Data ha contribuido a la creación de empleo en sectores relacionados como la ingeniería de software, la consultoría en análisis de datos y la ciberseguridad.
En el ámbito social, el Big Data está transformando la forma en que se abordan los desafíos en áreas como la salud, la educación y el medio ambiente. Por ejemplo, el uso de análisis de datos en el sector salud ha permitido mejorar la eficiencia en la atención médica y predecir brotes de enfermedades. En educación, se utilizan herramientas de Big Data para personalizar el aprendizaje y mejorar los resultados académicos. Además, el análisis de datos ambientales ayuda a monitorear y prevenir la deforestación, la contaminación y otros problemas ambientales.
Imagen principal: Freepik.