Google Data Commons es una iniciativa de código abierto lanzada en 2018, diseñada inicialmente para verificar los datos y combatir la desinformación. Con el tiempo se amplió para incorporar una amplia gama de conjuntos de datos públicos que busca capacitar a las personas para una toma de decisiones informadas.
Actualmente usada por investigadores, periodistas, responsables políticos y ciudadanos por igual, la iniciativa Data Commons de Google es liderada por Prem Ramaswamy, quien fue uno de los protagonistas del segundo día del Foro Mundial de Datos realizado en Medellín.
Recordemos que los datos son más importantes que nunca, constituyéndose en la materia prima que impulsa los motores de Inteligencia Artificial que están transformando el mercado. A continuación, algunas palabras con Ramaswamy.
IMPACTO TIC: ¿Qué lo trae a Colombia?
Prem Ramaswamy: Estoy aquí para el Foro Mundial de Datos de la ONU. El Foro Mundial es un evento que se celebra una vez cada dos años y que reúne a organismos de estadística, sociedad civil, académicos y organizaciones sin ánimo de lucro de todo el mundo para debatir cómo usamos los datos para mejorar la calidad de vida de los ciudadanos en todo el mundo.
IC: En su conferencia habló de Data Commons y de Gemma.
PR: Bueno, antes de hablar de Gemma, quiero hablar sobre Data Commons. Se trata de una iniciativa de código abierto que en Google se centra en cómo podemos hacer que todos los conjuntos de datos públicos del mundo sean universalmente accesibles y útiles. Para ello, lo que hicimos fueron dos innovaciones clave. Por un lado, reunimos todos estos conjuntos de datos dispares, producidos en sus propios formatos diferentes, en un formato común que permite interoperar estos conjuntos de datos con mucha más facilidad. Y luego incorporamos una interfaz de lenguaje natural encima para que, en lugar de pensar en conjuntos de datos y columnas, puedas pensar en las preguntas que realmente intentas responder.
Por ejemplo, si pensamos en el cambio climático, no basta con pensar en 1,5 o 2 grados centígrados que se generen, sino en la calidad del aire, la humedad, la demografía de las personas, la agricultura, las consecuencias en la economía, etcétera.
Data Commons es una iniciativa de código abierto, y lo que hemos hecho ahora es trabajar en estrecha colaboración con la División de Estadística de las Naciones Unidas para que Data Commons sea su back-end, de modo que puedan poner a disposición de todo el mundo los datos sobre los Objetivos de Desarrollo Sostenible de 193 países diferentes con la misma interfaz.
IC: ¿Cuánto tiempo lleva trabajando en esa iniciativa?
PR: He estado en el equipo de Data Commons durante dos años y colaborando estrechamente con las Naciones Unidas durante casi un año y medio, pero este equipo de datos existe desde hace más de siete años dentro de Google.
IC: ¿Cuáles son los retos actuales para esta interoperación entre muchas plataformas de datos?
PR: Creo que una de las cosas de las que se habló en uno de los paneles fue que en realidad no es un problema técnico, es más una cuestión humana. En este momento en el que sabemos cómo hacer que los datos estén disponibles en un formato interoperable, las agencias de todos los países del mundo producen datos en el formato que ellas mismas eligen. De manera que están imponiendo una carga en los individuos que quieren utilizar esos datos. Ese es realmente el gran obstáculo al que nos enfrentamos.
Una de las principales razones para venir a un evento como este es para hablar con los demás sobre las ventajas de usar un formato de interoperabilidad de datos, una tendencia que crea un efecto de red y donde cada adición entra en contacto con otros 50.000 sets de datos existentes, enriqueciéndose.
IC:¿Cómo equilibrar esta frontera entre datos abiertos y datos personales?
PR: Esa es una gran pregunta. En este momento nos centramos exclusivamente en los datos públicos y los conjuntos de datos públicos de los organismos gubernamentales. Así que no tenemos que centrarnos tanto en los datos privados. Dicho esto, la interfaz de Data Commons es una interfaz de servidor, lo que significa que usted puede tomar sus datos privados en su interfaz privada, almacenados en privado, pero interoperar con todos los conjuntos de datos públicos disponibles.
IC: ¿Y en cuanto a Gemma?
PR: Una de las cosas que sabemos que viene, son estos grandes modelos de lenguaje, esta capacidad de la Inteligencia Artificial para empezar a razonar y darnos información. Pero el problema hoy es que la información no es totalmente confiable. Y no es fiable porque estos grandes modelos no saben distinguir entre realidad y ficción. Así que una de las cosas que estamos tratando de hacer es basar estos grandes modelos en Data Commons para que estos puedan obtener rápidamente no sólo el conjunto de datos correcto, sino también la fuente de ese conjunto de datos, y luego, con suerte, el razonamiento que hacen sobre eso puede ser confiable y utilizable.