El uso de texto generado por Inteligencia Artificial se está extendiendo en múltiples campos profesionales, donde las capacidades de ChatGPT o Gemini, entre otras, se utilizan para tareas rutinarias como escribir un correo electrónico o para actividades más estructuradas, como la generación de imágenes o código de software. Los modelos de aprendizaje profundo se entrenan en un sinfín de bases de datos, que cubren los ámbitos más diversos de la experiencia humana, desde la investigación biomédica hasta la creatividad artística.
Este acceso excesivo a los datos ha suscitado últimamente problemas relacionados con los derechos de autor y el reconocimiento de la propiedad intelectual, tanto en redes sociales, como de la información a la que tiene acceso la Inteligencia Artificial: ha habido numerosos informes de artistas y profesionales sobre casos en los que se sospecha que la Inteligencia Artificial ha infringido los derechos de autor sobre los contenidos producidos a raíz de una solicitud recibida de una empresa.
Las tensiones entre el uso de la IA y los derechos de autor surgen cuando los modelos de IA, como los generativos, utilizan grandes cantidades de datos protegidos por derechos de autor para entrenarse, sin contar con las licencias o permisos adecuados.
Esto plantea preocupaciones sobre la infracción, ya que el material original puede ser replicado o transformado sin compensar a los creadores. A medida que las IA generan contenido como imágenes, textos o música, se cuestiona si este nuevo contenido es original o una copia derivada del material protegido.
En Latinoamérica, casos como el de la plataforma de arte generativo Midjourney han puesto en el centro del debate la cuestión de quién posee los derechos sobre una obra creada por una IA. En Colombia, si bien aún no existen sentencias definitivas al respecto, expertos legales y creativos han alertado sobre la necesidad de adaptar la legislación a esta nueva realidad, adicionalmente la academia se enfrenta a nuevos retos frente al plagio y otros temas éticos en el uso de esta tecnología.
Para mitigar estas tensiones, algunas estrategias incluyen el uso de licencias abiertas o bases de datos con contenido en el dominio público, lo que permite a las IA entrenarse sin infringir derechos. Además, se están desarrollando acuerdos entre las plataformas tecnológicas y los titulares de derechos para compartir beneficios, así como sistemas de marcación digital que permiten rastrear el uso del contenido protegido.
Dificultades para asignar los derechos de autor
Aunque el problema está claramente formulado, probar una violación de los derechos de autor resulta ser mucho más complejo.
Para mayor claridad, tomemos, por ejemplo, el caso de una imagen producida mediante una Inteligencia Artificial GAN (Generative Adversarial Networks), a la que se le ha pedido que genere un cuadro al estilo de un pintor determinado. El tipo de Inteligencia Artificial GAN crea una imagen a partir de miles de pinturas almacenadas, que utiliza para alimentar el algoritmo de generación. En la imagen final generada, se puede reconocer el estilo del artista, pero sin poder hablar inequívocamente de plagio.
Debido a la tecnología de difusión estable utilizada para generar la imagen, de hecho, es extremadamente difícil detectar un parecido exacto entre el contenido generado por la IA y una de las pinturas originales del artista, precisamente porque la inteligencia artificial no funciona muestreando directamente las partes de las pinturas originales, sino que las reprocesa mediante funciones estadísticas y álgebra lineal.
Usamos un ejemplo sobre imágenes, pero la misma situación vuelve a ocurrir en diferentes áreas de la Inteligencia Artificial Generativa, como la música o los artículos periodísticos.
Iniciativas para la protección de los derechos de autor
Una de las iniciativas de protección de los derechos de autor que causó más sensación fue la del New York Times, que había demandado a Microsoft y Open AI por violar los derechos de autor de sus artículos.
Obviamente, los creadores de contenido independientes no cuentan con el apoyo legal de las principales organizaciones de noticias. Aún faltan normas claras sobre las interacciones entre los conjuntos de datos y los modelos de inteligencia artificial en relación con la protección de los derechos de autor de los datos utilizados para la formación, aunque algunas comisiones europeas están investigando la cuestión.
Por su parte, la Dirección Nacional de Derecho de Autor (DNDA) de Colombia ha rechazado múltiples solicitudes de registro de obras creadas con Inteligencia Artificial en 2023, basándose en que estas no cumplen con los requisitos de ser creaciones originales e intelectuales de origen humano, como lo establece la Ley 23 de 1982 y la Decisión Andina 351 de 1992.
A través de las resoluciones 137, 147 y 185, la DNDA subraya que las obras generadas por herramientas de IA como ChatGPT y Midjourney no pueden considerarse productos de ingenio humano, y por ende, no son protegidas por derechos de autor bajo la normativa actual, que exige una intervención creativa humana directa en el proceso.
La ayuda proviene de Blockchain
En este escenario, resultan interesantes algunas propuestas del mundo de la cadena de bloques (Blockchain), que en los últimos años ha sido testigo de la expansión de mercados especializados en proporcionar herramientas profesionales para la venta y el control de la propiedad intelectual en las bases de datos. El funcionamiento de estos mercados es sencillo desde un punto de vista técnico y está lleno de interesantes implicaciones para quienes desean sentirse más protegidos frente a posibles violaciones de los derechos de autor.
El objetivo de estos mercados es permitir a las instituciones y a los creadores de contenido crear sus propios conjuntos de datos, validar su propiedad intelectual y, posteriormente, ponerlos a disposición de los agentes de IA para que los utilicen a cambio de una comisión.
¿Cómo funciona un mercado de datos?
Para utilizar uno de estos mercados (por ejemplo, Ocean o Nuklai), es necesario registrarse en el sitio y conectar un monedero de criptomonedas, como el monedero Metamask o Coinbase, mediante un procedimiento guiado que normalmente pone a disposición el portal.
Algunos mercados exigen, además de la creación de una cuenta, la verificación de su cartera mediante un token soulbound, es decir, un NFT que en ningún caso debe moverse ni transferirse a terceros (de ahí el término ‘soulbound’, indisolublemente vinculado).
Una vez que se hayan cumplido los requisitos previos para utilizar el portal, el usuario puede proceder a cargar el conjunto de datos. Por lo general, se admiten los formatos de datos más variados, desde las bases de datos relacionales clásicas hasta CSV y JSON, hasta formatos optimizados para gestionar grandes conjuntos de datos en el campo del aprendizaje automático, como el formato parquet.
Una vez que el portal termina de cargar el conjunto de datos, se crean dos objetos en la cadena de bloques que permiten identificar de forma única el conjunto de datos, vincularlo a su creador y rastrear el acceso de terceros al mismo.
El primer objeto que se acuñará es un token ERC 721 (un token no fungible que no se puede intercambiar uno a uno debido a sus propiedades únicas), que representa el conjunto de datos de la cadena de bloques en forma de NFT. El segundo objeto es un conjunto de fichas ERC 20, que se utilizan para permitir el acceso al conjunto de datos.
Al combinar los dos tokens, ERC 721 y ERC 20, el contrato inteligente del mercado puede realizar un seguimiento de los accesos al conjunto de datos y recompensar a su creador pagando las tasas de acceso directamente a la cartera conectada a su perfil.
Por lo tanto, el creador está protegido contra el uso abusivo de sus datos mediante algoritmos de aprendizaje y puede disponer de una trazabilidad exhaustiva en tiempo real de los accesos al conjunto de datos.