Una alianza regional coordinada por el Centro Nacional de Inteligencia Artificial de Chile presentó LATAM GPT, un gran modelo de lenguaje entrenado con más de 300 mil millones de tokens en español y portugués, desarrollado por 200 especialistas de 60 instituciones de 15 países. El proyecto busca reducir la subrepresentación del Sur Global en la Inteligencia Artificial.
Con este movimiento, América Latina y el Caribe dieron un paso estratégico en el desarrollo de Inteligencia Artificial con el lanzamiento oficial de LATAM GPT, el primer Gran Modelo de Lenguaje abierto creado desde y para la región. El modelo fue presentado en Santiago de Chile con la participación del presidente Gabriel Boric, en un evento que reunió a autoridades regionales y representantes del ecosistema tecnológico latinoamericano.
LATAM GPT fue desarrollado por el Centro Nacional de Inteligencia Artificial (CENIA) en colaboración con CAF —banco de desarrollo de América Latina y el Caribe—, el Gobierno de Chile, Amazon Web Services (AWS) y Data Observatory. El proyecto articula a más de 100 profesionales y más de 60 instituciones de 15 países, que aportaron datos, conocimiento y experiencia técnica.
El Ministerio de Tecnologías de la Información y las Comunicaciones (MinTIC) de Colombia se integró como principal entidad oficial, firmando un Memorándum de Entendimiento con Chile para colaborar en el desarrollo del modelo.
Índice de temas
¿Por qué América Latina necesita un modelo de lenguaje propio?
La construcción de LATAM GPT responde a una asimetría histórica en el desarrollo de modelos de lenguaje a escala global, como los sesgos que son ampliamente registrados. Según estimaciones basadas en repositorios abiertos como Common Crawl, los datos en español y portugués representan apenas cerca del 4 % y el 2 %, respectivamente, del total utilizado para entrenar estos sistemas.
Esta subrepresentación implica que las realidades latinoamericanas no fueron consideradas de manera adecuada ni en el diseño ni en el entrenamiento inicial de gran parte de los modelos disponibles en la actualidad, quedando incorporadas, en muchos casos, a través de ajustes posteriores y mecanismos de corrección, y no como parte constitutiva de su arquitectura.
“Eso que se expresa en manifestaciones culturales de esas características también es necesario que, en estos tiempos, tenga una expresión en el lenguaje. Y el lenguaje de hoy día, nos guste o no nos guste, está muy determinado por la Inteligencia Artificial. Entonces, no tenemos que temerle, no tenemos que verla sólo como amenaza, tenemos que verla como oportunidad y eso es lo que está haciendo LATAM GPT hoy día“, sostuvo el presidente Gabriel Boric durante el lanzamiento.
Frente a este escenario, LATAM GPT fue entrenado desde su origen para comprender las variantes del español y el portugués, así como las historias, memorias e identidades culturales de la región. Esto permite procesar, generar y analizar idiomas de manera situada y contextualizada, con potencial aplicación en investigación, gestión pública y desarrollo tecnológico.
¿Cómo se construyó el corpus de datos de LATAM GPT?
Para llegar a la creación de un modelo 1.0, el proceso consideró la recolección y curaduría de datos, además de periodos de pre-entrenamiento y post-entrenamiento. El modelo se desarrolló sobre una arquitectura base Llama 3.1 de 70 mil millones de parámetros, complementada con un corpus regional obtenido bajo permisos, benchmarks adaptados al contexto latinoamericano y una documentación rigurosa en materia ética y de gobernanza.
En total, se reunieron más de 300 mil millones de tokens de texto plano, equivalentes a alrededor de 230 mil millones de palabras, obtenidos bajo permisos y licencias explícitas. El corpus fue curado de tal manera que asegura la anonimización de datos y elimina elementos tóxicos, como noticias falsas o discriminación. Gracias a ese proceso, el modelo cuenta con un dataset de alta calidad en áreas como humanidades y ciencias sociales, educación, ciencias de la salud, políticas públicas, economía, medioambiente, artes y pueblos indígenas.
“LATAM GPT permite que América Latina se suba a la revolución de la IA como actor, desarrollando tecnología propia y demostrando lo que es posible cuando la región trabaja unida“, comentó Álvaro Soto, director de CENIA.
El desarrollo contó con apoyo de AWS en la fase de entrenamiento del modelo —una de las etapas más críticas para este tipo de proyectos—, optimizando la infraestructura y reduciendo el tiempo de entrenamiento en un 64 %, de 25 a 9 días. “Este proyecto establece un marco replicable para que gobiernos, universidades y empresas desarrollen soluciones de IA que comprendan los contextos y matices culturales, lingüísticos e históricos de América Latina“, señaló Rafael Mattje, Líder de Tecnología de Amazon Web Services para el Cono Sur de América Latina.
¿Qué diferencia a LATAM GPT de los modelos comerciales cerrados?
A diferencia de las soluciones comerciales cerradas, LATAM GPT fue concebido como un bien público orientado a democratizar el acceso a esta tecnología y habilitar su uso en ámbitos estratégicos como educación, gestión pública e innovación productiva. El diseño de código abierto permite a universidades, gobiernos, startups y diversas comunidades desarrollar soluciones propias sobre una base común, transparente y trazable.
“En un contexto global en el que la Inteligencia Artificial está redefiniendo la productividad, la competitividad y el funcionamiento de nuestras economías y sociedades, América Latina y el Caribe enfrentan el desafío de construir capacidades propias para participar plenamente en esta transformación. Esto implica avanzar en el desarrollo de infraestructuras digitales estratégicas para la IA —como capacidad de cómputo, datos y conectividad— y en la generación de soluciones alineadas con las prioridades y realidades de la región. En ese marco, LATAM GPT representa un paso concreto hacia una mayor soberanía tecnológica y cultural y una oportunidad para que América Latina y el Caribe se posicionen como actores activos en la economía digital del futuro“, afirmó Sergio Díaz-Granados, presidente ejecutivo de CAF.
¿Cuál será el impacto económico y social de esta herramienta en la región?
LATAM GPT fue construido bajo principios éticos claros, con procesos de selección y documentación de datos que aseguran transparencia y uso responsable. Uno de los objetivos centrales del proyecto es fortalecer las capacidades técnicas de América Latina para liderar sus propios procesos de innovación.
Para el director de CENIA, “LATAM GPT no es un fin en sí mismo, sino una base tecnológica abierta que permite desarrollar modelos derivados y aplicaciones adaptadas a distintos contextos regionales, apoyadas por herramientas y materiales que facilitan su uso y evolución. De este modo, la región no es solo usuaria de IA, sino que puede crear soluciones propias a partir de capacidades compartidas“.
Con un impacto proyectado que podría mejorar la productividad de hasta el 50 % de la fuerza laboral latinoamericana, LATAM GPT queda a disposición de gobiernos, universidades y emprendedores como una plataforma abierta para el desarrollo de soluciones éticas, transparentes y alineadas con las necesidades de la región. El éxito del proyecto posiciona a Chile y a América Latina como referentes globales en el desarrollo de una Inteligencia Artificial abierta, colaborativa y con identidad propia. Cada vez más la IA va más allá de Estados Unidos o China.







