PUBLICADO: Abr. 27, 2026 - 2:29 pm

La IA dejó de vivir en la nube

Compartir noticia:

No necesitas lo último. Necesitas aplicarlo hasta lo último.

Escucha esta noticia

Cargando audio...

Son las 2:07 de la noche de un miércoles en Bogotá. Llevo seis horas peleando con una tarjeta gráfica AMD Radeon RX 6700, drivers Vulkan, una arquitectura de GPU llamada gfx1031 que pocos conocen, y un programa de software libre llamado Ollama. No es un laboratorio. Es mi apartamento. Al final, cuando todo se acomoda, en la terminal aparece esto:

NAME            PROCESSOR    eval rate
llama3.1:8b     100% GPU     50.78 tokens/s
gemma2:9b       100% GPU     37.4 tokens/s

Dos modelos de lenguaje — uno de Meta, otro de Google DeepMind — corriendo en paralelo en mi escritorio. Cincuenta tokens por segundo. Respuestas fluidas, en tiempo real. Todo local. Sin conexión a internet requerida. Sin pagar por token. Sin enviar un solo byte a la nube.

Y mientras escribo este artículo, gemma2:9b está corriendo en segundo plano en mi tarjeta gráfica, respondiéndome cuando le pregunto en español sobre el sistema de salud colombiano. Con 8 GB de memoria de video ocupados, sin saturar el equipo.

Me explotó la cabeza. No por la velocidad — por lo que implica.

Lo que no es un LLM

Una intuición común — yo mismo la usé durante meses — es pensar los modelos de lenguaje como “un zip del conocimiento humano”. Buena metáfora para transmitir la magnitud, pero técnicamente imprecisa. Vale la pena corregirla, porque la corrección abre una conversación distinta.

Llama 3.1 8B fue preentrenado sobre más de 15 trillones de tokens de fuentes públicas [1]. Gemma 2 9B fue entrenado con 8 trillones de tokens usando una técnica que Google llama oficialmente knowledge distillation: en lugar de aprender prediciendo el siguiente token desde cero, aprendió observando cómo un modelo mucho más grande procesa el lenguaje, y destilando ese conocimiento en un modelo compacto [2].

Lo que quedó comprimido en los 5-8 GB de parámetros no son esos textos. Es el residuo estadístico de esa travesía — los patrones, las estructuras, las regularidades del lenguaje humano. No es una biblioteca con copias lossy; es una especie de fósil del pensamiento humano agregado, destilado hasta convertirse en tensores numéricos.

Cuando Google usa el término técnico destilación para describir su método, la metáfora deja de ser analogía y se vuelve literal.

La línea de tiempo que duele

2020. Correr un modelo de este calibre localmente era ciencia ficción.
2023. Requería clústeres NVIDIA DGX de ~USD 100K, sin contar energía y personal especializado.
2026. Lo estoy haciendo con una tarjeta gráfica de 350 dólares diseñada para videojuegos, software libre, drivers gratuitos [3].

La curva de democratización va mucho más rápido de lo que las instituciones están preparadas para absorber.

1. Soberanía tecnológica: el verdadero juego

Cuando hablamos de “no subir datos a la nube”, solemos pensar en términos defensivos: cumplimiento normativo, protección de datos, habeas data. Es importante, pero es la capa superficial de un problema más grande.

La soberanía tecnológica no es solo no depender del extranjero para procesar nuestros datos. Es poder decidir qué construimos, cómo lo construimos, y para quién lo construimos.

Durante las últimas dos décadas, Colombia y la mayoría de países emergentes fuimos consumidores de tecnología, no productores. Pagamos licencias de Microsoft, Oracle, SAP, Salesforce. Contratamos servicios en AWS, Azure, Google Cloud. Compramos APIs de OpenAI, Google, Anthropic. En cada capa, agregamos una dependencia — y cada dependencia es un veto potencial sobre nuestras decisiones futuras.

Tener modelos de lenguaje corriendo local, con pesos abiertos, portables entre fabricantes, cambia esta ecuación por primera vez en décadas. No porque vayamos a dejar de usar servicios extranjeros — sería ingenuo. Sino porque dejan de ser la única opción.

Y en el momento en que dejan de ser la única opción, recuperamos algo que habíamos perdido: la capacidad de elegir.

En el mismo equipo puedo alternar entre Llama de Meta (Estados Unidos), Gemma de Google DeepMind, Qwen de Alibaba (China), Phi de Microsoft, Mistral (Francia). Cinco fabricantes, cinco geografías, cinco enfoques técnicos distintos. Si mañana uno cambia sus términos, impone restricciones geográficas, o queda atrapado en un conflicto regulatorio, migro a otro en diez segundos con un comando.

Esa portabilidad — impensable en la nube — es una forma concreta de soberanía.

2. ¿Y si existieran modelos colombianos?

Aquí viene lo verdaderamente interesante.

Estos modelos abiertos no son puntos finales. Son puntos de partida. Llama 3.1, Gemma 2, Qwen 2.5 pueden ser afinados (fine-tuning) con datos específicos de un dominio, de un idioma, de una geografía. Con hardware modesto — una GPU de consumo de última generación, o incluso servicios cloud por horas — se puede especializar un modelo para un contexto particular.

¿Qué significaría eso para Colombia?

Podríamos tener un modelo que hable paisa, costeño, pastuso, cundiboyacense — no solo “español neutro de la Academia”. Un modelo que entienda “guaro” como aguardiente en el Eje Cafetero y como licor en general en otras regiones. Que sepa que “tinto” es café negro pequeño, no vino. Que reconozca referencias a Dragon Ball tan rápido como a Gabo.

Podríamos tener un modelo entrenado con resoluciones del Ministerio de Salud, jurisprudencia de la Corte Constitucional sobre tutelas en salud, normatividad de contratación pública, lenguaje técnico del DANE, manuales operativos del ICBF. Un modelo que no tenga que inventar cómo funciona la UPC en Colombia porque no la conoce — sino que la entienda como la entiende un profesional del sector.

Podríamos tener un modelo entrenado con nuestros corpus indígenas y afrodescendientes — wayuunaiki, nasa yuwe, criollo palenquero, raizal — y rescatar lingüísticamente comunidades que los modelos globales ignoran porque no son comercialmente relevantes.

Nada de esto requiere inventar IA desde cero. Requiere apropiarse de lo que ya existe y adaptarlo a lo nuestro.

3. Lean Startup en entidades públicas: la metodología que nos falta

Eric Ries publicó The Lean Startup hace quince años. La idea central es sencilla: en contextos de alta incertidumbre, construir un producto mínimo viable (MVP), probarlo con usuarios reales, aprender rápido, iterar barato. Evitar construir durante dos años algo que nadie va a usar.

La metodología colonizó Silicon Valley, luego las empresas corporativas, luego el emprendimiento social. Pero nunca terminó de entrar a las entidades públicas latinoamericanas.

En el sector público seguimos operando con un modelo de cascada antigua: estudios de mercado extensos, términos de referencia de cien páginas, licitaciones de seis meses, desarrollos de dos años, entregables monolíticos. Cuando el producto final sale, el problema que pretendía resolver ya mutó. A veces el contexto político cambió y el producto ni siquiera se usa.

¿Qué pasaría si una entidad pública adoptara realmente Lean Startup?

Imaginemos una Superintendencia Nacional de Salud operando así: identifica un problema concreto de los ciudadanos (por ejemplo, PQRS que se demoran meses), construye un MVP con tecnología local — un asistente con LLM que clasifique y priorice reclamos — lo prueba con 100 casos reales durante un mes, mide resultados, ajusta, escala. Total de inversión inicial: dos millones de pesos de hardware, tres semanas de trabajo de un equipo pequeño, cero dependencia de proveedor externo.

Si funciona: se escala. Si no funciona: se aprende y se pivotea. En vez de gastar quinientos millones en una plataforma que toma dos años y puede fallar silenciosamente.

Lean en lo público no es solo una metodología. Es un cambio en la forma en que el Estado se relaciona con el riesgo. Hoy el servidor público está incentivado a no arriesgar, porque cualquier error se penaliza y cualquier acierto se invisibiliza. Lean requiere lo contrario: permitir fallar rápido y barato, porque así se aprende qué sí funciona.

La infraestructura técnica para hacerlo ya existe. Lo que falta es la cultura institucional.

4. Low tech aplicado hasta el límite: la lección de EducALL

Tengo una empresa llamada EducALL enfocada en resolver problemas educativos. Cuando la fundamos, la tentación natural era diseñar algo sofisticado: realidad aumentada, gamificación avanzada, IA adaptativa, dashboards vistosos. Todo lo último.

Pero cuando fuimos al terreno — a los niños reales, en los colegios reales, con las conexiones reales de Colombia — entendimos algo que cambió el enfoque: los niños no necesitan lo último. Necesitan que lo que ya existe esté bien aplicado, con cariño y constancia.

Muchas veces la tecnología que resuelve un problema educativo no es una plataforma con GPT-5 y animaciones 3D. Es una simple llamada telefónica donde por lenguaje natural puedas acceder a un LLM, una audiolibro o una clase en audio. Un contenido bien estructurado. Un feedback inmediato. Una experiencia diseñada con respeto por el tiempo del estudiante.

Esa lección — la de que la innovación más poderosa no viene de lo nuevo, sino de lo bien aplicado — aplica directamente a lo que estoy escribiendo.

Los modelos de lenguaje que tengo corriendo en mi escritorio no son los más grandes ni los más recientes. Llama 3.1 se publicó hace un año y medio. Gemma 2 tiene casi dos años. Para los estándares de Silicon Valley, son casi antigüedades. Pero son más que suficientes para resolver el 90% de los problemas reales de procesamiento de lenguaje en una entidad pública colombiana.

No necesitas lo último. Necesitas aplicarlo hasta lo último.

Este principio es el opuesto exacto del consumismo tecnológico que domina la narrativa. Siempre hay un modelo nuevo, una versión siguiente, una feature más. Las noticias de IA cambian cada semana. Y eso crea una sensación permanente de estar atrás, de que hay que esperar “a la siguiente ola” antes de hacer algo.

Es mentira. La ola que ya llegó a la orilla hace un año basta para construir mucho más de lo que estamos construyendo. El problema no es que no tengamos la tecnología — el problema es que no la estamos aplicando con la intensidad y la profundidad que requiere.

5. Resolver problemas locales — y globales — con lo que ya tenemos

Colombia, como la mayoría de América Latina, creemos que la innovación ocurre afuera, que nosotros somos consumidores de ideas, que los problemas serios se resuelven en Boston, Palo Alto, Shenzhen o Zurich. Por eso nuestras startups aspiran a mudarse a San Francisco. Por eso nuestros gobiernos compran tecnología importada. Por eso nuestros profesionales se van.

Pero los problemas más importantes del mundo — desigualdad, salud rural, educación en periferia, adaptación climática, seguridad alimentaria, fragilidad democrática — no se van a resolver desde los lugares que ya ganaron la lotería de la histórica y la geográfica. Se van a resolver desde las latitudes donde esos problemas se viven todos los días.

Y para resolverlos no necesitamos lo último. Necesitamos aplicar lo que ya tenemos con un rigor y una constancia que todavía no hemos mostrado.

Un asistente de IA local en cada centro de salud rural, entrenado en los protocolos colombianos, corriendo en un equipo del precio de un celular flagship. Eso cambia la medicina rural del país. No requiere OpenAI, no requiere Silicon Valley, no requiere esperar dos años más.

Un modelo adaptado al español colombiano, ingerido con el corpus normativo del Ministerio de Salud, corriendo en infraestructura del Estado, asistiendo a millones de ciudadanos en trámites que hoy los deshumanizan. Eso cambia la relación ciudadano-Estado. No requiere inventar IA, requiere aplicar IA.

Mil operadores de IA local formados en universidades regionales — Popayán, Pasto, Tunja, Santa Marta, Montería — que vuelvan a sus territorios con la capacidad de construir. Eso cambia la geografía del talento. No requiere Stanford, requiere un programa de formación técnica bien diseñado.

Nada de esto es futurismo. Todo es ejecutable hoy, con la tecnología que ya existe en 2026.

6. Las preguntas que me quitan el sueño

Si el hardware ya no es el problema, el software es libre, los modelos son descargables, y sabemos por experiencias como EducALL que lo poderoso no es lo nuevo sino lo bien aplicado, entonces la pregunta ya no es “¿podemos?” — es “¿qué tan lejos nos atrevemos a llegar?”

¿Y si en cinco años Colombia tuviera modelos de lenguaje abiertos, entrenados en español colombiano con todos sus dialectos, operados desde universidades regionales, descargables gratuitamente por cualquier ciudadano?
¿Y si cada uno de los más de mil hospitales del país tuviera un asistente local entrenado en su propia historia clínica, sus protocolos, su epidemiología regional?
¿Y si aplicáramos Lean Startup con rigor en diez entidades públicas y las convirtiéramos en laboratorios de aprendizaje rápido, donde fallar barato se premiara tanto como acertar?
¿Y si formáramos mil operadores de IA local en universidades que hoy están subvaloradas, y les diéramos la responsabilidad de construir soluciones para sus propias regiones?
¿Y si dejáramos de preguntar “¿cuándo va a llegar la tecnología a nosotros?” y empezáramos a preguntar “¿cuándo vamos a aplicar, con la profundidad que merece, la tecnología que ya llegó?”
¿Y si Colombia — pequeña, diversa, resiliente — se atreviera a ser un laboratorio de aplicación intensiva de IA abierta, y resolviera problemas que las grandes potencias no saben cómo resolver porque no los viven?
¿Y si exportáramos — por primera vez en décadas — no commodities, no manufactura ligera, sino método: formas probadas de aplicar tecnología abierta para resolver problemas que el sur global comparte?

No tengo las respuestas. Pero por primera vez en años, siento que el techo subió, y que el techo dejó de depender de lo que nos vendan desde afuera.

Cierre

La inteligencia artificial dejó de ser “la IA de OpenAI” o “la IA de Google”. Pasó a ser un bien operable — un recurso que cualquier país, cualquier institución, cualquier profesional puede operar, adaptar y gobernar.

Lo que sigue no depende de que las grandes empresas tecnológicas nos regalen acceso. Depende de que nosotros — funcionarios públicos, emprendedores, académicos, estudiantes, ciudadanos — nos atrevamos a aplicar con intensidad y profundidad lo que ya tenemos en las manos.

No necesitamos esperar la siguiente ola. La ola que ya rompió basta para construir un mundo mucho mejor que el que tenemos. Lo único que falta es que dejemos de mirarla pasar.

Referencias

[1] Meta AI (23 de julio de 2024). Introducing Llama 3.1: Our most capable models to date. https://ai.meta.com/blog/meta-llama-3-1/

[2] Google DeepMind (27 de junio de 2024). Welcome Gemma 2 — Google’s new open LLM. https://huggingface.co/blog/gemma2. Paper técnico: Gemma 2: Improving Open Language Models at a Practical Size (arXiv:2408.00118).

[3] Ollama. Documentación de hardware y soporte Vulkan experimental: https://docs.ollama.com/gpu

[4] Ries, E. (2011). The Lean Startup: How Today’s Entrepreneurs Use Continuous Innovation to Create Radically Successful Businesses. Crown Business.

Las opiniones, análisis y reflexiones que publico en este espacio son exclusivamente de mi autoría y carácter personal. No constituyen posición institucional ni representan el criterio oficial de la Administradora de los Recursos del Sistema General de Seguridad Social en Salud (ADRES), del Ministerio de Salud y Protección Social, ni de ninguna otra entidad del sector.

Los contenidos se elaboran a partir de (i) información de dominio público, (ii) literatura académica verificable debidamente citada, y (iii) experiencia profesional acumulada a lo largo de mi trayectoria. En ningún caso divulgan información reservada, datos personales de beneficiarios, datos de operación contractual, ni elementos bajo deber de confidencialidad institucional.

Cuando discuto mecanismos de política pública, metodologías técnicas o desafíos del Sistema General de Seguridad Social en Salud, lo hago en mi calidad de ciudadano y profesional del sector, con el ánimo de aportar al debate público informado. Las propuestas que formulo son hipótesis de discusión, no compromisos institucionales.

Quien desee la posición oficial de ADRES sobre cualquier tema, puede consultar sus canales institucionales en www.adres.gov.co.

Las opiniones expresadas en esta columna pertenecen exclusivamente a su autor y no comprometen la línea editorial de CONSULTORSALUD.

Compartir noticia:

Daniel Garavito

Economista, con Maestría en Business Analytics and Data Strategy, y actualmente cursa una Maestría en Ingeniería de Sistemas y Computación, con énfasis en inteligencia artificial y soluciones digitales aplicadas a la gestión pública. Fundador de EducALL, startup social dedicada al desarrollo de soluciones tecnológicas para los sectores de salud y educación

Ver más del autor