La IA generativa y los cinco gigantes: segunda parte

Noticias

Opinión

Luis Eduardo Pino

10 abril, 2023 - 9:36 am

Inicio

[favorite_button]

Comentar

Para comenzar esta semana, continuamos con la explicación y el análisis sobre la inteligencia artificial y tecnologías disruptivas.

Las innovaciones disruptivas sí suelen provenir de nuevos participantes en un mercado, pero esos nuevos participantes no necesariamente son nuevas empresas emergentes: algunos de los mayores ganadores en épocas tecnológicas anteriores han sido empresas existentes que aprovecharon su negocio actual para moverse a un nuevo espacio.

Entonces, ¿cómo se mueven y potencialmente moverán los 5 gigantes tecnológicos bajo la situación actual?

Apple

Joel Spolsky menciona en sus escritos: “las empresas inteligentes tratan de convertir en productos complementarios sus productos…”

Él mismo escribió esta línea en el contexto de explicar por qué las grandes empresas invertirían en software de código abierto:

“El código depurado NO es gratuito, ya sea propietario o de código abierto. Incluso si no pagas dólares en efectivo por él, tiene un costo de oportunidad y un costo de tiempo. Existe una cantidad finita de talento de programación voluntario disponible para el trabajo de código abierto, y cada proyecto de código abierto compite con cada proyecto de código abierto por los mismos recursos limitados de programación, y solo los proyectos más atractivos realmente tienen más desarrolladores voluntarios de los que pueden utilizar. En resumen, no estoy muy impresionado por las personas que intentan demostrar cosas económicas salvajes sobre el software gratuito como con la cerveza, porque para mí solo están obteniendo errores de división por cero.”

El software de código abierto no está exento de las leyes de la gravedad o la economía. Lo vimos con Eazel, ArsDigita, La empresa anteriormente conocida como VA Linux y muchos otros intentos. Pero algo sigue sucediendo que muy pocas personas en el mundo del código abierto realmente entienden: muchas grandes empresas públicas, con responsabilidades para maximizar el valor para los accionistas, están invirtiendo mucho dinero en apoyar el software de código abierto, generalmente pagando grandes equipos de programadores para trabajar en ello, y eso es lo que explica el principio de los complementos.

Una vez más: la demanda de un producto aumenta cuando el precio de sus complementos disminuye. En general, el interés estratégico de una empresa va a ser obtener el precio de sus complementos lo más bajo posible. El precio teóricamente sostenible más bajo sería el “precio de la mercancía” – el precio que surge cuando tienes un montón de competidores que ofrecen bienes indistinguibles. Entonces, las empresas inteligentes tratan de convertir en productos complementarios sus productos. Si puedes hacer esto, la demanda de tu producto aumentará y podrás cobrar más y ganar más, y en esto Apple es el líder.

Apple invierte en tecnologías de código abierto, especialmente en el kernel de Darwin para sus sistemas operativos y el motor de navegador WebKit; este último cumple con la prescripción de Spolsky de garantizar que la web funcione bien con los dispositivos de Apple, lo que hace que los dispositivos de Apple sean más valiosos.

Los esfuerzos de Apple en IA, por otro lado, han sido en su mayoría propietarios: los modelos de aprendizaje automático tradicionales se utilizan para cosas como recomendaciones e identificación de fotos y reconocimiento de voz, pero nada que cambie el negocio de Apple de manera importante. Apple recibió, sin embargo, un regalo increíble del mundo del código abierto: el modelo de Difusión Estable.

La Difusión Estable además de ser de código abierto es un modelo pequeño lo que le hace muy usable, al momento de lanzarse de hecho ya podía ejecutarse en algunas tarjetas gráficas de consumo.

Apple, para su inmenso crédito, ha aprovechado esta oportunidad con el anuncio de su grupo de aprendizaje automático el mes pasado:

“Hoy, nos complace lanzar optimizaciones de Core ML para Stable Diffusion en macOS 13.1 e iOS 16.2, junto con el código para comenzar a implementar en dispositivos Apple Silicon…”

Una de las preguntas clave para este modelo en cualquier aplicación es dónde se está ejecutando, y el hecho de poderlo incorporar a sus smartphones es ventajoso, especialmente porque es una aplicación preferible a un enfoque basado en el servidor, la privacidad del usuario final está protegida porque cualquier dato que el usuario proporcionó como entrada al modelo permanece en el dispositivo del usuario, los usuarios no requieren una conexión a Internet para utilizar el modelo y ademas la implementación local de este modelo permite a los desarrolladores reducir o eliminar los costos relacionados con el servidor.

La optimización de Core ML para la Difusión Estable y la simplificación de la conversión del modelo hacen que sea más fácil para los desarrolladores incorporar esta tecnología en sus aplicaciones de manera que se proteja la privacidad y sea económicamente factible, al tiempo que se obtiene el mejor rendimiento en Apple.

Además, parece seguro asumir que esto es solo el comienzo: si bien Apple ha estado enviando su llamado “Motor neuronal” en sus propios chips durante años, ese hardware específico de IA está ajustado a las necesidades de Apple; es probable que los futuros chips de Apple, si no este año, probablemente el próximo, estén ajustados para Difusión Estable también, mientras tanto el modelo podría integrarse en los sistemas operativos de Apple, con API fácilmente accesibles para cualquier desarrollador de aplicaciones.

Esto plantea la posibilidad de que las capacidades de generación de imágenes se integren efectivamente en los dispositivos de Apple, y así estén accesibles para cualquier desarrollador sin necesidad de escalar una infraestructura de back-end.

Los perdedores, por otro lado, serían los servicios centralizados de generación de imágenes como Dall-E o MidJourney, y los proveedores de nube que los respaldan como Discord. Cuando uno compara las imágenes generadas por Dall-E o Midojourney V5 con las de Difusión Estable, las primeras son superiores, pero las capacidades locales integradas afectarán al mercado potencial para los servicios centralizados y la computación centralizada.

Amazon (AWS)

Amazon utiliza el aprendizaje automático en sus aplicaciones. Sin embargo, los casos de uso directo para el consumidor, como la generación de imágenes y texto, parecen menos evidentes. Lo que ya es importante es AWS, que vende acceso a GPUs en la nube y es el líder del mercado de la computación en nube.

Algunos de ellos se utilizan para el entrenamiento, pero el caso de uso más grande, sin embargo, es la inferencia, es decir, la aplicación real del modelo para producir imágenes (o texto, en el caso de ChatGPT). Cada vez que se genera una imagen en MidJourney o un avatar en Lensa, se está ejecutando la inferencia en una GPU en la nube que es en donde AWS se interesa.

Las perspectivas de Amazon en este espacio dependerán de varios factores. En primer lugar, y más obvio, es lo útiles que terminan siendo estos productos en el mundo real. Además, el progreso de Apple en la construcción de técnicas de generación local podría tener un impacto significativo, sin embargo, Amazon es un fabricante de chips por derecho propio: aunque la mayoría de sus esfuerzos hasta la fecha se han centrado en sus CPUs Graviton, la empresa podría construir hardware dedicado propio para modelos como Difusión Estable y competir en precio. Aún así, AWS está apostando por ambas opciones: el servicio en la nube es un importante socio en lo que se refiere a las ofertas de Nvidia también.

La gran pregunta a corto plazo para Amazon será evaluar la demanda: no tener suficientes GPUs dejará dinero sobre la mesa; sin embargo, comprar demasiadas que permanezcan inactivas sería un gran costo para una empresa que trata de limitarlos. Al mismo tiempo, no sería el peor error que podrían cometer: uno de los desafíos con la IA es el hecho de que la inferencia cuesta dinero; en otras palabras, hacer algo con IA tiene costos marginales.

Este problema de los costos marginales es, sospecho, un desafío subestimado en términos de desarrollar productos de IA atractivos. Si bien los servicios en la nube siempre han tenido costos, la naturaleza discreta de la generación de IA puede hacer que sea difícil financiar la iteración necesaria para lograr el ajuste producto-mercado; no creo que sea una coincidencia que ChatGPT, el producto más exitoso hasta ahora, fuera gratuito para los usuarios finales y proporcionado por una empresa en OpenAI que construyó su propio modelo y tiene un acuerdo especial con Microsoft para la capacidad de cálculo. Si AWS tuviera que vender GPUs baratas, eso podría impulsar más uso a largo plazo.

Dicho esto, estos costos deberían disminuir con el tiempo: los modelos se volverán más eficientes a medida que los chips sean más rápidos y eficientes por derecho propio, y debería haber retornos a escala para los servicios en la nube una vez que haya suficientes productos en el mercado maximizando la utilización de sus inversiones. Sin embargo, sigue siendo una pregunta abierta cuánto impacto tendrá la integración completa, además de la posibilidad mencionada anteriormente de ejecutar inferencias localmente.

Meta (Facebook)

La IA es una enorme oportunidad para Meta y vale la pena las enormes inversiones de capital que está haciendo la empresa, además de su productos sin producto: el Metaverso.

Meta tiene enormes centros de datos, pero esos centros de datos se dedican principalmente a la computación de CPU, que es lo que se necesita para alimentar los servicios de Meta. La computación de CPU también fue necesaria para impulsar el modelo de anuncios determinísticos de Meta y los algoritmos que usaba para recomendar contenido de tu red.

Sin embargo, la solución a largo plazo es construir modelos probabilísticos que no solo determinen a quién se debe dirigir, sino también entender qué anuncios convierten y cuáles no. Estos modelos probabilísticos se construirán mediante grandes flotas de GPU, que, en el caso de las tarjetas A100 de Nvidia son muy costosas, pero Meta ya no está en ese mundo, y sería tonto no invertir en una mejor orientación y medición.

Además, el mismo enfoque será esencial para el crecimiento continuo de Reels: es enormemente más difícil recomendar contenido de toda la red que solo de tus amigos y familiares, especialmente porque Meta planea recomendar no solo video sino también medios de todo tipo e intercalarlos con contenido que te importa. Aquí también los modelos de IA serán clave, y el equipo para construir esos modelos cuesta mucho dinero.

A largo plazo, sin embargo, esta inversión debería dar sus frutos. En primer lugar, están los beneficios de una mejor orientación y mejores recomendaciones, los que deberían reiniciar el crecimiento de los ingresos. En segundo lugar, una vez que estos centros de datos de IA estén construidos, el costo de mantenerlos y actualizarlos debería ser significativamente menor que el costo inicial de construirlos por primera vez. En tercer lugar, esta enorme inversión es algo que ninguna otra empresa puede hacer, excepto Google.

Un factor importante para hacer que la IA de Meta funcione no es simplemente construir el modelo base, sino también ajustarlo a usuarios individuales de manera continua; esto es lo que requerirá una gran cantidad de capacidad y será esencial que Meta descubra cómo hacer esta personalización de manera rentable. Aquí, sin embargo, ayuda que la oferta de Meta probablemente se integrará cada vez más: aunque la compañía puede haberse comprometido con Qualcomm para chips para sus auriculares de realidad virtual, Meta sigue desarrollando sus propios chips de servidor; la compañía también ha lanzado herramientas para abstraer los chips de Nvidia y AMD para sus cargas de trabajo, pero parece probable que la compañía también esté trabajando en sus propios chips de IA.

Lo interesante será ver cómo la generación de imágenes y textos impacta a Meta a largo plazo: Sam Lessin ha planteado que el final del juego para las líneas de tiempo algorítmicas es el contenido de IA; he hecho el mismo argumento cuando se trata del Metaverso. En otras palabras, aunque Meta está invirtiendo en IA para dar recomendaciones personalizadas, esa idea, combinada con los avances de 2022, es contenido personalizado, entregado a través de los canales de Meta y su -ojalá cierto- Metaverso.

Por ahora, será interesante ver cómo se desarrollan las herramientas publicitarias de Meta: todo el proceso de generar y probar A/B el texto y las imágenes se puede hacer con IA, y ninguna compañía es mejor que Meta en hacer que estas capacidades estén disponibles a escala. Tenga en cuenta que la publicidad de Meta se trata principalmente del comienzo del embudo: el objetivo es captar la atención de los consumidores para un producto, servicio o aplicación que no conocían previamente; esto significa que habrá muchas fallas – la gran mayoría de los anuncios no convierten – pero eso también significa que hay mucha flexibilidad para la experimentación y la iteración. Esto parece muy adecuado para la IA: sí, la generación puede tener costos marginales, pero esos costos marginales son drásticamente más bajos que los de un ser humano.

Google

Google inventó el concepto de transformadores (transformers), la estructura de deep learning que sustenta los últimos modelos de IA generativa. Con la salida de chat GPT, Google ha hecho prelanzamientos de su modelo competidor Bard, pero los análisis de quienes lo han probado no son alentadores para Google. Por otro lado, Google afirma que sus capacidades de generación de imágenes son mejores que las de Dall-E o cualquier otro en el mercado. Y sin embargo, estas afirmaciones son solo eso: afirmaciones, porque no hay productos reales en el mercado.

Esto no es una sorpresa: Google ha sido durante mucho tiempo líder en el uso de aprendizaje automático para mejorar su búsqueda y otros productos dirigidos al consumidor (y ha ofrecido esa tecnología como un servicio a través de Google Cloud). Sin embargo, la búsqueda siempre ha dependido de los humanos como el árbitro final: Google proporcionará enlaces, pero es el usuario quien decide cuál es el correcto haciendo clic en él. Esto se extendió a los anuncios: la oferta de Google fue revolucionaria porque, en lugar de cobrar a los anunciantes por impresiones, cuyo valor era muy difícil de determinar, especialmente hace 20 años, cobraba por clics; las mismas personas que los anunciantes intentaban alcanzar decidirían si sus anuncios eran lo suficientemente buenos.

Durante los últimos siete años, la principal innovación del modelo de negocio de Google ha sido introducir cada vez más anuncios en Search, una táctica particularmente efectiva en móviles. Y, para ser justos, los tipos de búsquedas donde Google gana más dinero, como viajes, seguros, etc., pueden no ser adecuados para interfaces de chat de todas maneras.

Sin embargo, eso solo debería aumentar la preocupación de la gestión de Google de que la IA generativa pueda, en el contexto específico de la búsqueda, representar una innovación disruptiva en lugar de una sostenible y por ahora así parece serlo. El problema, por supuesto, es que el producto disruptivo mejora, incluso cuando el producto del incumbente se vuelve cada vez más pesado y difícil de usar, lo que ciertamente suena mucho como la trayectoria actual de Google Search Vs GPT. Es decir, o Google al ,enos iguala lo que está haciendo GPT o podría estar alcanzando su techo. Amanecerá y veremos.

Microsoft

Microsoft parece estar mejor situada que todos los demás. Al igual que AWS, tiene un servicio en la nube que vende GPUs; sin embargo, al ser proveedor exclusivo de OpenAI en la nube ya tiene una ventaja. Sí, eso es increíblemente caro, pero dado que OpenAI parece tener la pista interior para ser la adición de la época de la IA a esta lista de las principales empresas de tecnología, eso significa que Microsoft está invirtiendo muy bien en la infraestructura de lo que está ocurriendo.

Bing (su motor de búsqueda) por otro lado, es como el Mac en vísperas del iPhone: sí, contribuye bastante a los ingresos, pero es una fracción del jugador dominante y una cantidad relativamente inmaterial en el contexto de Microsoft en su conjunto, hasta diciembre de 2022, ya que con la llegada de OpenAI y GPT, el incorporarlos a Bingpuede ser riesgoso para el modelo de negocio, pero con lo que hemos visto hasta hoy, bien vale la pena.

El último informe de The Information, por cierto, indica que GPT llegará eventualmente a las aplicaciones de productividad de Microsoft. El truco consistirá en imitar el éxito de la herramienta de codificación de IA GitHub Copilot (que se basa en GPT), que es una gran ayuda para los programadores (muy recomendada por cierto).

Conclusiones

Con toda esta disrupción de los últimos 3 meses, es posible que OpenAI se convierta en la plataforma sobre la cual se construyan todas las demás empresas de IA (esto parece estar sucediendo muy rápidamente), lo que a su vez significaría que el valor económico de la IA por fuera de OpenAI podría ser bastante modesto.

Hay otra posibilidad en donde los modelos de código abierto proliferan en el espacio de generación de texto además de la generación de imágenes. En este mundo, la IA se convierte en una mercancía: este es probablemente el resultado más impactante para el mundo, pero paradójicamente, el más atenuado en términos de impacto económico para las empresas individuales y el menos atractivo para que los incumbentes inviertan en IA.

Al lado de esto, empresas como NVIDIA podrían seguir en crecimiento con su negocio de tarjetas y microchips.

Por ahora, el texto sigue siendo la interfaz universal, porque el texto ha sido la base de la transferencia de información desde la invención de la escritura; los humanos, sin embargo, son criaturas visuales, y la disponibilidad de la IA tanto para la creación como para la interpretación de imágenes podría transformar fundamentalmente lo que significa transmitir información de maneras imposibles de predecir, estamos asistiendo a una increíble transformación del cómo se produce y como se entrega el conocimiento, a la extinción misma de lo que hemos creído que es. Recordemos que la IA generativa no es solo producción de respuestas textuales o imágenes, la generación de voz, código y música por ejemplo son desarrollos que están evolucionando vertiginosamente (esperando con ánsias a Vall-E por ejemplo).

Lecturas recomendadas:

https://stratechery.com/2023/ai-and-the-big-five/
Christensen, C. M. (1997). The Innovator’s Dilemma: When New Technologies Cause Great Firms to Fail. Harvard Business Review Press.
Smart and Gets Things Done: Joel Spolsky’s Concise Guide to Finding the Best Technical Talent (2007)