El 2026 ha comenzado con fuerza. Tan solo en enero, Moonshot AI publicó el código fuente de Kimi K2.5, un modelo de un billón de parámetros diseñado para flujos de trabajo de agentes multimodales. OpenAI lanzó una aplicación para macOS de su asistente de codificación Codex. Estos son ejemplos recientes de tendencias que se han estado gestando durante meses.
Este artículo analiza cinco tendencias clave que probablemente darán forma a la manera en que los equipos desarrollen proyectos con IA este año.
1. Razonamiento y RLVR
Los primeros modelos de lenguaje, como GPT-4, generaban respuestas directamente. Se formulaba una pregunta y el modelo comenzaba a producir texto token a token. Esto funciona para tareas sencillas, pero suele fallar en problemas más complejos donde el primer intento es erróneo, como en matemáticas avanzadas o lógica de varios pasos.
Los modelos más recientes, comenzando con o1 de OpenAI, cambiaron esto al dedicar tiempo a "pensar" antes de responder. En lugar de ir directamente a la respuesta final, generan pasos intermedios y luego producen la respuesta. El modelo requiere más tiempo y potencia de cálculo, pero puede resolver problemas mucho más complejos de lógica y planificación de múltiples pasos.
Después de o1, muchos equipos se centraron en entrenar modelos de razonamiento. A principios de 2026, la mayoría de los principales laboratorios de IA habían lanzado un modelo de razonamiento o lo habían incorporado a su producto principal.
¿Qué es RLVR?
Un método clave que hizo posible el entrenamiento de modelos a gran escala fue el Aprendizaje por Refuerzo con Recompensas Verificables (Reinforcement Learning with Verifiable Rewards - RLVR). Aunque fue introducido inicialmente por Tülu 3 de AI2, DeepSeek-R1 popularizó este enfoque al aplicarlo a gran escala. Para comprender cómo RLVR mejora los métodos anteriores, es útil analizar el proceso de entrenamiento estándar.
El entrenamiento de modelos de aprendizaje por refuerzo (LLM) consta de dos etapas principales: preentrenamiento y postentrenamiento. Durante el postentrenamiento, un algoritmo de Aprendizaje por Refuerzo (RL) permite que el modelo practique. El modelo genera respuestas y el algoritmo actualiza sus pesos para que, con el tiempo, sea más probable obtener mejores respuestas.
Para decidir qué respuestas son mejores, los laboratorios de IA tradicionalmente entrenaban un modelo de recompensa independiente como sustituto de las preferencias humanas. Esto implicaba recopilar datos de preferencias de personas, entrenar el modelo de recompensa con esos datos y usarlos para guiar el aprendizaje por refuerzo. Este enfoque se conoce como aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF).RLHF crea un cuello de botella. Depende de que los humanos etiqueten los datos, lo cual es lento y costoso a gran escala. Además, se vuelve más difícil cuando la tarea es compleja, ya que las personas no pueden juzgar con fiabilidad largas secuencias de razonamiento.
RLVR elimina este cuello de botella. Si bien sigue utilizando el aprendizaje por refuerzo, la recompensa proviene de verificar la corrección en lugar de predecir la preferencia humana. En ámbitos como las matemáticas o la programación, muchas tareas tienen respuestas que se pueden verificar automáticamente. El sistema comprueba si el código se ejecuta o si la solución matemática coincide con la verdad fundamental. Si coincide, el modelo recibe una recompensa. No se necesita un modelo de recompensa independiente.
RLVR permite un entrenamiento escalable, ya que las comprobaciones de corrección se ejecutan de forma rápida y automática. El modelo puede practicar con millones de problemas y recibir retroalimentación inmediata. DeepSeek-R1 demostró que este enfoque podía alcanzar un razonamiento de vanguardia, desplazando el principal cuello de botella del etiquetado humano a la capacidad de cómputo disponible.
¿Qué esperar en 2026?
Actualmente, la mayoría de los principales laboratorios de IA utilizan el razonamiento en el entrenamiento, y muchos emplean RLVR. Como resultado, el razonamiento por sí solo ya no es un factor diferenciador. El enfoque se ha desplazado hacia la eficiencia.
Los equipos de IA trabajan ahora en el razonamiento adaptativo, donde el modelo ajusta su esfuerzo en función de la dificultad de la consigna. En lugar de gastar muchos tokens en un simple saludo, los modelos reservan el pensamiento profundo para los problemas que realmente lo requieren. Gemini 3 es un ejemplo concreto. Admite un control de nivel de pensamiento y utiliza el pensamiento dinámico por defecto, por lo que puede variar la cantidad de razonamiento que aplica a cada consigna. Este enfoque en la eficiencia hará que los modelos de razonamiento sean prácticos para casos de uso reales donde la velocidad y el coste son cruciales.
2. Agentes y uso de herramientas
Los primeros modelos de lenguaje eran buenos para generar texto, pero no podían realizar acciones. Si se le pedía a un modelo que reservara un vuelo, podía describir los pasos, pero no podía usar un sistema de reservas. Y como no podía comprobar el mundo real, a menudo adivinaba. Si se preguntaba "¿Está abierto el restaurante ahora mismo?", podría responder basándose en información antigua en lugar de consultar el horario en tiempo real.
Estas limitaciones propiciaron el surgimiento de los agentes de IA. Un agente combina un modelo de lenguaje natural (MLN) con herramientas y lo ejecuta en un bucle, lo que le permite planificar y actuar. En lugar de generar directamente la respuesta final, un agente puede tomar un objetivo, dividirlo en pasos, ejecutar herramientas y usar los resultados para decidir qué hacer a continuación.
La mayoría de los agentes comparten la misma estructura. Un modelo de lenguaje interpreta la solicitud y elige el siguiente paso. Las herramientas conectan el modelo con sistemas externos como búsquedas, calendarios, archivos o API. Un bucle ejecuta acciones, inspecciona los resultados y reintenta o cambia de rumbo cuando algo falla.
¿Por qué los agentes empezaron a funcionar recientemente?
Los agentes ya no son experimentales. Se están implementando en productos reales. El agente ChatGPT de OpenAI puede navegar por la web y completar tareas en tu nombre. Claude, de Anthropic, puede usar herramientas, escribir y ejecutar código, y resolver problemas de varios pasos.
Tres avances hicieron esto posible. Primero, el razonamiento mejoró. Los modelos mejoraron en la planificación de tareas de varios pasos, el seguimiento de los resultados intermedios y la elección de la siguiente acción en lugar de saltar a una respuesta final.
Segundo, las conexiones con herramientas se simplificaron. Antes, cada integración de herramienta era personalizada. Protocolos como el Protocolo de Contexto de Modelo (MCP) de Anthropic redujeron la fricción al conectar modelos con sistemas externos. Agregar una nueva herramienta ahora requiere solo unas pocas líneas de código.
En tercer lugar, plataformas como LangChain y LlamaIndex matured. Facilitaron la creación de agentes sin necesidad de empezar desde cero. Proporcionan componentes predefinidos para el uso de herramientas, flujos de varios pasos y registro de eventos. Esto redujo las barreras de entrada y permitió que más equipos experimentaran con agentes.
from langchain_ollama import ChatOllama
from langchain.agents import create_agent
# Create an LLM instance
llm = ChatOllama(model="gemma3:1b")
# Create your tool list
tools = [get_weather, web_search]
# Create your agent
agent = create_agent(llm, tools)
# Call your agent using agent.invoke
agent.invoke({"messages":
[{"role": "user", "content": "Events in SF"}]
})¿Qué novedades habrá en 2026?
Los agentes son eficientes en flujos de trabajo cortos, pero presentan dificultades cuando las tareas son largas. Tras decenas de pasos, pueden perder el contexto y cometer errores que se acumulan. Además, su acceso predeterminado es limitado. Muchos agentes se ejecutan en entornos aislados y no pueden acceder a tu correo electrónico, archivos ni aplicaciones locales a menos que los conectes.
Una tendencia probable en 2026 son los agentes persistentes, que abordan ambos problemas. Se trata de asistentes siempre activos diseñados para gestionar flujos de trabajo más largos durante periodos prolongados. Muchos se ejecutarán localmente, lo que facilita la conexión con tus archivos, aplicaciones y configuración del sistema, manteniendo el control de tus datos. OpenClaw es un ejemplo temprano de este cambio hacia agentes personales que se ejecutan en tu propio hardware.
Fuente: https://openclaw.ai/
Un mayor acceso también aumenta el riesgo. Cuando los agentes pueden leer datos personales y realizar acciones, los errores tienen mayor importancia. Por lo tanto, en 2026, la fiabilidad y la seguridad serán prioritarias. La fiabilidad implica mantener el rumbo, recuperarse de los errores y comportarse de forma predecible en tareas largas. La seguridad implica proteger los datos, resistir la inyección de código y evitar acciones irreversibles sin aprobación explícita.
3. Codificación
La IA comenzó a ayudar a los ingenieros de software con funciones sencillas de autocompletado. Sin embargo, su capacidad era limitada. El modelo solo podía ver el área inmediata alrededor del cursor, quizás unas pocas líneas antes y después. No comprendía el código fuente completo, la estructura del proyecto ni lo que se intentaba construir.
Eso cambió cuando los laboratorios de IA aplicaron el enfoque de agentes a la programación. En lugar de depender de modelos de propósito general, entrenaron modelos de lenguaje natural (LLM) especializados mediante un ajuste exhaustivo en repositorios de código, documentación y patrones de programación. También reemplazaron las herramientas genéricas por otras específicas para la programación, como read_file, search_codebase, edit_file, run_terminal_command y execute_tests.
El resultado es un modelo que comprende las prácticas de ingeniería de software, como la estructura del proyecto, las dependencias y la depuración, y sabe cómo usar sus herramientas para completar las tareas. Cuando se le asigna una tarea compleja, decide qué herramientas utilizar y en qué orden para finalizarla.
Potentes agentes de codificación propietarios como Claude Code de Anthropic y Codex de OpenAI impulsan este cambio. Pueden leer un repositorio completo y comprender estructuras de proyectos complejas. Al mismo tiempo, los modelos de código abierto han reducido la brecha. Qwen3-Coder-Next, un modelo de 80 mil millones de parámetros lanzado a principios de 2026, alcanzó un rendimiento cercano al de los mejores modelos propietarios al ejecutarse localmente en hardware de consumo.
Los agentes de codificación son uno de los ámbitos más visibles donde la IA ya ha transformado el trabajo diario. Los ingenieros pueden solicitar correcciones y mejoras a nivel de repositorio y obtener parches funcionales mucho más rápido. Estas herramientas también han reducido la barrera de entrada. Personas con menos experiencia en codificación pueden crear aplicaciones funcionales utilizando servicios basados en estos agentes, como Replit y Lovable.
¿Qué esperar en 2026?
La base de los agentes de codificación ya no es solo escribir código, sino gestionar software a gran escala. Es probable que tres áreas experimenten el mayor progreso:
Mayor comprensión a nivel de repositorio. Los agentes actuales a veces pierden el rastro de cómo se relacionan los archivos entre sí en grandes bases de código. Un mejor seguimiento de las dependencias, la arquitectura y el contexto entre archivos permitirá a los agentes gestionar proyectos más grandes y complejos de forma fiable.
Codificación con conciencia de seguridad. A medida que los agentes escriben más código de producción, detectar vulnerabilidades antes de su lanzamiento se vuelve fundamental. Se espera que los agentes integren el análisis de seguridad y la generación automatizada de pruebas directamente en su flujo de trabajo, en lugar de tratarlos como pasos separados.
Finalizaciones más rápidas. Los agentes actuales pueden ser lentos en tareas complejas, a veces tardando minutos en planificar y ejecutar un cambio en varios archivos. Los laboratorios de IA trabajan activamente para reducir el tiempo desde la solicitud hasta la obtención del código funcional, lo que hace que los agentes sean más prácticos para el desarrollo en tiempo real.
4. Modelos de ponderación abierta
Durante los primeros años de la era LLM, los modelos más capaces eran de código cerrado. Si se buscaba el máximo rendimiento, se utilizaban las API de laboratorios como OpenAI, Anthropic o Google. No se podía acceder a las ponderaciones, ejecutar los modelos localmente ni ajustarlos. Existían modelos de ponderación abierta, pero estaban rezagados.
Esa brecha no duró mucho. Se redujo más rápido de lo que la mayoría esperaba en dos fases: un momento clave para DeepSeek, seguido de un rápido impulso.
El momento clave de DeepSeek
En enero de 2025, DeepSeek lanzó DeepSeek-R1 y liberó el código fuente de sus ponderaciones, código y método de entrenamiento. El modelo de razonamiento igualó o superó a sus competidores de código cerrado en los principales parámetros de referencia. Demostró que el razonamiento de vanguardia no requería una API propietaria. La gente empezó a llamar a descubrimientos similares un "momento DeepSeek".
Etapas de entrenamiento de DeepSeek-R1. Fuente: Documento de DeepSeek-R1.
Una de las razones clave por las que R1 destacó fue su enfoque de entrenamiento. Antes de esto, muchos chatbots dependían en gran medida de RLHF durante el post-entrenamiento, el enfoque popularizado por los primeros ChatGPT. DeepSeek dependía en gran medida de RLVR, que se adapta mejor a tareas verificables como matemáticas y programación. Esto facilitó el entrenamiento de la capacidad de razonamiento con mucha menos intervención humana.
Impulso rápido
Después de eso, más laboratorios publicaron pesos completos y detalles de entrenamiento. La familia Qwen de Alibaba se convirtió en una base importante para el desarrollo abierto. GLM de Z.ai impulsó la capacidad multilingüe y multimodal en el ecosistema abierto. La familia Kimi de Moonshot ofreció potentes funciones de agente y uso de herramientas. Con este impulso, más equipos se unieron y el ecosistema de pesos abiertos se fortaleció considerablemente.
En agosto de 2025, OpenAI lanzó gpt-oss, sus primeros modelos de peso abierto desde GPT-2. Esta versión incluía modelos de 120 mil millones y 20 mil millones de parámetros bajo la licencia Apache 2.0. Mistral, Meta y el Instituto Allen también lanzaron versiones similares.
Fuente: Introducción a gpt-oss de OpenAICon informes técnicos detallados y recetas prácticas, las técnicas se difundieron rápidamente. Los equipos replicaron los resultados, los mejoraron y lanzaron variantes. Hoy en día, los modelos de peso abierto se acercan a los mejores modelos cerrados en muchos benchmarks estándar.
Qué esperar en 2026
En 2026, los lanzamientos de modelos de peso abierto ya no sorprenden. La próxima ola de progreso se centrará menos en la escala y más en la eficiencia, la implementación práctica y las capacidades de los agentes.
Eficiencia arquitectónica. Las arquitecturas son cada vez más eficientes, a menudo utilizando diseños MoE dispersos y un contexto extenso, de modo que solo una pequeña parte del modelo está activa por token. Qwen3-Coder-Next es un ejemplo, con una configuración ultradispersa y una ventana de contexto nativo de 256k.
Preparación para agentes. Los modelos de peso abierto se están entrenando para su uso por agentes, no solo para chat. El uso de herramientas, las salidas estructuradas y el razonamiento de contexto extenso se integran desde el principio. A medida que los agentes se vuelven fundamentales para la generación de valor por parte de la IA, los modelos de peso abierto preparados para agentes impulsarán flujos de trabajo más autónomos.
Implementación más sencilla. La implementación de estos modelos se simplifica gracias a nuevos formatos de inferencia y técnicas de compresión. Los proveedores de hardware también están ofreciendo soporte directo para modelos de peso abierto desde su lanzamiento, considerándolos objetivos de implementación prioritarios.
5. Modelos multimodales
La mayoría de los primeros chatbots solo procesaban texto. Incluso con sus mejoras, siguieron centrados en el texto. Las imágenes, el audio y el vídeo solían gestionarse mediante sistemas independientes. Los primeros generadores de imágenes podían producir imágenes impactantes, pero los resultados eran inconsistentes y difíciles de controlar.
Esto cambió de dos maneras: los chatbots se volvieron multimodales de forma nativa y los modelos de generación mejoraron drásticamente.
Chatbots multimodales de forma nativa
La era de los modelos exclusivamente de texto terminó cuando los modelos líderes se volvieron multimodales de forma nativa. Gemini 3 y ChatGPT-5 pueden gestionar texto e imágenes en un solo sistema, y sus productos también admiten interacciones multimedia más ricas. En cuanto a los modelos de peso abierto, Qwen2.5-VL muestra una capacidad de visión-lenguaje similar, con una sólida comprensión visual en todas las modalidades.
Este enfoque unificado permite interacciones más naturales y nuevos casos de uso. Por ejemplo, puedes subir un diagrama, hacer preguntas sobre elementos específicos y obtener respuestas que hagan referencia a detalles visuales, todo dentro de una misma conversación.
Generación de imágenes y vídeo
La generación de imágenes y vídeo también mejoró, pasando de demostraciones a herramientas reales. Sora 2 de OpenAI mostró una generación de vídeo a un nivel que obligó a la industria a tomarla en serio. Veo 3.1 de Google, lanzado en octubre de 2025 y actualizado en enero de 2026, impulsó la generación de vídeo con audio más rico y controles de edición más potentes, como la inserción de objetos. Nano Banana Pro (Gemini 3 Pro Image), lanzado en noviembre de 2025, mejoró la generación y edición de imágenes, especialmente la representación y el control de texto.¿Qué esperar en 2026?
Dos tendencias probablemente definirán la próxima fase del progreso multimodal: la IA física y los modelos del mundo.
IA física
La IA física, como los robots, está pasando de la investigación a implementaciones reales. El CES 2026 presentó una serie de demostraciones de robots humanoides de numerosas empresas. Boston Dynamics presentó su robot eléctrico Atlas y anunció una colaboración con Google DeepMind para integrar modelos de Gemini Robotics. Tesla también ha anunciado que planea aumentar la producción de Optimus, con el objetivo de alcanzar una producción muy elevada a largo plazo.
Tesla muestra Optimus Gen-2.
Estos sistemas combinan la comprensión del lenguaje a través de la visión, el aprendizaje por refuerzo y la planificación. Como afirmó Jensen Huang en el CES 2026: «Ha llegado el momento ChatGPT para la robótica», refiriéndose a los modelos de IA física capaces de comprender el mundo real y planificar acciones.
Modelos del mundo
Los sistemas de generación de vídeo descritos anteriormente están aprendiendo algo más profundo que simplemente producir píxeles realistas. Están construyendo modelos básicos del funcionamiento del mundo físico, sistemas que pueden simular la física, predecir resultados y razonar sobre el mundo real.
En noviembre de 2025, Yann LeCun dejó Meta para fundar AMI Labs, recaudando 500 millones de euros para desarrollar sistemas de IA que comprendan la física en lugar de limitarse a predecir texto. Google DeepMind lanzó Genie 3, el primer modelo interactivo de mundo en tiempo real que genera entornos 3D persistentes. Cosmos Predict 2.5 de NVIDIA, entrenado con 200 millones de videoclips seleccionados, unifica la generación de texto a mundo, imagen a mundo y vídeo a mundo para entrenar robots y vehículos autónomos en entornos simulados.
Es probable que el entrenamiento de mejores modelos del mundo continúe hasta 2026. Si los modelos pueden simular entornos de forma fiable, se convierten en la base para el entrenamiento de robots, vehículos autónomos y otros sistemas que deben operar en el mundo físico. La generación de vídeo, la robótica y la simulación están comenzando a converger en una misma dirección. 2026 mostrará si esta convergencia se acelera o se estanca.
De cara al futuro
2026 no estará definido por un único avance, sino por capacidades que ahora coexisten y se refuerzan mutuamente. Estas capacidades ya se están combinando para habilitar nuevos flujos de trabajo, desde la refactorización autónoma de código hasta el aprendizaje de tareas por parte de robots mediante entornos simulados. Será un año interesante para observar.






















