Programar con IA reduce la comprensión: 50% vs 67%

⏱️ Lectura: 12 min

Programar con IA te hace terminar antes, pero entender menos. Esa es la conclusión incómoda de un ensayo controlado de Anthropic con 52 ingenieros: el grupo que se apoyó en un asistente de IA promedió 50% en una prueba de comprensión, frente al 67% de quienes escribieron el código a mano. Una diferencia de casi dos notas completas.

📑 En este artículo

TL;DR
Qué pasó
Cómo fue el experimento
Los números
No es la IA, es cómo la usás
El debate más amplio
Impacto y análisis
Qué sigue
Preguntas frecuentes
Referencias

El estudio no dice que la IA sea mala. Dice algo más sutil y más útil: el resultado depende de cómo la uses. Quienes preguntaban conceptos aprendían; quienes delegaban todo, no.

TL;DR

Anthropic hizo un ensayo controlado con 52 ingenieros aprendiendo Trio, una librería async de Python que no conocían.
El grupo con IA promedió 50% en la prueba de comprensión; el grupo manual, 67%: casi dos notas de diferencia.
El grupo con IA terminó unos 2 minutos antes, una diferencia que no fue estadísticamente significativa.
La mayor brecha apareció en preguntas de depuración: delegar a la IA debilita la capacidad de encontrar errores.
El uso importa: quienes preguntaban conceptos sacaron 65-86%; quienes delegaban el código entero, menos de 40%.
Algunos participantes gastaron hasta 11 minutos redactando prompts, anulando el ahorro de tiempo.
El hallazgo alimenta un debate mayor: Meta mide el uso de tokens de IA por empleado y hay devs que reportan olvidar cómo programar.

Qué pasó

Anthropic publicó los resultados de un experimento diseñado para responder una pregunta que muchos equipos se hacen en voz baja: cuando un desarrollador aprende algo nuevo apoyándose en un asistente de IA, ¿aprende de verdad o solo entrega la tarea? La compañía reclutó a 52 ingenieros de software, en su mayoría con perfil junior, todos con al menos un año de experiencia usando Python de forma semanal y familiarizados con herramientas de IA para programar.

El truco del diseño fue elegir un tema que ninguno dominaba: Trio, una librería de Python para programación asíncrona. Al partir de cero, los investigadores podían medir cuánto aprendía cada grupo durante la tarea, sin que el conocimiento previo contaminara los resultados. A la mitad de los participantes se les permitió usar un asistente de IA libremente; a la otra mitad, escribir el código a mano, consultando solo documentación. Después, todos respondieron la misma prueba.

El resultado fue claro y medible. Programar con IA aceleró ligeramente la entrega, pero dejó a los participantes con una comprensión notablemente más débil de lo que acababan de construir. Y la prueba no medía trivias: evaluaba depuración, lectura de código, escritura de código y comprensión conceptual, es decir, las competencias que definen a un buen ingeniero.

Desarrollador programando con IA frente a su editor de código — El asistente acelera la entrega, pero no garantiza que el conocimiento quede.

Cómo fue el experimento

El estudio se estructuró en tres fases. Primero un calentamiento para que todos se ubicaran. Luego la tarea principal: implementar dos funcionalidades usando Trio, lo que obligaba a entender conceptos de concurrencia y de ejecución asíncrona. Por último, un cuestionario individual que ningún participante podía resolver con ayuda externa.

Trio no es un detalle menor. La programación asíncrona es uno de esos temas donde el código “funciona” o “no funciona” de formas poco intuitivas: una corrutina mal coordinada puede colgar el programa sin lanzar un error evidente. Aprender a razonar sobre tareas que se ejecutan de forma intercalada exige construir un modelo mental, no copiar y pegar. Por eso era un terreno ideal para distinguir entre quien entendió y quien solo entregó.

Un ejemplo del tipo de código que tenían que comprender se ve así:

import trio

async def tarea(nombre, segundos):
    print(f"{nombre}: empezando")
    await trio.sleep(segundos)
    print(f"{nombre}: listo tras {segundos}s")

async def main():
    # La nursery coordina varias tareas concurrentes
    async with trio.open_nursery() as nursery:
        nursery.start_soon(tarea, "A", 2)
        nursery.start_soon(tarea, "B", 1)

trio.run(main)

Entender por qué “B” termina antes que “A”, o qué pasa si una de las tareas lanza una excepción dentro de la nursery, es exactamente el tipo de razonamiento que el cuestionario evaluaba. La IA puede escribir este bloque en segundos; la pregunta del estudio era si quien lo recibió ya hecho podía explicarlo después.

💭 Clave: el grupo con IA terminó unos dos minutos antes, pero esa diferencia no fue estadísticamente significativa. El ahorro de tiempo real fue casi nulo; la pérdida de comprensión, de 17 puntos, sí fue grande.

Los números

La cifra central es la brecha en el cuestionario: 50% de aciertos en el grupo con IA frente al 67% en el grupo manual. Los investigadores la describen como equivalente a casi dos notas completas de diferencia, el salto de un aprobado raspado a un suspenso, o de un notable a un aprobado, según la escala.

El segundo dato desmonta el argumento más común a favor de delegar: la velocidad. Sí, el grupo con IA terminó antes, pero apenas unos dos minutos, una diferencia que el propio análisis califica de no significativa. Es más, algunos participantes invirtieron hasta 11 minutos redactando prompts, tiempo que borró cualquier ahorro frente a simplemente escribir el código.

El tercer hallazgo es el más revelador para quien dirige un equipo: la mayor brecha de rendimiento apareció en las preguntas de depuración. El grupo manual cometió más errores durante la tarea, pero los resolvió por su cuenta, y ese forcejeo fortaleció precisamente la habilidad de encontrar y arreglar fallos. El grupo con IA tropezó menos durante el ejercicio, pero llegó a la prueba sin haber entrenado ese músculo.

No es la IA, es cómo la usás

Aquí está el matiz que evita que esto sea un titular alarmista. El estudio identificó seis patrones distintos de uso de la IA, y el rendimiento se partió en dos según el patrón. Quienes usaban el asistente para hacer preguntas conceptuales o para pedir explicaciones junto al código sacaron entre 65% y 86%. Quienes delegaban la generación de código completa o depuraban iterando ciegamente con la IA cayeron por debajo del 40%.

Dicho de otro modo: la misma herramienta, en las mismas manos junior, produjo resultados opuestos según la intención. La IA como tutor que explica funciona; la IA como obrero que entrega, no. La diferencia no está en el modelo, está en si el humano sigue pensando.

graph LR
  A["Usa el asistente de IA"] --> B{"Como lo usa"}
  B -->|"Pregunta conceptos"| C["65-86% en la prueba"]
  B -->|"Pide explicaciones del codigo"| C
  B -->|"Delega el codigo entero"| D["menos de 40%"]
  B -->|"Depura iterando a ciegas"| D

💡 Tip: si estás aprendiendo algo nuevo con IA, pedile que te explique por qué su solución funciona y qué pasaría si cambiaras una línea. Convertí al asistente en profesor, no en proveedor.

Diagrama conceptual de patrones de uso de IA al programar — El patrón de uso, no la herramienta, predice cuánto se aprende.

El debate más amplio

El experimento de Anthropic no aparece en el vacío. Llega en medio de una conversación cada vez más tensa sobre qué le hace a la profesión que las grandes empresas empujen la IA hacia cada teclado. Meta, según reportes recientes, introdujo tableros internos que miden el consumo de tokens de IA por empleado, una métrica que presiona a programar con el asistente encendido siempre. Herramientas como Cursor se reparten por equipos enteros como estándar.

En paralelo, medios como Futurism recogieron testimonios de ingenieros que describen una erosión personal de sus habilidades. Uno relató, sin nombre, el momento en que se asustó al darse cuenta de que había olvidado cómo implementar una API en Laravel: “fui a la universidad para esto, llevo muchos años siendo ingeniero de software, y siento que volví a antes de escribir mi primera línea de código”. Otro lo resumió comparándolo con dejar de memorizar números de teléfono cuando llegaron los celulares, solo que esta vez lo que se externaliza es el pensar.

Conviene separar el grano de la paja: esos testimonios son anécdotas, no datos. El valor del estudio de Anthropic es precisamente que pone un número riguroso, salido de un ensayo controlado, debajo de una sensación que muchos describían sin evidencia. Y ese número apunta en la misma dirección que el malestar.

⚠️ Ojo: el riesgo se concentra en perfiles junior. Quien aún está formando sus modelos mentales puede quedar atrapado en un círculo: depende de la IA para validar y depurar, lo que impide desarrollar el criterio que le permitiría dejar de depender.

Impacto y análisis

Para un equipo de ingeniería, la lectura práctica no es “prohibir la IA”. Sería absurdo y contraproducente. La lectura es que la productividad medida en velocidad de entrega esconde un costo invisible en formación, sobre todo en los primeros años de carrera. Un junior que entrega rápido pero no entiende lo que entrega es un pasivo a mediano plazo, no un activo.

El estudio sugiere intervenciones concretas. Diseñar el flujo de trabajo para que la IA explique y no solo produzca. Reservar tareas de aprendizaje deliberado donde el asistente esté limitado a responder dudas conceptuales. Y evaluar a las personas por comprensión, no por líneas cerradas. Las organizaciones que midan únicamente velocidad, como los tableros de tokens, corren el riesgo de optimizar exactamente la variable equivocada.

Hay también una lectura optimista que el propio dato respalda: cuando la IA se usa como herramienta socrática, los resultados superan incluso al promedio manual, con puntajes de hasta 86%. El techo de aprendizaje con IA bien usada es más alto, no más bajo. El problema es que el camino fácil, delegar, es justo el que apaga el aprendizaje.

Qué sigue

Un ensayo con 52 personas y una sola librería es un punto de partida, no la palabra final. Quedan preguntas abiertas: ¿el déficit de comprensión se mantiene en el tiempo o se recupera al volver a tropezar con el mismo problema sin IA? ¿Aplica igual a ingenieros senior, que ya tienen modelos mentales consolidados y quizás usan la IA solo para acelerar lo que ya saben? ¿Cambia el resultado con asistentes diseñados explícitamente para enseñar?

Lo previsible es que veamos más investigación de este tipo y, ojalá, herramientas que incorporen el hallazgo: asistentes que por defecto expliquen su razonamiento, que hagan preguntas de vuelta, que detecten cuándo el usuario está delegando sin entender. La discusión en Hacker News alrededor del estudio ya iba en esa dirección, pidiendo datos longitudinales y separando el uso para aprender del uso para producir. Mientras tanto, la recomendación es vieja y nueva a la vez: usá la IA para pensar mejor, no para dejar de pensar.

📖 Resumen en Telegram: Ver resumen

Preguntas frecuentes

¿Qué midió exactamente el estudio de Anthropic?

Midió cuánto aprendían 52 ingenieros al implementar funcionalidades con Trio, una librería async de Python nueva para ellos. La prueba final evaluó cuatro competencias: depuración, lectura de código, escritura de código y comprensión conceptual.

¿La IA hace peores programadores?

No de forma automática. El estudio mostró que delegar la generación de código entera produce peor comprensión (menos de 40%), pero usar la IA para pedir explicaciones y conceptos llevó a puntajes de 65% a 86%. El factor decisivo es el patrón de uso, no la herramienta.

¿Por qué la depuración es el área más afectada?

Porque depurar se aprende tropezando. El grupo manual cometió más errores y los resolvió solo, entrenando esa habilidad. El grupo con IA encontró menos errores durante la tarea y llegó a la prueba sin práctica real de diagnóstico.

¿Cómo debería un junior usar la IA para no perder habilidades?

Tratándola como tutor, no como obrero. Pedirle que explique por qué su solución funciona, qué alternativas hay y qué pasaría al cambiar partes del código. Reservar tiempo para resolver problemas sin asistente y construir criterio propio.

¿El resultado aplica a programadores senior?

El estudio se centró en perfiles mayormente junior, así que no lo confirma para seniors. La hipótesis razonable es que quien ya tiene modelos mentales sólidos puede usar la IA para acelerar sin perder comprensión, pero hace falta más investigación para afirmarlo.

¿El grupo con IA al menos fue más rápido?

Apenas. Terminó unos dos minutos antes, una diferencia no estadísticamente significativa, y algunos participantes gastaron hasta 11 minutos redactando prompts, anulando el supuesto ahorro de tiempo.

Referencias

Anthropic Research — Informe oficial del estudio sobre cómo la asistencia de IA afecta la formación de habilidades de programación.
InfoQ — Cobertura del ensayo con el desglose de los puntajes y la metodología.
Techzine — Detalle de los seis patrones de uso y el tiempo invertido en prompts.
Futurism — Testimonios de ingenieros y contexto del debate sobre la erosión de habilidades.
Hacker News — Discusión de la comunidad técnica sobre los resultados y sus límites.

📱 ¿Te gusta este contenido? Únete a nuestro canal de Telegram @programacion donde publicamos a diario lo más relevante de tecnología, IA y desarrollo. Resúmenes rápidos, contenido fresco todos los días.

Anthropic: programar con IA baja la comprensión de 67% a 50%

Publicado por Andrés Morales en 19 junio, 2026

TL;DR

Qué pasó

Cómo fue el experimento

Los números

No es la IA, es cómo la usás

El debate más amplio

Impacto y análisis

Qué sigue

Preguntas frecuentes

¿Qué midió exactamente el estudio de Anthropic?

¿La IA hace peores programadores?

¿Por qué la depuración es el área más afectada?

¿Cómo debería un junior usar la IA para no perder habilidades?

¿El resultado aplica a programadores senior?

¿El grupo con IA al menos fue más rápido?

Referencias

Andrés Morales

0 Comentarios

Deja un comentario Cancelar respuesta

Inteligencia Artificial

GLM-5.2 lidera los pesos abiertos con índice 51 en Artificial Analysis

Inteligencia Artificial

El playbook de Anthropic para fundar una startup AI-native en 2026

Inteligencia Artificial

Llama 3.1 405B gasta 0,39 Wh por consulta, según el benchmark ML.ENERGY

Anthropic: programar con IA baja la comprensión de 67% a 50%

Publicado por Andrés Morales en 19 junio, 2026

TL;DR

Qué pasó

Cómo fue el experimento

Los números

No es la IA, es cómo la usás

El debate más amplio

Impacto y análisis

Qué sigue

Preguntas frecuentes

¿Qué midió exactamente el estudio de Anthropic?

¿La IA hace peores programadores?

¿Por qué la depuración es el área más afectada?

¿Cómo debería un junior usar la IA para no perder habilidades?

¿El resultado aplica a programadores senior?

¿El grupo con IA al menos fue más rápido?

Referencias

Andrés Morales

0 Comentarios

Deja un comentario Cancelar respuesta

Entradas relacionadas

Inteligencia Artificial

GLM-5.2 lidera los pesos abiertos con índice 51 en Artificial Analysis

Inteligencia Artificial

El playbook de Anthropic para fundar una startup AI-native en 2026

Inteligencia Artificial

Llama 3.1 405B gasta 0,39 Wh por consulta, según el benchmark ML.ENERGY