⏱️ Lectura: 14 min

La historia reciente de los modelos de lenguaje abiertos tiene un nombre propio: DeepSeek V4. El laboratorio chino, que desde 2023 viene sacudiendo al mercado con modelos cada vez más eficientes, acaba de unificar su catálogo en dos variantes —deepseek-v4-flash y deepseek-v4-pro— detrás de una API que habla dos idiomas a la vez: el de OpenAI y el de Anthropic. Para quien desarrolla desde LATAM, la noticia es doblemente relevante: por un lado, se acaba la fragmentación de SDKs; por el otro, aparece un modo thinking explícito y un parámetro reasoning_effort que recuerdan bastante al modelo conceptual de los razonadores de última generación.

📑 En este artículo
  1. Qué pasó: DeepSeek V4 Pro y V4 Flash ya están en producción
  2. Contexto: la apuesta de DeepSeek por APIs compatibles
  3. Datos y cifras clave
  4. Primera llamada a la API de DeepSeek V4
    1. Windows, macOS y Linux: exportar la variable
    2. cURL: el ejemplo mínimo
    3. Python con el SDK de OpenAI
    4. Node.js: mismo SDK, menos líneas
    5. SDK de Anthropic apuntando a DeepSeek
  5. El modo thinking y reasoning_effort, explicado
  6. Deprecación de deepseek-chat y deepseek-reasoner
  7. Impacto y análisis para desarrolladores LATAM
  8. Qué sigue
  9. Preguntas frecuentes
    1. ¿DeepSeek V4 es compatible con todo mi código de OpenAI?
    2. ¿Cuál es la diferencia entre deepseek-v4-flash y deepseek-v4-pro?
    3. ¿Qué pasa con mi aplicación si no migro antes del 24 de julio de 2026?
    4. ¿El modo thinking se cobra aparte?
    5. ¿Puedo usar el SDK oficial de Anthropic contra DeepSeek?
    6. ¿Cómo activo el streaming de respuestas?
  10. Referencias

Este artículo desmenuza qué cambió, cómo hacer la primera llamada en Python, Node.js y cURL, qué implica la deprecación anunciada de deepseek-chat y deepseek-reasoner para el 24 de julio de 2026, y por qué la decisión de mantener compatibilidad con dos ecosistemas de SDKs es más política que técnica. Todo con ejemplos propios y contexto para quienes migran desde OpenAI, Anthropic o la generación anterior de DeepSeek.

Qué pasó: DeepSeek V4 Pro y V4 Flash ya están en producción

DeepSeek publicó la documentación oficial de su nueva familia DeepSeek V4 con dos modelos activos: deepseek-v4-flash, optimizado para latencia y costo, y deepseek-v4-pro, la variante tope de línea para tareas complejas de razonamiento, código y análisis. El anuncio llega acompañado de un detalle poco habitual: la API mantiene la misma base URL (https://api.deepseek.com) y sigue aceptando el formato de OpenAI, pero ahora también expone un segundo endpoint en https://api.deepseek.com/anthropic que habla el protocolo Messages de Anthropic sin traducciones manuales.

En paralelo, los dos modelos de la era V3 —deepseek-chat y deepseek-reasoner— quedan marcados como deprecated. La fecha de corte es el 24 de julio de 2026. Hasta ese día siguen operativos: deepseek-chat queda mapeado al modo no-thinking de deepseek-v4-flash y deepseek-reasoner al modo thinking de la misma variante. Después, desaparecen. Tres meses de ventana para migrar, ni uno más.

Editor de código mostrando la primera llamada a la API de DeepSeek V4
Primer hello world contra DeepSeek V4 desde el SDK de OpenAI.

Contexto: la apuesta de DeepSeek por APIs compatibles

Desde su aparición pública, DeepSeek apostó por una estrategia que al principio parecía menor pero resultó decisiva: no pedirle al desarrollador que aprendiera otro SDK. Al exponer su API en el formato de chat/completions de OpenAI, cualquier aplicación que usara openai-python, openai-node o cualquier wrapper compatible —LangChain, LlamaIndex, Vercel AI SDK, Aider, Cline— podía cambiar de proveedor con dos líneas: base_url y api_key.

Con V4, la estrategia se amplía. Ahora el desarrollador que vive en el ecosistema de Anthropic —por ejemplo, quienes construyen agentes con el SDK de Claude, usan la API Messages o dependen de herramientas como tool_use en formato Anthropic— tiene un endpoint espejo. No hay que reescribir el prompt pipeline; se apunta el SDK de Anthropic a https://api.deepseek.com/anthropic y funciona. Es una jugada interesante: en lugar de forzar la adopción de un formato propio, DeepSeek acepta que los dos grandes ecosistemas de SDKs (OpenAI y Anthropic) ya ganaron la guerra de la interfaz, y se posiciona como una capa intercambiable debajo.

💭 Clave: La decisión de no inventar un SDK propio convirtió a DeepSeek en el default fallback de muchos proyectos open source que buscan bajar costo sin reescribir código.

Datos y cifras clave

Los puntos duros del anuncio, antes de entrar al código, son los siguientes:

  • 2 modelos activos: deepseek-v4-flash y deepseek-v4-pro, reemplazando la línea de 4 modelos previos.
  • 2 endpoints compatibles: formato OpenAI en /chat/completions y formato Anthropic en /anthropic.
  • 1 parámetro nuevo: reasoning_effort con valores tipo low, medium, high, que modula cuánto “piensa” el modelo antes de responder.
  • 1 bloque de configuración: thinking: {type: "enabled"} para activar el modo de razonamiento explícito.
  • 90 días aproximadamente de ventana de migración desde el anuncio hasta el sunset del 24 de julio de 2026.
  • 0 cambios de base URL para clientes OpenAI-compatibles, lo que hace la migración trivial en la mayoría de los casos.

Primera llamada a la API de DeepSeek V4

Lo primero, obviamente, es conseguir un API key. Se genera en el panel de platform.deepseek.com y se guarda como variable de entorno. Nunca en el código. Nunca en el repo. Ya tuvimos suficientes leaks de tokens en GitHub este año.

Windows, macOS y Linux: exportar la variable

Para que los ejemplos funcionen en cualquier sistema operativo, conviene exportar la clave en la sesión actual. Los tres comandos equivalentes:

# Linux y macOS (bash / zsh)
export DEEPSEEK_API_KEY="sk-xxxxxxxxxxxx"

# Windows PowerShell
$env:DEEPSEEK_API_KEY="sk-xxxxxxxxxxxx"

# Windows CMD
set DEEPSEEK_API_KEY=sk-xxxxxxxxxxxx

cURL: el ejemplo mínimo

Si querés probar sin instalar nada, cURL alcanza. Este ejemplo hace una llamada no-streaming a deepseek-v4-pro con modo thinking activado y esfuerzo alto de razonamiento:

curl https://api.deepseek.com/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -d '{
    "model": "deepseek-v4-pro",
    "messages": [
      {"role": "system", "content": "Eres un asistente tecnico en espanol."},
      {"role": "user", "content": "Explica en una linea que es un transformer."}
    ],
    "thinking": {"type": "enabled"},
    "reasoning_effort": "high",
    "stream": false
  }'

Python con el SDK de OpenAI

Instalamos el SDK oficial de OpenAI con pip3 install openai y apuntamos la base_url. De esa forma reutilizamos todo lo que ya tenemos escrito contra GPT-4:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["DEEPSEEK_API_KEY"],
    base_url="https://api.deepseek.com",
)

respuesta = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "Eres un asistente tecnico en espanol."},
        {"role": "user", "content": "Resume en tres puntos que es RAG."},
    ],
    stream=False,
    reasoning_effort="medium",
    extra_body={"thinking": {"type": "enabled"}},
)

print(respuesta.choices[0].message.content)

Dos detalles a notar: reasoning_effort va como argumento de primer nivel porque el SDK de OpenAI ya lo soporta para modelos tipo o-series, y thinking viaja dentro de extra_body porque es una extensión propia de DeepSeek que el SDK de OpenAI no conoce. Este patrón —campos oficiales al tope, extensiones en extra_body— es el que DeepSeek usa para mantenerse compatible sin romper el contrato del SDK original.

Node.js: mismo SDK, menos líneas

En JavaScript/TypeScript la historia es idéntica. Se instala npm install openai y se configura el cliente:

import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "https://api.deepseek.com",
  apiKey: process.env.DEEPSEEK_API_KEY,
});

const completion = await client.chat.completions.create({
  model: "deepseek-v4-pro",
  messages: [
    { role: "system", content: "Eres un asistente tecnico en espanol." },
    { role: "user", content: "Dame un ejemplo de function calling." },
  ],
  thinking: { type: "enabled" },
  reasoning_effort: "high",
  stream: false,
});

console.log(completion.choices[0].message.content);

SDK de Anthropic apuntando a DeepSeek

Para quien usa el cliente de Anthropic, el cambio es igual de mínimo: apuntar a https://api.deepseek.com/anthropic y dejar el resto intacto. La API Messages, el streaming con events y los bloques de tool_use se comportan igual.

import os
import anthropic

client = anthropic.Anthropic(
    api_key=os.environ["DEEPSEEK_API_KEY"],
    base_url="https://api.deepseek.com/anthropic",
)

mensaje = client.messages.create(
    model="deepseek-v4-pro",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hola, resume que es un agente."}],
)

print(mensaje.content[0].text)

El modo thinking y reasoning_effort, explicado

La gran novedad conceptual de DeepSeek V4 es que el razonamiento deja de ser un modelo aparte para convertirse en un modo. El mismo deepseek-v4-flash o deepseek-v4-pro puede responder rápido o detenerse a pensar, según dos perillas:

  • thinking.type: con valor "enabled", el modelo produce una cadena de pensamiento interna antes de dar la respuesta final. Con "disabled" (o sin el bloque), responde directamente. El thinking no siempre es visible para el cliente, pero ocupa tokens del contexto y cuesta.
  • reasoning_effort: regula cuánto tiempo y cuántos tokens gasta el modo thinking. Valores típicos: low (rápido, barato, respuestas cortas de razonamiento), medium (balance), high (razonamiento profundo, ideal para código complejo, matemáticas o análisis multi-paso).

El flujo interno que implementa la API se parece a esto:

flowchart LR
    A["Request"] --> B{"thinking enabled?"}
    B -- "no" --> C["Respuesta directa"]
    B -- "si" --> D["Razonamiento interno"]
    D --> E{"reasoning_effort"}
    E -- "low" --> F["Pocos tokens"]
    E -- "medium" --> G["Tokens medios"]
    E -- "high" --> H["Muchos tokens"]
    F --> I["Respuesta final"]
    G --> I
    H --> I
    C --> I
⚠️ Ojo: activar thinking con reasoning_effort: high puede multiplicar el consumo de tokens por 3 o 4 veces respecto al modo directo. Reservarlo para tareas donde realmente haga falta: código complejo, razonamiento matemático, análisis con múltiples pasos.
Diagrama conceptual del modo thinking de DeepSeek V4 con reasoning_effort
El mismo modelo, dos modos: respuesta directa o razonamiento explícito.

Deprecación de deepseek-chat y deepseek-reasoner

La nota al pie del anuncio es importante: deepseek-chat y deepseek-reasoner dejan de existir el 24 de julio de 2026. Mientras tanto, DeepSeek mapea ambos alias al nuevo modelo deepseek-v4-flash: deepseek-chat corresponde al modo no-thinking y deepseek-reasoner al modo thinking. Para la mayoría de los proyectos, eso significa que si no se toca nada, la aplicación sigue funcionando hasta la fecha de corte.

Pero hay tres razones para migrar ya:

  1. Control fino: solo con el nombre nuevo (deepseek-v4-flash o deepseek-v4-pro) se accede al parámetro reasoning_effort. Los alias viejos quedan fijos en un esfuerzo por defecto.
  2. Consistencia de costos: los precios publicados corresponden a los modelos nuevos; los alias se facturan como tales, pero la tabla pública lista los precios de V4.
  3. Reducción de deuda técnica: tener una base de código con nombres deprecated genera deuda silenciosa. Buscar y reemplazar hoy cuesta minutos; hacerlo bajo presión de un breaking change cuesta horas.

Impacto y análisis para desarrolladores LATAM

Para quienes construyen productos con IA desde Buenos Aires, Ciudad de México, Lima o San Salvador, la llegada de DeepSeek V4 tiene tres efectos prácticos. El primero es económico: DeepSeek históricamente se mantuvo entre 5 y 10 veces más barato que los modelos frontera de OpenAI y Anthropic. Mantener esa curva con V4 abre la puerta a experimentos que antes no cerraban el unit economics: agentes de atención en español que corren 24/7, pipelines de análisis de documentos jurídicos o médicos, o generación masiva de contenido con revisión humana.

El segundo efecto es arquitectónico. Al tener un solo modelo con dos modos, desaparece la necesidad de enrutar entre “modelo rápido” y “modelo razonador” según la tarea. El mismo endpoint resuelve ambos casos; la aplicación solo cambia el valor de reasoning_effort. Eso simplifica el routing layer de cualquier sistema multi-modelo y reduce la superficie de bugs.

El tercer efecto es geopolítico, aunque técnico en la práctica. Tener un proveedor de LLMs que no depende del stack estadounidense es un seguro para cualquier equipo que venda a clientes europeos, latinoamericanos o asiáticos donde la conversación sobre compliance, soberanía de datos o aranceles puede cambiar en meses. No reemplaza a los proveedores principales, pero los vuelve intercambiables, que es justamente lo que buscaba la estrategia de compatibilidad de DeepSeek desde el primer día.

💡 Tip: si ya tenés una aplicación contra OpenAI, probá DeepSeek V4 como fallback detrás de una capa de enrutamiento. En muchos casos el costo baja 5-8x sin pérdida perceptible de calidad en tareas de español.

Qué sigue

La hoja de ruta implícita en el anuncio sugiere tres movimientos próximos. Primero, afinar el tool use nativo en ambos endpoints (OpenAI y Anthropic) para que los agentes no tengan que traducir formatos. Segundo, agregar modalidades: DeepSeek ya tiene investigación pública en visión y generación de código, y V4 parece la plataforma natural para consolidar esas capacidades bajo el mismo nombre. Tercero, oficializar streaming del thinking para que clientes como Claude Code, Cursor o los IDEs emergentes puedan mostrar el razonamiento en tiempo real, tal como ya lo hacen con los modelos o-series de OpenAI y los extended thinking de Anthropic.

Mientras tanto, la recomendación operativa es simple: migrar los nombres de modelo, actualizar la configuración del SDK, medir latencia y costo en un ambiente de staging y plantar bandera antes del 24 de julio. Tres meses se pasan volando cuando hay que coordinar un release en producción.

📖 Resumen en Telegram: Ver resumen

Preguntas frecuentes

¿DeepSeek V4 es compatible con todo mi código de OpenAI?

Sí. La base URL https://api.deepseek.com acepta el formato chat/completions de OpenAI sin cambios. Basta con cambiar base_url y api_key en el cliente. Los parámetros nuevos como thinking viajan en extra_body.

¿Cuál es la diferencia entre deepseek-v4-flash y deepseek-v4-pro?

Flash está optimizado para latencia baja y costo reducido, ideal para chat, clasificación y tareas simples. Pro es la variante de alta capacidad, recomendada para razonamiento complejo, código multi-archivo y análisis profundo de documentos.

¿Qué pasa con mi aplicación si no migro antes del 24 de julio de 2026?

Los modelos deepseek-chat y deepseek-reasoner dejarán de estar disponibles. Las llamadas con esos nombres devolverán error. La migración consiste en cambiar el campo model por deepseek-v4-flash o deepseek-v4-pro.

¿El modo thinking se cobra aparte?

No se cobra como producto aparte, pero los tokens de razonamiento interno cuentan en el consumo total. Con reasoning_effort: high el gasto puede multiplicarse varias veces respecto al modo directo. Conviene medir antes de activarlo por defecto en producción.

¿Puedo usar el SDK oficial de Anthropic contra DeepSeek?

Sí. Configurando base_url en https://api.deepseek.com/anthropic y la API key de DeepSeek, el SDK oficial de Anthropic funciona sin modificaciones en la API Messages. Ideal para quien ya tiene código escrito contra Claude y quiere un proveedor alternativo.

¿Cómo activo el streaming de respuestas?

Se pasa stream: true en la llamada. El comportamiento es idéntico al de OpenAI: se reciben chunks tipo server-sent events que se van concatenando. Es la opción recomendada para interfaces de chat y cualquier caso donde la latencia percibida importe.

Referencias

📱 ¿Te gusta este contenido? Únete a nuestro canal de Telegram @programacion donde publicamos a diario lo más relevante de tecnología, IA y desarrollo. Resúmenes rápidos, contenido fresco todos los días.

Categorías: Noticias Tech

Andrés Morales

Desarrollador e investigador en inteligencia artificial. Escribe sobre modelos de lenguaje, frameworks, herramientas para devs y lanzamientos open source. Cubre papers de ML, ecosistema de startups tech y tendencias de programación.

0 Comentarios

Deja un comentario

Marcador de posición del avatar

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.