Memoria HBM: 63% del costo total de los chips de IA

Q: ¿Cómo puede una empresa pequeña en LATAM optimizar costos frente a esto?

La palanca principal es la eficiencia de uso de memoria: técnicas como cuantización (FP8, INT8, INT4), KV cache compression, batching dinámico, y elegir modelos del tamaño justo en lugar del más grande disponible. Cada GB de HBM que no usás es dinero que no pagás.

⏱️ Lectura: 13 min

La economía de los chips de IA se está reescribiendo, y el protagonista no es el cómputo: es la memoria HBM. Según un análisis publicado por Epoch AI, la memoria de alto ancho de banda ya representa el 63% del costo total de los componentes de un chip de IA promedio, frente al 52% que tenía a principios de 2024. En menos de dos años, el centro de gravedad económico de la industria se desplazó de la lógica al almacenamiento.

📑 En este artículo

TL;DR
Qué pasó: el reporte de Epoch AI
Contexto e historia: cómo llegamos hasta acá
Datos y cifras: el desglose trimestre por trimestre
Impacto y análisis: lo que esto significa para los hyperscalers
Qué sigue: 2026 y el escenario de oferta ajustada
Preguntas frecuentes
Referencias

El cambio explica buena parte de la presión de capex que los hyperscalers están anunciando para 2026 y redefine qué empresas controlan realmente la cadena de suministro de la inteligencia artificial.

TL;DR

HBM pasó del 52% al 63% del costo de componentes en chips de IA entre Q1 2024 y Q4 2025, según Epoch AI.
El gasto en HBM creció de US$12 mil millones (2024) a US$32 mil millones (2025) entre Nvidia, AMD, Google y Amazon.
El packaging avanzado (CoWoS) cayó del 19% al 15%, y los componentes auxiliares del 15% al 9%.
Los dies lógicos se mantuvieron estables en ~13% del costo total a pesar del salto a procesos de 3-5nm.
Microsoft proyecta US$25 mil millones extra en su capex FY2026 solo por precios más altos de componentes.
Meta subió su rango de capex 2026 en US$10 mil millones, citando la misma presión de precios.
El gasto total en componentes de chips de IA creció de US$22B (2024) a US$52B (2025), más del doble en un año.
Epoch AI anticipa que la cuota de HBM seguirá creciendo en 2026 con la oferta de memoria aún ajustada.

Qué pasó: el reporte de Epoch AI

El 21 de mayo de 2026, Epoch AI publicó un análisis dentro de su AI Chip Components explorer, una base de datos que reconstruye los costos por chip a partir de presentaciones financieras de proveedores, reportes de analistas y disclosures regulatorios. El estudio, firmado por Venkat Somala, rastrea cuatro categorías de componentes a lo largo de ocho trimestres consecutivos: memoria HBM, dies lógicos, packaging avanzado (CoWoS de TSMC) y componentes auxiliares como substrato, entrega de potencia y otros insumos no lógicos.

El hallazgo principal es contundente: la memoria HBM ya no es uno más de los componentes del chip, es el componente. Pasó de representar 52% del costo total en el primer trimestre de 2024 a 63% en el último trimestre de 2025. En términos absolutos, el gasto en HBM entre los cuatro grandes diseñadores (Nvidia, AMD, Google y Amazon) saltó de unos US$12 mil millones en 2024 a aproximadamente US$32 mil millones en 2025, un incremento interanual mayor que el de cualquier otra categoría.

Lo interesante no es solo el cambio de cuota, sino lo que pasó con el resto. El packaging avanzado, que en 2024 parecía ser el cuello de botella de la industria, bajó del 19% al 15%. Los componentes auxiliares cayeron del 15% al 9%. Y los dies lógicos —el silicio donde vive el cómputo propiamente dicho— se mantuvieron prácticamente planos cerca del 13%, a pesar de que la industria migró masivamente de nodos de 5nm a 3nm en ese período.

Contexto e historia: cómo llegamos hasta acá

Para entender por qué la HBM se comió tanto del presupuesto de un chip de IA, hay que repasar qué es y por qué importa. La memoria HBM (High Bandwidth Memory) es una arquitectura de memoria DRAM apilada verticalmente que se conecta al die lógico a través de un interposer de silicio. A diferencia de la DDR tradicional, que se monta en la placa madre y se comunica vía un bus serie, la HBM vive a milímetros del procesador y se conecta con miles de pines en paralelo.

Esto le da dos ventajas brutales para cargas de IA: ancho de banda (un solo stack de HBM3e supera el terabyte por segundo) y densidad (hasta 36 GB por stack, con configuraciones de 6 a 8 stacks por chip). Cuando se entrena o se sirve un modelo grande, el bottleneck rara vez es la velocidad de cálculo de los tensor cores: es cuánto rápido se pueden mover los pesos y activaciones desde la memoria hasta las unidades de cómputo. Mejor memoria significa más utilización del silicio caro.

Cadena de suministro de un chip de IA: SK Hynix produce HBM, TSMC ensambla con CoWoS, Nvidia y otros venden a hyperscalers — La cadena de suministro de un chip de IA moderno tiene tres cuellos de botella distintos.

El problema es que producir HBM es difícil. Solo tres empresas en el mundo lo hacen a escala: SK Hynix (líder absoluto), Samsung y Micron. El proceso requiere apilamiento TSV (through-silicon vias), bonding híbrido y testing por capas. Los rendimientos históricamente fueron menores que los de la DRAM convencional, y la capacidad instalada estuvo durante años calibrada para un mercado de servidores HPC mucho más chico que el actual.

Cuando Nvidia, Google y AMD aumentaron sus pedidos para 2024 y 2025, la oferta no pudo seguir el ritmo. SK Hynix vendió toda su producción de HBM3e hasta 2026 en contratos anticipados. Los precios subieron, y el componente que en 2023 era apenas una pieza más del rompecabezas se convirtió en la línea más cara del bill of materials.

Mientras tanto, TSMC alivió la presión sobre su packaging CoWoS: invirtió fuerte en capacidad nueva en Taiwán y empezó a calificar fábricas en Japón y Arizona. La oferta de packaging creció más rápido que la demanda, lo que explica la caída relativa de su cuota de costo del 19% al 15%, aunque en absoluto el gasto siguió subiendo.

Datos y cifras: el desglose trimestre por trimestre

El estudio de Epoch AI presenta intervalos de confianza del 90% para cada estimación, reconociendo que los costos exactos varían por contrato y por proveedor. Aun así, los rangos son lo suficientemente estrechos como para confirmar la tendencia.

Para el primer trimestre de 2024, los rangos fueron:

Memoria HBM: 52% (rango: 48-56% si solo varía HBM, 42-62% si todos los componentes oscilan en extremos opuestos).
Lógica: 14% (rango: 12-17%).
Packaging CoWoS: 19% (rango: 14-24%).
Auxiliares: 15% (rango: 13-18%).

Para el cuarto trimestre de 2025:

Memoria HBM: 63% (rango: 60-67% si solo varía HBM, 54-73% en escenario extremo).
Lógica: 13% (rango: 10-16%).
Packaging CoWoS: 15% (rango: 11-19%).
Auxiliares: 10% (rango: 8-10%).

El gasto total acumulado en componentes pasó de aproximadamente US$22 mil millones en todo 2024 a US$52 mil millones en 2025. De ese incremento de US$30 mil millones, dos tercios (US$20B) corresponden directamente a HBM. Es decir, prácticamente todo el crecimiento del mercado de componentes para IA en 2025 fue absorbido por una sola categoría.

💭 Clave: Si en 2023 un ingeniero de Nvidia te decía que el costo dominante de un H100 era el die lógico de 4nm, hoy esa intuición es errónea. En un B200 actual, por cada dólar gastado en silicio TSMC, se gastan casi cinco en pilas de memoria SK Hynix.

Impacto y análisis: lo que esto significa para los hyperscalers

El cambio de estructura de costos ya se está sintiendo en los presupuestos de capital de las big tech. Microsoft anunció una guía de capex para el año fiscal 2026 de aproximadamente US$190 mil millones, de los cuales atribuye unos US$25 mil millones directamente al aumento de precios de componentes. Meta, por su parte, elevó su rango de capex para 2026 en US$10 mil millones citando el mismo motivo.

Esto representa un cambio cualitativo en cómo se modela el costo de la IA. Hasta hace dos años, los analistas proyectaban el gasto en GPUs principalmente como una función de TSMC: cuántos wafers de 3nm podía producir, a qué precio. Hoy el modelo necesita una segunda variable igual de importante: cuántos stacks de HBM3e puede entregar SK Hynix, y cuánto cuesta cada uno.

Gráfico de barras mostrando la evolución del costo de HBM en chips de IA entre 2024 y 2025 — El gasto en HBM se triplicó en un año, pasando de US$12B a US$32B.

Visualizando la cadena de valor, el desplazamiento se ve claro:

graph LR
    A["SK Hynix / Samsung / Micron"] -->|"HBM3e stacks"| B["TSMC CoWoS"]
    C["TSMC N3 / N5"] -->|"Logic die"| B
    B -->|"Chip ensamblado"| D["Nvidia / AMD / Google / Amazon"]
    D -->|"GPU / TPU / Trainium"| E["Microsoft / Meta / Google Cloud / AWS"]

Para los desarrolladores y empresas de LATAM que consumen capacidad de IA en la nube, este desplazamiento tiene tres consecuencias prácticas. Primero, los precios por hora de instancias GPU difícilmente bajarán de manera significativa en 2026: el costo subyacente está subiendo. Segundo, los proveedores que tengan contratos directos con SK Hynix (Nvidia, Google) van a tener ventaja estructural sobre los que dependan de spot market (startups de chips). Tercero, la eficiencia de uso de memoria en los modelos —técnicas como FlashAttention, MoE, KV cache compression— se vuelve una palanca económica real, no solo una optimización académica.

💡 Tip: Si tu pipeline de inferencia corre modelos grandes y tu factura de GPU es significativa, mirá cuánto de tu memoria está ocupada por el KV cache. Técnicas como PagedAttention (vLLM) o cuantización de KV cache a INT8 pueden duplicar tu throughput sin tocar el modelo.

Un ejemplo concreto en código de cómo medir uso de memoria en un servidor de inferencia con PyTorch:

import torch

def report_memory(stage: str) -> None:
    if not torch.cuda.is_available():
        return
    allocated = torch.cuda.memory_allocated() / 1024**3
    reserved = torch.cuda.memory_reserved() / 1024**3
    peak = torch.cuda.max_memory_allocated() / 1024**3
    print(f"[{stage}] alloc={allocated:.2f}GB reserved={reserved:.2f}GB peak={peak:.2f}GB")

report_memory("al cargar modelo")
out = model.generate(input_ids, max_new_tokens=512)
report_memory("despues de generate")

Si la diferencia entre allocated y reserved es grande, hay fragmentación; si el peak está cerca del límite del dispositivo, estás pagando por HBM que no utilizás bien.

Qué sigue: 2026 y el escenario de oferta ajustada

Epoch AI proyecta que la cuota de HBM dentro del costo total de componentes seguirá creciendo en 2026. Los motivos son tres. Primero, la oferta sigue ajustada: las tres empresas que producen HBM están en pleno ramp-up de HBM3e y empezando con HBM4, pero las nuevas fábricas no estarán operativas a escala hasta 2027. Segundo, los chips de próxima generación (Nvidia Rubin, AMD MI400, Google TPU v7) duplican la cantidad de HBM por unidad respecto a la generación actual. Tercero, los precios spot ya muestran incrementos del 15-20% año contra año en contratos firmados durante 2025.

Hay dos escenarios alternativos que podrían cambiar la trayectoria. Uno: si Samsung logra estabilizar el rendimiento de su HBM3e y empieza a competir agresivamente con SK Hynix, los precios podrían moderarse hacia fines de 2026. Dos: si las arquitecturas emergentes que reducen el uso de memoria (modelos de difusión sparse, MoE con mejor enrutamiento, técnicas de compresión de pesos en inferencia) maduran lo suficiente, la demanda incremental podría desacelerarse.

Ninguno de los dos escenarios es probable en el corto plazo. La apuesta más segura es que el componente que más vas a pagar dentro de un chip de IA durante los próximos 18 meses sigue siendo la memoria, no el cómputo.

⚠️ Ojo: Las estimaciones de Epoch AI son promedios ponderados por volumen de producción. Para chips específicos como el Nvidia B200 (con 192 GB de HBM3e), la cuota real de HBM probablemente supera el 70%. Para chips con menos memoria como los TPU v5e de Google, es más baja.

📖 Resumen en Telegram: Ver resumen

Preguntas frecuentes

¿Qué es la HBM y en qué se diferencia de la RAM normal?

HBM (High Bandwidth Memory) es una memoria DRAM apilada verticalmente que se conecta al procesador a través de un interposer de silicio, no de una placa madre. Esto le permite ofrecer ancho de banda de hasta 1.2 TB/s por stack, varios órdenes de magnitud por encima de la DDR5 tradicional. Es la memoria que usan prácticamente todas las GPUs modernas de IA.

¿Por qué subió tanto el precio de la HBM?

La oferta no creció al mismo ritmo que la demanda. Solo tres empresas (SK Hynix, Samsung, Micron) producen HBM a escala, y los procesos de apilamiento TSV tienen rendimientos más bajos que la DRAM convencional. Cuando los hyperscalers triplicaron sus pedidos en 2024-2025, los precios subieron y la capacidad quedó comprometida con contratos a futuro.

¿Esto significa que las GPUs van a ser más caras en 2026?

Probablemente sí, al menos en términos de costo de producción. Microsoft y Meta ya proyectaron miles de millones extra en capex para 2026 citando precios de componentes. Si los precios al consumidor de instancias GPU en la nube van a subir o no, depende de cuánta competencia haya entre los proveedores y cuánto margen estén dispuestos a sacrificar.

¿Qué empresas se benefician más de este cambio?

SK Hynix es la gran ganadora, con una posición dominante en HBM3e. Samsung y Micron también se benefician, aunque desde posiciones menores. Indirectamente, los diseñadores que tienen contratos a largo plazo con los proveedores de HBM (Nvidia, Google) tienen ventaja sobre startups o empresas que dependen del mercado spot.

¿Cómo puede una empresa pequeña en LATAM optimizar costos frente a esto?

La palanca principal es la eficiencia de uso de memoria: técnicas como cuantización (FP8, INT8, INT4), KV cache compression, batching dinámico, y elegir modelos del tamaño justo en lugar del más grande disponible. Cada GB de HBM que no usás es dinero que no pagás.

¿Existe alternativa a la HBM para chips de IA?

En el corto plazo no. Hay investigación en memorias alternativas (MRAM, ReRAM, PCM) pero ninguna está cerca de la densidad y el ancho de banda de la HBM. La generación siguiente, HBM4, ya está en desarrollo y promete duplicar el ancho de banda por stack, pero llegará en 2027-2028.

Referencias

Epoch AI — Memory has grown to nearly two-thirds of AI chip component costs — Análisis original de Venkat Somala con la metodología completa y los datos descargables en CSV.
Wikipedia — High Bandwidth Memory — Referencia técnica sobre la arquitectura HBM, sus generaciones y especificaciones.
Wikipedia — Chip-on-Wafer-on-Substrate (CoWoS) — Descripción del proceso de packaging avanzado de TSMC que integra HBM con los dies lógicos.

📱 ¿Te gusta este contenido? Únete a nuestro canal de Telegram @programacion donde publicamos a diario lo más relevante de tecnología, IA y desarrollo. Resúmenes rápidos, contenido fresco todos los días.

HBM ya es el 63% del costo de los chips de IA: subió desde 52% en 2024

Publicado por Andrés Morales en 24 mayo, 2026

TL;DR

Qué pasó: el reporte de Epoch AI

Contexto e historia: cómo llegamos hasta acá

Datos y cifras: el desglose trimestre por trimestre

Impacto y análisis: lo que esto significa para los hyperscalers

Qué sigue: 2026 y el escenario de oferta ajustada

Preguntas frecuentes

¿Qué es la HBM y en qué se diferencia de la RAM normal?

¿Por qué subió tanto el precio de la HBM?

¿Esto significa que las GPUs van a ser más caras en 2026?

¿Qué empresas se benefician más de este cambio?

¿Cómo puede una empresa pequeña en LATAM optimizar costos frente a esto?

¿Existe alternativa a la HBM para chips de IA?

Referencias

Andrés Morales

0 Comentarios

Deja un comentario Cancelar respuesta

Inteligencia Artificial

PrismML lanza Bonsai 27B, el primer modelo de 27B que corre en un celular

Inteligencia Artificial

380 billones de tokens de IA: así ya operan los mercados financieros

Inteligencia Artificial

Prompts ocultos engañan a revisores con IA

HBM ya es el 63% del costo de los chips de IA: subió desde 52% en 2024

Publicado por Andrés Morales en 24 mayo, 2026

TL;DR

Qué pasó: el reporte de Epoch AI

Contexto e historia: cómo llegamos hasta acá

Datos y cifras: el desglose trimestre por trimestre

Impacto y análisis: lo que esto significa para los hyperscalers

Qué sigue: 2026 y el escenario de oferta ajustada

Preguntas frecuentes

¿Qué es la HBM y en qué se diferencia de la RAM normal?

¿Por qué subió tanto el precio de la HBM?

¿Esto significa que las GPUs van a ser más caras en 2026?

¿Qué empresas se benefician más de este cambio?

¿Cómo puede una empresa pequeña en LATAM optimizar costos frente a esto?

¿Existe alternativa a la HBM para chips de IA?

Referencias

Andrés Morales

0 Comentarios

Deja un comentario Cancelar respuesta

Entradas relacionadas

Inteligencia Artificial

PrismML lanza Bonsai 27B, el primer modelo de 27B que corre en un celular

Inteligencia Artificial

380 billones de tokens de IA: así ya operan los mercados financieros

Inteligencia Artificial

Prompts ocultos engañan a revisores con IA