⏱️ Lectura: 13 min

Un equipo del MIT publicó GenCAD, un modelo generativo que produce diseños CAD paramétricos a partir de una sola imagen renderizada. A diferencia de los enfoques que devuelven mallas, voxels o nubes de puntos, GenCAD entrega el historial completo de comandos —sketches, extrusiones, fillets— que cualquier ingeniero puede abrir, medir y editar en su software de diseño habitual.

📑 En este artículo
  1. TL;DR
  2. Qué presentaron Alam y Ahmed
  3. Por qué mallas y voxels no alcanzan en ingeniería
  4. Arquitectura: cuatro piezas conectadas
  5. Capacidades demostradas en el paper
  6. Datos, dataset y disponibilidad
  7. Implicaciones para LATAM y la industria
  8. Limitaciones reconocidas y trabajo futuro
  9. Qué sigue en image-to-CAD
  10. Preguntas frecuentes
    1. ¿GenCAD reemplaza a SolidWorks o Fusion 360?
    2. ¿Puedo descargar el modelo y usarlo localmente?
    3. ¿Funciona con cualquier tipo de imagen?
    4. ¿Cuánto cómputo necesito para reentrenar?
    5. ¿Sirve para piezas mecánicas complejas como assemblies?
    6. ¿Cómo se compara con DeepCAD?
  11. Referencias

La diferencia parece sutil pero cambia el resultado de raíz: en lugar de un STL congelado, recibís un programa CAD real, listo para iterar en SolidWorks, Onshape o FreeCAD.

TL;DR

  • GenCAD es un modelo del MIT que genera secuencias de comandos CAD paramétricos desde una imagen, no mallas ni voxels estáticos.
  • Los autores son Md Ferdous Alam y Faez Ahmed, MIT (arXiv 2409.16294, 2025).
  • Arquitectura: encoder transformer autorregresivo, aprendizaje contrastivo imagen-CAD, modelo de difusión latente y decoder a comandos.
  • El output no es un STL: es el historial CAD editable que un ingeniero puede modificar en SolidWorks o FreeCAD.
  • Demuestra recuperación condicional por imagen sobre ~7000 programas CAD y genera múltiples variantes para la misma entrada.
  • Código, pesos, datos y demo interactiva publicados en gencad.github.io.

Qué presentaron Alam y Ahmed

La investigación, firmada por Md Ferdous Alam y Faez Ahmed del MIT, se publicó en arXiv bajo el identificador 2409.16294 y propone una manera distinta de atacar un problema viejo: cómo conseguir que una IA genere objetos 3D realmente usables en ingeniería.

GenCAD parte de una observación sencilla. La mayoría de los modelos generativos 3D actuales —desde NeRFs hasta variantes 3D de Stable Diffusion— producen representaciones que se ven bien pero pierden la estructura paramétrica del diseño. Un ingeniero que recibe una malla no puede cambiar fácilmente el diámetro de un agujero, mover la posición de un slot o reajustar el espesor de una pared. Para eso necesita el árbol de operaciones —la secuencia de instrucciones que llevó a la geometría— y eso es exactamente lo que GenCAD intenta reconstruir.

Los autores entrenan el modelo sobre un dataset de programas CAD, no de geometrías estáticas. Cada ejemplo de entrenamiento es una secuencia de tokens que describe operaciones de modelado: crea un sketch en este plano, dibuja este círculo, extruye 10 mm en esta dirección, aplica un fillet de radio 2 en esta arista. Esa representación, cercana a lo que internamente manejan kernels como Parasolid u OpenCASCADE, es la que el modelo aprende a generar.

Modelo CAD paramétrico con sketch y operación de extrusión
El output de GenCAD no es una malla cerrada: es un programa CAD ejecutable.

Por qué mallas y voxels no alcanzan en ingeniería

Para entender la propuesta hay que detenerse un momento en cómo se representan los modelos 3D en la práctica.

Una malla triangulada es ideal para renderizar en pantalla o imprimir en 3D, pero para diseño mecánico es un callejón sin salida. No tenés noción de cara, arista o vértice paramétrico —solo triángulos—. Si tu pieza necesita un cambio, tenés que rehacer el modelo desde cero o usar herramientas de reverse engineering que reconstruyen B-reps aproximadas a partir de la geometría existente.

Los voxels y point clouds tienen problemas similares. Son discretizaciones del espacio que sirven para clasificación, segmentación o visualización, pero no para manufactura. Una broca CNC no entiende “este voxel está adentro, este afuera”: necesita superficies, trayectorias y tolerancias.

El estándar real en ingeniería es la B-rep (boundary representation), donde el modelo se describe como un grafo de superficies, aristas y vértices con relaciones topológicas precisas. Una B-rep, a su vez, suele ser el resultado de ejecutar un programa CAD: una secuencia de operaciones que un kernel geométrico evalúa para producirla. Si tenés el programa, tenés la libertad total de editar; si solo tenés la B-rep, ya perdiste el rastro de cómo se construyó.

GenCAD apunta directamente al primer eslabón de esa cadena: generar el programa CAD.

Arquitectura: cuatro piezas conectadas

GenCAD se compone de cuatro módulos entrenados de forma coordinada. Cada uno resuelve una parte distinta del problema.

graph LR
    A[Imagen entrada] --> B[Image encoder]
    B --> C["Espacio latente compartido"]
    C --> D[Difusion latente]
    D --> E[Decoder CAD]
    E --> F[Programa CAD]
    F --> G[Kernel geometrico]

El primer módulo es un transformer autorregresivo que aprende a comprimir secuencias de comandos CAD en un espacio latente continuo. Es el equivalente a un autoencoder de texto: dado un programa CAD escrito como tokens, produce un vector latente que captura su estructura geométrica.

El segundo módulo es un modelo contrastivo al estilo CLIP. Entrena dos encoders en paralelo —uno para imágenes renderizadas del modelo CAD, otro reutilizando el latente del módulo anterior— y los empuja a vivir en un espacio compartido. Si la imagen y el programa CAD describen el mismo objeto, sus vectores latentes deben quedar cerca; si describen objetos distintos, lejos. Esta alineación es lo que después permite condicionar la generación con una imagen.

El tercer módulo es un modelo de difusión latente. En vez de hacer denoise sobre píxeles o sobre los tokens del programa CAD directamente, el modelo aprende a denoise sobre el espacio latente continuo del primer módulo, condicionado en el embedding de la imagen. Es la misma idea que detrás de Stable Diffusion: difundir en un latente compacto es órdenes de magnitud más barato que difundir en el espacio nativo de tokens.

El cuarto módulo es un decoder que toma el latente producido por la difusión y lo expande de vuelta a una secuencia de comandos CAD ejecutables. Esos comandos pasan a un kernel geométrico que los evalúa y devuelve la B-rep final.

💭 Clave: GenCAD no genera geometría directamente. Genera el programa que produce la geometría. Eso es lo que lo distingue de cualquier modelo image-to-3D anterior.

Capacidades demostradas en el paper

Los autores documentan tres comportamientos del modelo, todos visibles en la demo interactiva del sitio del proyecto.

El primero es la generación condicional por imagen. Le mostrás una foto o un render y el modelo produce un programa CAD que reconstruye un objeto similar. No es una copia perfecta —la difusión introduce variabilidad—, pero captura la estructura paramétrica esperada y produce una B-rep funcional al ejecutarse en el kernel.

El segundo es la diversidad de muestras. Para una misma imagen de entrada, GenCAD puede generar varias propuestas distintas. Esto es útil en exploración de diseño: como ingeniero, podés pedir cinco variantes de una pieza y elegir la que mejor se ajusta a tus restricciones de manufactura o de estética.

El tercero es la recuperación condicional por imagen. Sobre una colección de aproximadamente 7000 programas CAD, GenCAD puede devolver los tres más similares a una imagen dada, comparando embeddings en el espacio contrastivo. Esto convierte al modelo en una herramienta de búsqueda visual sobre bibliotecas de partes existentes, no solo en un generador.

Pieza CAD paramétrica con operaciones de extrusión y fillet
Recuperación visual: una imagen entra, sale el top-3 de programas CAD parecidos.

Datos, dataset y disponibilidad

El paper se entrena sobre un dataset público de programas CAD, derivado de fuentes como DeepCAD —un corpus de aproximadamente 178000 modelos CAD parametrizados publicado en 2021—. El sitio oficial del proyecto (gencad.github.io) ofrece código, pesos y los datos necesarios para reproducir los resultados.

La cifra de 7000 programas en el ejemplo de retrieval no es el dataset de entrenamiento completo, sino la colección sobre la que demuestran la búsqueda visual. El entrenamiento real usa el conjunto completo de DeepCAD más augmentaciones de renderizado para que el modelo aprenda invariancia a iluminación, ángulo de cámara y materiales.

Sobre cómputo, los autores no publican costos explícitos en el sitio público, pero la arquitectura es comparable en escala a un Stable Diffusion latente de tamaño medio. Un equipo con acceso a unas pocas GPUs A100 debería poder reentrenar o hacer fine-tuning sobre un dataset propio en cuestión de días, no semanas.

💡 Tip: Si querés probar el modelo sin entrenar nada, el repo incluye pesos preentrenados y una demo interactiva. Sirve para validar si tu caso de uso entra en el dominio antes de invertir en fine-tuning.

Implicaciones para LATAM y la industria

Para la región, el impacto inmediato no está en reemplazar a los diseñadores —no lo hace, ni busca hacerlo—. Está en acortar el ciclo de iteración entre una idea visual y un modelo CAD editable.

Pensá en un escenario típico: una emprendedora en Buenos Aires diseña una pieza para un producto físico. Hoy, contrata a un freelancer para que modele en SolidWorks a partir de bocetos o fotos. Con un modelo como GenCAD, podría obtener una primera versión paramétrica en minutos y pasar directamente a la etapa de revisión y ajuste fino. El freelancer no desaparece, pero su trabajo se mueve hacia validación y refinamiento, no hacia el modelado desde cero.

Otro caso: bibliotecas de partes en empresas medianas. Una fábrica con miles de planos legacy en PDF o imágenes podría usar el componente de retrieval de GenCAD para encontrar el modelo CAD equivalente más cercano y ahorrarse rehacer trabajo. Es el tipo de gestión de conocimiento técnico donde herramientas como esta dan más valor que las demos virales en redes sociales.

Para universidades y laboratorios de la región, el hecho de que el código sea abierto significa que se puede usar para enseñar, replicar y extender. Ese tipo de acceso es lo que cierra la brecha de investigación entre LATAM y los grandes hubs globales, y es donde un grupo de tesistas con dos GPUs puede aportar algo serio sin licencias millonarias de por medio.

Limitaciones reconocidas y trabajo futuro

GenCAD no es perfecto, y los autores son explícitos en señalarlo.

El primer límite es el vocabulario de comandos. El modelo aprende un subconjunto fijo de operaciones CAD —sketches 2D, extrusiones, fillets básicos—. Operaciones más complejas como lofts, sweeps multi-perfil, surfacing avanzado o ensambles con restricciones quedan por fuera del entrenamiento actual. Para piezas mecánicas simples funciona, pero un assembly de cinco partes con tolerancias y mates queda fuera de alcance.

El segundo límite es la fidelidad geométrica. Como cualquier modelo generativo, GenCAD puede producir resultados que se parecen pero no son exactos. Si necesitás replicar una pieza con tolerancia de 0.01 mm a partir de una foto, esto no es la herramienta. Es un punto de partida, no un sistema de metrología.

El tercer límite es la escala y el sesgo del dataset. DeepCAD es grande pero está sesgado hacia ciertos tipos de piezas mecánicas y de hardware de consumo. Si tu dominio es médico, aeroespacial o de construcción, el modelo va a fallar fuera de distribución y necesitarás reentrenar con datos propios.

El trabajo futuro que los autores mencionan incluye expandir el vocabulario de comandos, mejorar la precisión geométrica y entrenar sobre datasets más diversos para ampliar el dominio de uso.

⚠️ Ojo: No uses GenCAD como sistema de medición ni para piezas críticas sin validación humana. Es un asistente de modelado, no un certificador de tolerancias para manufactura.

Qué sigue en image-to-CAD

El campo del image-to-CAD está acelerando. GenCAD se suma a otros esfuerzos como DeepCAD, Free2CAD y CADTalk, todos apuntando al mismo objetivo: cerrar el loop entre intent visual e ingeniería paramétrica.

A corto plazo, esperá ver dos cosas. Primero, integraciones con software CAD comercial. Autodesk, PTC y Dassault Systèmes ya tienen equipos de investigación trabajando en exactamente este problema; herramientas como Fusion 360 podrían incorporar features de “boceto a CAD” basadas en arquitecturas similares en uno o dos años. Segundo, modelos más grandes entrenados con más comandos y más tipos de geometría. Lo que ChatGPT hizo con texto, alguien lo va a hacer con CAD: un modelo que entiende intent en lenguaje natural y genera ensambles completos a partir de una descripción.

GenCAD, por ahora, es un research artifact —no un producto comercial—. Pero marca el estado del arte y deja una arquitectura reproducible para que el resto de la comunidad construya sobre ella. Para quien trabaje en CAD, manufactura aditiva o tooling de diseño, vale la pena leer el paper completo y tener el repo en el radar.

📖 Resumen en Telegram: Ver resumen

Preguntas frecuentes

¿GenCAD reemplaza a SolidWorks o Fusion 360?

No. GenCAD genera código CAD que esos programas pueden abrir y editar. Es un asistente de modelado, no un reemplazo del entorno de diseño profesional.

¿Puedo descargar el modelo y usarlo localmente?

Sí. El código, los pesos y los datos están disponibles en el repositorio oficial del proyecto en gencad.github.io. La licencia exacta y los términos de uso están publicados en el repo.

¿Funciona con cualquier tipo de imagen?

Está entrenado con renders sintéticos de modelos CAD del dataset DeepCAD. Fotografías reales de objetos pueden funcionar parcialmente, pero el modelo está sesgado hacia el tipo de geometría que vio en entrenamiento, así que los resultados varían según el dominio.

¿Cuánto cómputo necesito para reentrenar?

Los autores no publican benchmarks oficiales de costos, pero por escala arquitectónica una réplica completa probablemente requiere días de entrenamiento en al menos cuatro GPUs A100. Para fine-tuning sobre un dataset propio el costo es bastante menor.

¿Sirve para piezas mecánicas complejas como assemblies?

Por ahora no. El modelo trabaja con partes individuales y un subconjunto limitado de comandos CAD. Assemblies con mates, restricciones y cinemática quedan fuera del alcance actual.

¿Cómo se compara con DeepCAD?

DeepCAD (2021) introdujo el dataset y un autoencoder de comandos CAD; GenCAD reutiliza esa base y agrega condicionamiento por imagen vía contrastive learning más latent diffusion. Es una capa adicional sobre DeepCAD, no un reemplazo.

Referencias

📱 ¿Te gusta este contenido? Únete a nuestro canal de Telegram @programacion donde publicamos a diario lo más relevante de tecnología, IA y desarrollo. Resúmenes rápidos, contenido fresco todos los días.

Categorías: Noticias Tech

Andrés Morales

Desarrollador e investigador en inteligencia artificial. Escribe sobre modelos de lenguaje, frameworks, herramientas para devs y lanzamientos open source. Cubre papers de ML, ecosistema de startups tech y tendencias de programación.

0 Comentarios

Deja un comentario

Marcador de posición del avatar

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.