⏱️ Lectura: 12 min

Durante los últimos años, las redes neuronales transformaron la predicción de estructuras de proteínas. Modelos como AlphaFold3 abrieron la puerta a diseñar fármacos y anticuerpos con IA. Pero un equipo de la empresa Ligo encontró un límite incómodo: al intentar escalar sus datos de entrenamiento plegando más secuencias naturales, la diversidad de pliegues casi no creció.

📑 En este artículo
  1. TL;DR
  2. Qué pasó: Ligo chocó con un techo de datos
  3. Por qué los modelos dependen de la escala de secuencias
  4. Diversidad de secuencia no es diversidad de pliegues
  5. Cómo se agrupa el universo de proteínas
  6. Impacto y análisis: qué significa para el diseño de fármacos
  7. Qué sigue
  8. Preguntas frecuentes
    1. ¿Qué significa que los pliegues sean redundantes?
    2. ¿Por qué AlphaFold3 necesita tantas secuencias si los pliegues se repiten?
    3. ¿Qué herramientas se usan para medir la redundancia?
    4. ¿Esto frena el diseño de fármacos con IA?
    5. ¿Aplica esta lección fuera de la biología?
  9. Referencias

La razón es estructural: la naturaleza reutiliza las mismas formas una y otra vez. Hay miles de millones de secuencias, pero muy pocos pliegues tridimensionales distintos. Eso cambia cómo conviene pensar el diseño de enzimas con IA.

TL;DR

  • Ligo intentó escalar sus datos de entrenamiento plegando más secuencias naturales y la diversidad estructural casi no aumentó.
  • Una proteína de N aminoácidos tiene 20^N secuencias posibles, pero la naturaleza ocupa una fracción ínfima y muy repetida de ese espacio.
  • AlphaFold3 convierte escala de secuencias en escala de estructuras: predice los pliegues de millones de secuencias para entrenar.
  • Bases metagenómicas como MGnify aportan variantes de organismos nunca cultivados, clave para anticuerpo-antígeno donde no hay coevolución.
  • Dos proteínas pueden estar lejos en identidad de secuencia y muy cerca en el espacio de pliegues.
  • El clustering del universo proteico con mmseqs2 y Foldseek revela redundancia masiva de familias y dominios.
  • Implicación: para diseñar enzimas novedosas, plegar más datos naturales rinde poco; hace falta buscar diversidad estructural real.

Qué pasó: Ligo chocó con un techo de datos

Ligo entrena modelos generativos para diseñar enzimas, las proteínas que aceleran reacciones químicas y son la base de buena parte de la biotecnología moderna. La receta para mejorar un sistema de aprendizaje profundo es hoy casi monótona: escalar el modelo, escalar el cómputo y escalar los datos. Los grandes modelos de lenguaje mejoran exactamente así, y AlphaFold3 fue, en buena medida, ese mismo ejercicio de escala aplicado a la biología.

El movimiento clave de AlphaFold3 fue convertir escala de secuencias en escala de estructuras. La genómica y la metagenómica nos han dado miles de millones de secuencias de proteínas, muchas inferidas a partir de ADN ambiental de organismos que nunca se cultivaron en un laboratorio. Para entrenar modelos de diseño basados en estructura, sin embargo, el objeto realmente útil suele ser la estructura 3D. La predicción de estructura permite tomar millones de secuencias naturales, predecir el pliegue que adoptan y usar esos modelos como ejemplos de entrenamiento.

Cuando Ligo quiso ampliar su conjunto estructural plegando más secuencias, esperaba más datos útiles. Lo que encontró fue una sorpresa: las secuencias naturales son enormes en número, pero sus pliegues son mucho más redundantes de lo que sugiere ese conteo. Plegar más secuencias no compraba tanta diversidad estructural nueva como esperaban. Ese desajuste entre cantidad de secuencias y cantidad de formas distintas es el corazón de la historia.

Por qué los modelos dependen de la escala de secuencias

Los modelos modernos de predicción de estructura se apoyan con fuerza en los alineamientos múltiples de secuencias (MSA, por sus siglas en inglés). Un MSA alinea versiones emparentadas de una proteína provenientes de distintos organismos. Cuando dos posiciones de ese alineamiento tienden a cambiar juntas —lo que se llama coevolución— suele ser una pista de que esos residuos están cerca en el espacio 3D o ligados por la función.

El ejemplo clásico: si una posición suele estar cargada negativamente y toca a otra cargada positivamente, la evolución puede invertir ambas a la vez para no romper la interacción, evitando combinaciones que se repelan. Mi modelo mental de AlphaFold2 es que usaba esa señal coevolutiva para fijar la geometría aproximada de la proteína y luego aprendía a rellenar el resto.

AlphaFold3 parece hacer algo más amplio. Su desempeño en anticuerpo-antígeno es especialmente llamativo porque ahí no hay MSA del que extraer pistas: los anticuerpos y sus blancos no comparten historia evolutiva. Para acertar, el modelo tiene que aprender algo sobre las superficies de las proteínas mismas —qué formas, químicas y geometrías locales son compatibles entre sí—. Esa es una señal distinta de la coevolución dentro de una familia.

Aquí es donde importan los datos a escala de MGnify. Los recursos metagenómicos exponen al modelo a una cantidad enorme de variantes naturales, muchas de organismos jamás cultivados. La pista empírica es que los modelos entrenados con destilación de proteínas a escala metagenómica se separan más claramente justo en la predicción anticuerpo-antígeno, donde la coevolución directa no puede explicar la señal. Esa mayor cobertura del espacio de secuencias parece valiosa. La pregunta es si viene acompañada de una diversidad comparable de pliegues.

Alineamiento múltiple de secuencias que revela coevolución entre residuos de una proteína
La coevolución entre posiciones del MSA delata residuos cercanos en 3D.

Diversidad de secuencia no es diversidad de pliegues

El espacio teórico de secuencias es absurdamente grande: una proteína de longitud N admite 20^N secuencias de aminoácidos posibles. Para una proteína modesta de 100 residuos eso son 20^100 combinaciones, un número que supera con holgura la cantidad de átomos del universo observable. Las proteínas naturales ocupan apenas un rincón minúsculo y muy estructurado de ese espacio.

La evolución no esparce proteínas de forma uniforme por todas las secuencias y formas posibles. Tiende a reutilizar pliegues que son estables, expresables y adaptables. Por eso, aunque catalogamos cientos de miles de estructuras experimentales en el Protein Data Bank, los esquemas de clasificación estructural como SCOP y CATH agrupan toda esa riqueza en apenas unos pocos miles de pliegues distintos. La diversidad de pliegues es, en términos relativos, sorprendentemente baja.

Eso importa para los datos de entrenamiento. Cuando escalamos estructuras predichas, no necesariamente estamos sumando ejemplos independientes. Muchas veces sumamos variantes de secuencia de las mismas familias de pliegue, las mismas combinaciones de dominios y los mismos compromisos evolutivos. El problema básico se ve en un hecho concreto: dos proteínas pueden parecer muy distintas medidas por similitud de secuencia y, aun así, estar muy cerca en el espacio de pliegues.

💭 Clave: La cantidad de secuencias es un pésimo indicador de la cantidad de formas distintas. Millones de secuencias nuevas pueden colapsar en un puñado de familias de pliegue al agruparlas por estructura.

Cómo se agrupa el universo de proteínas

Para medir esa redundancia hay que agrupar (clusterizar) el universo proteico. La herramienta estándar para hacerlo por secuencia es mmseqs2, capaz de agrupar cientos de millones de secuencias en horas. La idea: colapsar todo lo que se parezca por encima de cierto umbral de identidad para no contar lo mismo muchas veces.

# Linux / macOS (conda / bioconda)
conda install -c bioconda mmseqs2

# macOS (Homebrew)
brew install mmseqs2

# Windows: usar WSL2 + conda, o el binario estatico de
# https://github.com/soedinglab/MMseqs2/releases

# Agrupar por identidad de secuencia (30%) y cobertura (80%)
mmseqs easy-cluster proteinas.fasta resultado tmp \
  --min-seq-id 0.3 -c 0.8 --cov-mode 1

El problema es que agrupar por secuencia no captura el fenómeno que nos interesa: dos proteínas con identidad de secuencia bajísima pueden compartir el mismo pliegue. Para medir redundancia estructural hay que agrupar por estructura, y ahí entra Foldseek, que indexa el pliegue 3D en un alfabeto estructural y permite buscar y clusterizar a escala de millones de estructuras.

# Instalar Foldseek
# Linux / macOS
conda install -c bioconda foldseek

# Agrupar estructuras predichas por similitud de pliegue
foldseek easy-cluster estructuras_pdb/ clusters tmp \
  --min-seq-id 0.0 -c 0.8 --tmscore-threshold 0.5

Cuando se hace este ejercicio sobre estructuras predichas a partir de secuencias metagenómicas, el patrón se repite: el número de clusters de pliegue crece muchísimo más despacio que el número de secuencias. Se añaden secuencias por millones, pero pliegues genuinamente nuevos solo de a goteo. Esa es la redundancia irracional del título original: la naturaleza es generosa con las variantes y avara con las formas.

Visualizacion de clusters de estructuras de proteinas agrupadas por similitud de pliegue
Al agrupar por estructura, millones de secuencias colapsan en pocos clusters de pliegue.

Impacto y análisis: qué significa para el diseño de fármacos

El contexto comercial es enorme. Modelos como Chai-2, Latent-X2 y Nabla ya reportan diseños de anticuerpos y biológicos desarrollables. En el futuro cercano, es plausible que la mayoría de los anticuerpos que entren a clínica se diseñen en buena parte con modelos generativos basados en aprendizaje profundo, potencialmente con mejores propiedades farmacéuticas y apuntando a receptores que resistieron los métodos clásicos de laboratorio.

El siguiente diagrama resume la receta de escala y dónde aparece el cuello de botella:

graph LR
  A["Secuencias naturales (miles de millones)"] --> B["Prediccion de estructura (AlphaFold)"]
  B --> C["Estructuras 3D predichas"]
  C --> D["Datos de entrenamiento"]
  D --> E["Redundancia: pocos pliegues unicos"]

La consecuencia práctica es directa. Si tu objetivo es entrenar un modelo que diseñe enzimas o uniones de superficie genuinamente nuevas, la estrategia de “plegar más UniProt y MGnify” rinde mucho menos de lo que el crecimiento de secuencias promete. Después de cierto punto, cada millón de secuencias adicional aporta sobre todo más copias de pliegues que el modelo ya vio.

💡 Tip: Antes de gastar cómputo plegando más secuencias, mide la curva de clusters de pliegue contra secuencias procesadas. Si la curva se aplana, estás pagando GPU por redundancia, no por diversidad.

Para los equipos de IA en LATAM que trabajan con estructuras —en bioinformática académica, agtech o salud— la lección es transferible más allá de las proteínas: el tamaño bruto de un dataset no equivale a su diversidad efectiva. Vale la pena medir la diversidad real (clusters, entropía, cobertura del espacio relevante) antes de asumir que “más datos” mejorará el modelo.

Qué sigue

Si los datos naturales saturan en diversidad de pliegues, las vías de avance se desplazan. Una es priorizar y muestrear de forma inteligente: deduplicar agresivamente por estructura y sobre-representar pliegues raros en el entrenamiento. Otra es generar diversidad estructural sintética —diseño de novo de pliegues que la naturaleza nunca exploró— y usarla como datos. Y una tercera es mejorar la señal de superficie, justo donde AlphaFold3 destaca, para aprender química de interacción sin depender de coevolución ni de pliegues nuevos.

El cierre que deja la observación de Ligo es contraintuitivo pero útil: en el problema del diseño de proteínas, el límite no es cuántas secuencias podemos leer, sino cuántas formas distintas la evolución se molestó en inventar. Romper ese techo exigirá ir más allá de lo que la naturaleza ya nos dio.

📖 Resumen en Telegram: Ver resumen

Preguntas frecuentes

¿Qué significa que los pliegues sean redundantes?

Significa que, aunque existan miles de millones de secuencias de proteínas distintas, la cantidad de formas tridimensionales (pliegues) en que se organizan es muy pequeña en comparación. La evolución reutiliza un conjunto reducido de pliegues estables, así que muchas secuencias diferentes terminan adoptando la misma forma.

¿Por qué AlphaFold3 necesita tantas secuencias si los pliegues se repiten?

Porque las secuencias aportan señal de coevolución y, sobre todo, cobertura de superficies y químicas locales, útiles incluso cuando no hay historia evolutiva compartida, como en anticuerpo-antígeno. El conteo alto de secuencias ayuda en esos casos, pero no se traduce en diversidad de pliegues nueva.

¿Qué herramientas se usan para medir la redundancia?

Para agrupar por secuencia se usa mmseqs2, muy rápido a gran escala. Para agrupar por estructura se usa Foldseek, que compara pliegues 3D mediante un alfabeto estructural y métricas como el TM-score. Comparar ambas curvas revela cuánta diversidad estructural real aporta cada lote de secuencias.

¿Esto frena el diseño de fármacos con IA?

No lo frena, pero cambia la estrategia. En lugar de simplemente plegar más secuencias naturales, conviene deduplicar por estructura, sobre-representar pliegues raros y generar diversidad sintética de novo. La señal de superficie sigue siendo aprovechable aunque los pliegues se repitan.

¿Aplica esta lección fuera de la biología?

Sí. Es un recordatorio general en aprendizaje automático: el tamaño bruto de un dataset no equivale a su diversidad efectiva. Medir clusters o cobertura del espacio relevante evita pagar cómputo por datos redundantes que no mejoran el modelo.

Referencias

📱 ¿Te gusta este contenido? Únete a nuestro canal de Telegram @programacion donde publicamos a diario lo más relevante de tecnología, IA y desarrollo. Resúmenes rápidos, contenido fresco todos los días.

Categorías: Noticias Tech

Andrés Morales

Desarrollador e investigador en inteligencia artificial. Escribe sobre modelos de lenguaje, frameworks, herramientas para devs y lanzamientos open source. Cubre papers de ML, ecosistema de startups tech y tendencias de programación.

0 Comentarios

Deja un comentario

Marcador de posición del avatar

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.