Taskflow Agent de GitHub Security Lab: el framework MCP…

⏱️ Lectura: 16 min

El 14 de enero de 2026, GitHub Security Lab publicó en su blog el lanzamiento del Taskflow Agent, un framework open source bajo licencia MIT para realizar investigación de seguridad asistida por modelos de lenguaje grandes. Cuatro meses después, los autores publicaron una actualización detallada el 20 de enero reportando que el framework, junto con varios taskflows especializados, ya había llevado al equipo a descubrir aproximadamente 30 vulnerabilidades reales triando alertas de CodeQL en proyectos open source. La cifra acumulada al momento del análisis posterior cruzaba los 80 issues de seguridad reportados, con cerca de 20 divulgados públicamente, tras una revisión humana cuidadosa de cada hallazgo. La versión más reciente al día de hoy es v0.3.1 (publicada el 7 de abril de 2026), y el proyecto está en desarrollo activo.

📑 En este artículo

La premisa: encodear conocimiento de seguridad como YAML
Arquitectura técnica: qué corre por debajo
Cómo se ve un taskflow
El proceso de auditoría en tres etapas
Resultados concretos: 80+ vulns reportadas, ~20 públicas
Cómo instalar y correr el framework
Cómo se usa con los taskflows de ejemplo
Limitaciones que el equipo reconoce explícitamente
Comparación con herramientas existentes
Casos de uso donde tiene sentido evaluar el framework hoy
Lección de fondo
Fuentes
1. 📚 Artículos relacionados

La pieza es relevante por una razón concreta. Mientras varias empresas de seguridad están empujando agentes IA propietarios para auditoría de código —cerrados, opacos y con licencias enterprise—, el equipo de GitHub Security Lab tomó la posición opuesta. Kevin Backhouse, que lidera la iniciativa con Peter Stöckli y Man Yue Mo como contribuidores principales, lo dijo sin rodeos en el post de anuncio:

«Many of the agentic security tools that are currently popping up are closed-source black boxes, which is the antithesis of what we stand for.»

El proyecto continúa la línea editorial de seguridad de este blog —los posts recientes sobre Apache HTTP Server 2.4.67, pnpm 11 y la doble ola TeamPCP/Trivy— con una pieza que cubre un ángulo distinto: cómo se está construyendo la próxima generación de herramientas de auditoría asistida por IA, en abierto, con código que cualquier equipo puede correr en su propio CI. Vamos a desarmar el proyecto: qué hace exactamente, qué arquitectura usa, qué resultados ya produjo, cómo se instala y se corre, y dónde están las limitaciones que el propio equipo señala.

La premisa: encodear conocimiento de seguridad como YAML

La idea estructural detrás del framework es convertir el conocimiento de un investigador de seguridad en un archivo YAML que un agente pueda ejecutar. Esa abstracción se llama taskflow: una secuencia ordenada de tareas, donde cada tarea tiene un agente con instrucciones específicas, accede a un conjunto definido de herramientas, y produce un output que la siguiente tarea consume. La construcción es declarativa: el investigador describe qué hacer, no cómo. El framework se encarga del orquestado, validación de schemas, manejo de errores y reintentos.

La diferencia con el enfoque «single big prompt» —el patrón más común cuando se prototipa con LLMs— es que un taskflow descompone el problema en pasos pequeños y verificables. Un agente de threat modelling produce una lista de componentes y entry points; otro propone tipos de vulnerabilidades plausibles para cada componente; un tercero audita rigurosamente cada propuesta exigiendo evidencia concreta —file paths, line numbers, snippets de código relevante—. Esa estructura tiene dos consecuencias prácticas. Primero, reduce alucinaciones: cada agente está encerrado en un alcance pequeño donde es harder confundirse. Segundo, el output es auditable: el investigador humano puede revisar cada paso intermedio en lugar de pedirle al modelo que justifique una conclusión final retroactivamente.

La cita de Man Yue Mo y Peter Stöckli en el post de actualización resume bien la apuesta:

«Large language models (LLMs) excel at matching the fuzzy patterns that traditional tools struggle with.»

Los SAST tradicionales son excelentes para patrones estructurales —tainted data flow, missing null checks, control flow inseguro—. Los LLMs son excelentes para patrones semánticos —»esta función parece manejar autenticación pero no valida que el user_id provenga de una sesión legítima»—. El framework es la pieza que conecta esa capacidad semántica con la rigurosidad operativa que un workflow de seguridad real exige.

Arquitectura técnica: qué corre por debajo

El README del repositorio deja explícito el stack:

Lenguaje: Python ≥ 3.10
SDK base: OpenAI Agents SDK, la librería oficial de OpenAI para construir agentes con tool calling y handoffs
Validación de grammar: Pydantic v2, para que cada YAML cumpla un schema estricto antes de ejecutarse
Templating: Jinja2, para interpolar variables y reusar fragmentos entre tareas
CLI: Typer
Build system: Hatch
MCP-enabled: el agente puede consumir y exponer herramientas vía Model Context Protocol, lo que lo hace interoperable con otros agentes del ecosistema

La elección del OpenAI Agents SDK como base merece nota: no es una limitación a usar GPT exclusivamente. La capa de modelos es configurable mediante archivos model_config que permiten especificar diferentes APIs y endpoints. El framework soporta tanto la API «Chat Completions» tradicional como la API «Responses» más nueva. Modelos como gpt-4.1 y gpt-5.1 están listados en los configs por default, pero el sistema acepta configuraciones para Claude, Gemini u otros proveedores compatibles con el protocolo.

Cómo se ve un taskflow

La estructura de un archivo taskflow es un YAML con un header obligatorio que declara la versión y el filetype, seguido de una lista de tareas. Una versión simplificada, basada en el formato del repositorio:

version: "1.0"
filetype: taskflow
name: audit-codeql-alert

env:
  REPO_URL: "{{REPO_URL}}"
  ALERT_ID: "{{ALERT_ID}}"

tasks:
  - name: gather_info
    agent: codeql_alert_collector
    prompt: |
      Fetch CodeQL alert {{ALERT_ID}} from {{REPO_URL}}.
      List the source, sink, and intermediate steps in the data flow.
    tools: [github_codeql, github_repo_reader]
    max_steps: 10
    model: gpt-5.1

  - name: triage
    agent: false_positive_auditor
    prompt: |
      Given the alert details from the previous task, determine
      if this is a true vulnerability or a false positive.
      Cite specific code paths and line numbers as evidence.
    tools: [github_repo_reader, github_codesearch]
    max_steps: 25
    model: gpt-5.1

  - name: report
    agent: report_writer
    prompt: |
      If the auditor confirms the vulnerability, generate a
      formal advisory in GHSL format with reproduction steps,
      affected versions, and recommended remediation.
    tools: [github_advisory_writer]
    max_steps: 5
    model: gpt-4.1

El framework toma este archivo, valida que cumpla el schema con Pydantic, ejecuta cada tarea en orden, pasa el output de una a la siguiente, y maneja recovery si algo falla. La separación clara entre prompt, herramientas y modelo permite que el mismo taskflow corra contra distintos modelos para comparar costos y precisión, o que el equipo experimente con prompts sin tocar la lógica de orquestación.

Los archivos de personality son una abstracción relacionada: definen comportamiento general de un agente —tono, idioma, restricciones, instrucciones de seguridad— que se reusa entre múltiples taskflows. Las toolboxes describen colecciones de herramientas que un agente puede invocar. Y los model_configs centralizan la configuración de modelos.

El proceso de auditoría en tres etapas

El post de actualización del 20 de enero documenta el flujo concreto que el equipo usa para triar alertas de CodeQL. Las tres etapas son:

Etapa 1: recolección de información

Un agente especializado lee la alerta de CodeQL en detalle —el path de datos taint, los nodos source y sink, los pasos intermedios— y captura el contexto del código fuente. Para una alerta de SQL injection, por ejemplo, recoge la función que recibe input de usuario, los métodos llamados intermedios, y el call site final donde el SQL se ejecuta. La salida de esta etapa es un documento estructurado que la siguiente tarea consume sin tener que volver a leer el repositorio entero.

Etapa 2: triage contra criterios de falso positivo

El segundo agente toma la información recolectada y pasa una checklist de criterios que típicamente convierten alertas estáticas en falsos positivos: ¿el flujo está protegido por checks de autorización antes del sink? ¿hay un sanitizador en algún punto intermedio? ¿la entrada está restringida a un contexto privilegiado donde el ataque no es realista? El agente requiere evidencia concreta —no acepta «parece estar protegido»; necesita un nombre de función, un número de línea, un fragmento de código que demuestre la protección—. Si encuentra protección, descarta la alerta como falso positivo. Si no, escala a la siguiente etapa.

Etapa 3: generación de reporte

El tercer agente redacta una advisory en formato GHSL —el formato interno de GitHub Security Lab para reportar vulnerabilidades— con repro steps, líneas afectadas, severidad estimada y remediación recomendada. La salida es lo suficientemente completa para que un humano la revise rápido y la transforme en un advisory público o en un report privado al maintainer del proyecto.

Crucialmente, el output siempre pasa por revisión humana antes de cualquier disclosure. El equipo es explícito en este punto: el framework es una herramienta para acelerar el trabajo del investigador, no para reemplazarlo. Reportar una vulnerabilidad alucinada al maintainer de un proyecto open source destruye la confianza, y eso es exactamente lo que el equipo quiere evitar.

Resultados concretos: 80+ vulns reportadas, ~20 públicas

Los números reportados al cierre del análisis del 20 de enero son los siguientes:

~30 vulnerabilidades reales descubiertas vía triage automatizado desde agosto de 2025
80+ issues de seguridad reportados en total considerando los taskflows de auditoría web especializados
~20 disclosures públicos ya procesados a través del programa GHSL
Categorías más frecuentes: Auth Bypasses, IDORs (Insecure Direct Object References), Token Leaks, XSS

Un ejemplo público concreto que el blog menciona es GHSL-2025-110_openlibrary, una vulnerabilidad de cross-site scripting explotable mediante URLs javascript: en el proyecto Open Library. El framework la encontró siguiendo un taskflow especializado en patrones de XSS reflejado a través de redirects.

La proporción de hallazgos por categoría no es accidental. Las Auth Bypasses y los IDOR son particularmente difíciles para SAST tradicional porque dependen de lógica de negocio —»este endpoint debería verificar que el user_id del path coincida con la sesión activa, pero no lo hace»— en lugar de patrones sintácticos. Los LLMs leen la intención de un endpoint mejor que un analizador estático, y el framework convierte esa lectura en un workflow operativo.

Cómo instalar y correr el framework

Pre-requisitos

# Opción 1: Python local
python --version  # debe ser >= 3.10

# Opción 2: Docker (más portable)
docker --version

Variables de entorno necesarias

export AI_API_TOKEN="<github-token-con-acceso-a-github-models>"
export GH_TOKEN="<github-token-opcional-para-api-de-github>"

El AI_API_TOKEN es el token que da acceso a GitHub Models —el catálogo de modelos hosteados que GitHub provee gratis dentro de límites generosos para usuarios con licencia Copilot—. El GH_TOKEN es opcional pero útil para herramientas que consultan la API de GitHub directamente (leer alertas de CodeQL, abrir advisories, listar repos).

Instalación desde fuente

git clone https://github.com/GitHubSecurityLab/seclab-taskflow-agent.git
cd seclab-taskflow-agent

# Instalar dependencias con hatch (build system del proyecto)
pip install hatch
hatch shell

# Verificar que funciona
hatch run main --help

Ejecutar un taskflow

# Listar taskflows disponibles del repo de ejemplos
git clone https://github.com/GitHubSecurityLab/seclab-taskflows.git
ls seclab-taskflows/

# Ejecutar un taskflow específico
hatch run main -t audit-codeql-alert \
  -g REPO_URL=https://github.com/some/project \
  -g ALERT_ID=12345

# O via Docker
./docker/run.sh -t audit-codeql-alert

Modos de operación

El framework soporta tres modos principales:

Standalone con personality: invoca un agente con un prompt directo desde CLI, útil para experimentación rápida
Taskflow execution: el modo principal, ejecuta un YAML con orquestación multi-agente
Agent handoff: un agente puede delegar control a otro durante la ejecución, útil para flujos de triage donde una tarea inicial decide qué especialista invocar después

El framework tiene session recovery: si un taskflow falla a mitad de camino, el estado de las tareas completadas se guarda y la ejecución se puede retomar desde el último checkpoint sin re-ejecutar todo desde cero. Para taskflows largos —algunos del repo iteran sobre cientos de archivos— esto es operativamente esencial.

Cómo se usa con los taskflows de ejemplo

El repositorio paralelo seclab-taskflows contiene flujos de trabajo concretos que el equipo de GitHub Security Lab usa internamente. Algunos ejemplos:

Triage de alertas CodeQL: el flujo descrito en las tres etapas más arriba.
Variant analysis: dado un CVE conocido, buscar variantes del mismo bug en otros proyectos open source que compartan dependencias o patrones similares.
Auditoría de seguridad web: especializado en encontrar XSS, IDOR, Auth Bypass en aplicaciones web, con conocimiento de patrones específicos de frameworks comunes (Django, Express, Spring, Flask).
Análisis de advisories: dado un advisory público reciente, generar reglas CodeQL para detectar el mismo patrón en otros proyectos.

Cualquier equipo puede clonar este repo, modificar los taskflows para su contexto específico, y agregar los suyos propios. La intención del equipo es que el repositorio sea un commons de patrones de auditoría que la comunidad de seguridad pueda enriquecer.

Limitaciones que el equipo reconoce explícitamente

El blog post no esconde los problemas reales del enfoque:

Costo de tool calls. Un taskflow de auditoría profundo puede invocar herramientas decenas o cientos de veces, lo cual consume cuota de modelo significativa. El equipo cita: «Running the taskflows can result in many tool calls, which can easily consume a large amount of quota.» Para investigación interna esto es manejable; para una pequeña empresa que quiera adoptarlo en CI puede ser una sorpresa de costos.

Revisión humana obligatoria antes del disclosure. Como se mencionó arriba, el equipo nunca reporta directamente lo que el agente produce. Esto no es opcional: alucinaciones siguen ocurriendo y reportar vulns falsos a maintainers de proyectos open source es socialmente costoso.

Sin validación dinámica. El framework analiza código estáticamente; no ejecuta el código en un sandbox, no construye PoCs ejecutables, no confirma que la vulnerabilidad sea explotable más allá del análisis del path de datos. Para muchos casos eso es suficiente; para vulns de race condition o explotabilidad dependiente de timing, no lo es.

Dependencia de licencia Copilot. Aunque el framework es MIT, el modelo subyacente (vía GitHub Models) requiere una licencia Copilot activa para acceso completo. Esto reduce la barrera para usuarios de Copilot pero no elimina el costo total para proyectos puramente comunitarios.

Comparación con herramientas existentes

Herramienta	Tipo	License	Modelo
Semgrep	SAST con reglas	Permisivo	Sin LLM
CodeQL	Análisis de queries	Free para OSS	Sin LLM
Snyk Code DeepCode	SAST + ML	Comercial	Propietario
Aikido / GitGuardian	DevSecOps	Comercial	Mezcla
Endor Labs	Comercial	Comercial	Propietario
Taskflow Agent	Multi-agente LLM	MIT	Configurable

El diferenciador es la combinación de open source + multi-agente + customizable + agnóstico al proveedor de modelo. No reemplaza a SAST tradicional, complementa: el patrón típico es usar CodeQL para cobertura masiva (millones de archivos) y Taskflow Agent para triar las alertas que CodeQL produce.

Casos de uso donde tiene sentido evaluar el framework hoy

Equipos de seguridad interna en empresas medianas a grandes. Donde el equipo ya tiene CodeQL corriendo y se ahoga en alertas, Taskflow Agent puede recortar el ratio de falsos positivos significativamente y liberar tiempo de los analistas para análisis profundo manual.

Investigadores académicos o bug bounty hunters. La capacidad de codificar conocimiento de auditoría en YAMLs reusables permite multiplicar el alcance de un solo investigador. Un patrón que detecta IDOR en endpoints REST puede correrse en miles de proyectos en GitHub.

Maintainers de proyectos open source críticos. Para proyectos que tienen muchos contributors y workflows de PR pesados, integrar un taskflow de auditoría como parte del CI puede atrapar regresiones de seguridad antes del merge.

Equipos construyendo sus propios agentes de seguridad. El framework es una buena base sobre la cual construir productos custom: el patrón YAML-driven, multi-agente, con MCP, es replicable y el código es abierto.

Lección de fondo

Hay un punto de gobernanza importante en este lanzamiento que vale la pena retener. GitHub Security Lab eligió liberar la pieza más valiosa de su trabajo —la abstracción de taskflow para razonamiento de seguridad— como código abierto, en un momento donde la mayoría de competidores cerrarían el código y lo monetizarían. La frase de Backhouse —»closed-source black boxes are the antithesis of what we stand for»— es ideológica, pero tiene una dimensión práctica concreta: la seguridad open source de la próxima década no la van a resolver vendors propietarios sino redes de investigadores compartiendo herramientas en abierto. El framework es la apuesta por ese modelo.

La otra lección es de método. Descomponer un agente «que audita código» en un workflow de tareas verificables es estructuralmente mejor que perseguir un single mega-prompt. El campo de prompting está descubriendo, doloroso paso por doloroso paso, lo que la ingeniería de software ya sabe desde hace cincuenta años: la composición disciplinada de pasos pequeños y testables produce sistemas más confiables que monolitos brillantes. Los taskflows son una pequeña pero efectiva traducción de ese principio al espacio de los agentes IA.

Y para devs que evalúan integrar IA en su pipeline de seguridad: clonar el repo, leer un par de taskflows y ejecutar uno contra un proyecto propio es una hora de inversión que da un mejor sentido del estado del arte que diez horas leyendo papers o blogs de vendors. La pieza mejor que existe hoy está abierta. Vale la pena tocarla.

Fuentes

GitHub Security Lab Taskflow Agent — repositorio principal: https://github.com/GitHubSecurityLab/seclab-taskflow-agent
README oficial: https://github.com/GitHubSecurityLab/seclab-taskflow-agent/blob/main/README.md
Repositorio paralelo de taskflows de ejemplo: https://github.com/GitHubSecurityLab/seclab-taskflows
Community-powered security with AI: an open source framework for security research (Kevin Backhouse, 14 ene 2026): https://github.blog/security/community-powered-security-with-ai-an-open-source-framework-for-security-research/
AI-supported vulnerability triage with the GitHub Security Lab Taskflow Agent (Man Yue Mo & Peter Stöckli, 20 ene 2026): https://github.blog/security/ai-supported-vulnerability-triage-with-the-github-security-lab-taskflow-agent/
How to scan for vulnerabilities with GitHub Security Lab’s open source AI-powered framework: https://github.blog/security/how-to-scan-for-vulnerabilities-with-github-security-labs-open-source-ai-powered-framework/
GitHub Blog — Security tag (todas las publicaciones del Lab): https://github.blog/tag/github-security-lab/
OpenAI Agents SDK (dependencia upstream): https://openai.github.io/openai-agents-python/
Wikipedia — GitHub: https://en.wikipedia.org/wiki/GitHub
Wikipedia — CodeQL: https://en.wikipedia.org/wiki/CodeQL
Wikipedia — Static program analysis: https://en.wikipedia.org/wiki/Static_program_analysis
Wikipedia — Cross-site scripting: https://en.wikipedia.org/wiki/Cross-site_scripting

Taskflow Agent de GitHub Security Lab: el framework MCP que descubrió 80+ vulnerabilidades reales con LLMs y YAML declarativo

Publicado por Clara Vásquez en 7 mayo, 20267 mayo, 2026

La premisa: encodear conocimiento de seguridad como YAML

Arquitectura técnica: qué corre por debajo

Cómo se ve un taskflow

El proceso de auditoría en tres etapas

Etapa 1: recolección de información

Etapa 2: triage contra criterios de falso positivo

Etapa 3: generación de reporte

Resultados concretos: 80+ vulns reportadas, ~20 públicas

Cómo instalar y correr el framework

Pre-requisitos

Variables de entorno necesarias

Instalación desde fuente

Ejecutar un taskflow

Modos de operación

Cómo se usa con los taskflows de ejemplo

Limitaciones que el equipo reconoce explícitamente

Comparación con herramientas existentes

Casos de uso donde tiene sentido evaluar el framework hoy

Lección de fondo

Fuentes

Clara Vásquez

0 Comentarios

Deja un comentario Cancelar respuesta

Seguridad

ShinyHunters tumba Canvas: 275M usuarios y 9.000 escuelas afectadas

Seguridad

Apache HTTP Server 2.4.67 cierra 11 vulnerabilidades de mayo: el RCE en HTTP/2 (CVE-2026-23918) que obliga a parchear hoy

Seguridad

Del DDoS que tiraba exchanges al DDoS que silencia oráculos: cómo Lazarus se llevó $292M de KelpDAO en abril 2026

Taskflow Agent de GitHub Security Lab: el framework MCP que descubrió 80+ vulnerabilidades reales con LLMs y YAML declarativo

Publicado por Clara Vásquez en 7 mayo, 20267 mayo, 2026

La premisa: encodear conocimiento de seguridad como YAML

Arquitectura técnica: qué corre por debajo

Cómo se ve un taskflow

El proceso de auditoría en tres etapas

Etapa 1: recolección de información

Etapa 2: triage contra criterios de falso positivo

Etapa 3: generación de reporte

Resultados concretos: 80+ vulns reportadas, ~20 públicas

Cómo instalar y correr el framework

Pre-requisitos

Variables de entorno necesarias

Instalación desde fuente

Ejecutar un taskflow

Modos de operación

Cómo se usa con los taskflows de ejemplo

Limitaciones que el equipo reconoce explícitamente

Comparación con herramientas existentes

Casos de uso donde tiene sentido evaluar el framework hoy

Lección de fondo

Fuentes

Clara Vásquez

0 Comentarios

Deja un comentario Cancelar respuesta

Entradas relacionadas

Seguridad

ShinyHunters tumba Canvas: 275M usuarios y 9.000 escuelas afectadas

Seguridad

Apache HTTP Server 2.4.67 cierra 11 vulnerabilidades de mayo: el RCE en HTTP/2 (CVE-2026-23918) que obliga a parchear hoy

Seguridad

Del DDoS que tiraba exchanges al DDoS que silencia oráculos: cómo Lazarus se llevó $292M de KelpDAO en abril 2026