🤖 ¿Qué es un AI Agent?
An AI agent es un sistema de IA que usa un large language model como su motor de razonamiento para percibir autónomamente su entorno, planificar acciones, usar herramientas y ejecutar tareas multi-paso hacia un objetivo — sin requerir entrada humana en cada paso.
La distinción clave respecto a un chatbot LLM estándar es agency: la capacidad de realizar acciones consecuentes en el mundo. Un chatbot responde preguntas. Un agent reserva vuelos, escribe y despliega código, envía correos electrónicos, consulta bases de datos y itera sobre resultados — todo por sí mismo.
📊 Niveles de autonomía (L0–L5)
No todos los "agents" son igual de autónomos. El framework de Anthropic define un espectro desde control totalmente humano hasta totalmente autónomo:
| Level | Name | Description | Example |
|---|---|---|---|
| L0 | Sin IA | Software puramente controlado por humanos | Scripts tradicionales, formularios |
| L1 | AI-assisted | La IA sugiere; el humano decide y actúa | GitHub Copilot autocomplete |
| L2 | AI-driven | La IA actúa; el humano revisa antes de ejecutar | La IA redacta PR; el desarrollador aprueba |
| L3 | Semi-autonomous | La IA ejecuta con puntos de control HITL selectivos | Un agente de codificación ejecuta tests autónomamente, pregunta antes de mergear |
| L4 | Autonomous | La IA ejecuta de extremo a extremo; el humano monitorea | El agent despliega una funcionalidad completa sin pasos humanos |
| L5 | Totalmente autónomo | La IA se autogestiona, se autocorrige, se automejora | Solo en etapa de investigación; no desplegado en producción |
La mayoría de los agents en producción hoy operan en L2–L3. L4 existe en dominios especializados (trading automatizado, pipelines de datos). L5 sigue siendo teórico y plantea preguntas significativas de alineamiento.
🧩 Componentes principales de un AI Agent
Cada agent — independientemente del framework o proveedor — se construye a partir de cuatro componentes fundamentales:
1. Percepción (Input)
Cómo el agent observa su entorno. Esto incluye mensajes de usuario, resultados de llamadas a herramientas, contenidos de archivos, respuestas de APIs, datos de sensores y cualquier otra información alimentada en la ventana de contexto. La calidad de lo que el agent puede percibir limita directamente lo que puede hacer.
2. Memoria
Qué puede recordar el agent y por cuánto tiempo:
| Tipo de memoria | Scope | Implementation |
|---|---|---|
| In-context | Solo conversación actual | Mensajes en la ventana de contexto |
| Externo (corto plazo) | Duración de la sesión o tarea | Redis, store en memoria, archivos scratchpad |
| Externo (largo plazo) | Persistente entre sesiones | Vector database (RAG), SQL, file system |
| Pesos del modelo | Integrado en el modelo | Datos de entrenamiento, fine-tuning |
3. Herramientas (Action)
Las funciones que el agent puede llamar para afectar el mundo. El diseño de herramientas es crítico — herramientas bien definidas con descripciones y esquemas claros permiten que el LLM las use correctamente. Herramientas mal diseñadas conducen a mal uso y fallos.
- Leer herramientas: search_web, read_file, query_database, get_weather
- Herramientas de escritura: write_file, send_email, create_pr, post_message
- Herramientas de ejecución: run_code, call_api, deploy_service
- Herramientas del agent: spawn_subagent, ask_human (HITL), delegate_task
4. Planificación y razonamiento
Cómo el agent decide qué hacer a continuación. Los agents modernos usan uno o más patrones de planificación:
- ReAct (Reason + Act): Intercalar razonamiento y uso de herramientas en el mismo contexto
- Chain-of-Thought: Razonamiento explícito paso a paso antes de actuar
- Tree-of-Thought: Explorar múltiples ramas de razonamiento, seleccionar la mejor
- Plan-and-Execute: Crear un plan completo al principio, luego ejecutar cada paso
🔁 El Agent Loop
La mayoría de los agents operan en un bucle perceive-plan-act que se repite hasta que la tarea se completa o se alcanza una condición de parada:
- Observar: Leer el estado actual (mensajes, resultados de herramientas, memoria)
- Planificar: El LLM razona sobre qué hacer a continuación (puede generar un scratchpad o CoT)
- Actuar: Llamar una herramienta, generar salida o pedir entrada humana
- Actualizar: Recibir resultados de herramientas, actualizar la memoria, agregar al contexto
- Evaluar: Comprobar si se logró el objetivo; si no, volver al paso 1
Las condiciones de parada son críticas para prevenir bucles infinitos. Los enfoques comunes incluyen: límites máximos de iteración, llamadas explícitas a herramienta de "tarea completa", y puntos de control human-in-the-loop después de N pasos.
🛠️ Frameworks y SDKs para agents
El ecosistema de AI agents ha madurado rápidamente. Aquí están los principales frameworks a abril de 2026:
| Framework | Language | Mejor para | Soporte de modelos |
|---|---|---|---|
| LangChain / LangGraph | Python, JS | Pipelines multi-paso complejos, grafos con estado | Cualquiera (OpenAI, Anthropic, Ollama…) |
| AutoGen (Microsoft) | Python | Conversaciones multi-agent, ejecución de código | OpenAI, Azure, modelos locales |
| CrewAI | Python | Equipos multi-agent basados en roles | OpenAI, Anthropic, local |
| Claude Agent SDK (Anthropic) | Python, TS | Agents nativos de Claude con MCP | Solo Claude |
| OpenAI Agents SDK | Python | Agents nativos de OpenAI con handoffs | Solo OpenAI |
| Semantic Kernel (Microsoft) | Python, C#, Java | Enterprise, arquitectura de plugins | Any |
Para nuevos proyectos, considere comenzar con un enfoque ligero (llamadas directas a la API + function calling) antes de adoptar un framework pesado. Los frameworks añaden conveniencia pero también complejidad y lock-in.
💼 Casos de uso en el mundo real
Desarrollo de software
- Agents de codificación que leen tests fallidos, identifican bugs y someten PRs (Devin, SWE-agent)
- Agents de code review que revisan vulnerabilidades de seguridad y violaciones de estilo
- Agents de documentación que leen el código fuente y generan docs de API
Investigación y análisis
- Agents de investigación profunda que buscan en la web, leen papers y sintetizan informes
- Agents de inteligencia competitiva que monitorizan noticias y generan resúmenes
- Agents de análisis de datos que escriben y ejecutan SQL/Python e interpretan resultados
Automatización empresarial
- Agents de soporte al cliente que resuelven tickets end-to-end (no solo redactan respuestas)
- Agents de ventas que investigan prospectos, redactan outreach y programan llamadas
- Agents financieros que concilián transacciones y generan informes de excepciones
Productividad personal
- Agents de correo que redactan respuestas, programan reuniones y gestionan la bandeja de entrada
- Asistentes de investigación que encuentran, leen y resumen papers bajo demanda
- Automatización de flujos de trabajo que conecta herramientas dispares sin integraciones personalizadas
🚫 Cuándo NO usar agents
Los agents son poderosos pero no siempre son la herramienta correcta. Usar un agent cuando existe una solución más simple añade costo, latencia e impredecibilidad.
| Situation | Mejor enfoque |
|---|---|
| Tarea de un solo paso con entrada/salida clara | Llamada directa a la API del LLM |
| Transformación de datos determinista | Código tradicional (no necesita LLM) |
| Acciones irreversibles de alto impacto a escala | Flujo de trabajo humano con asistencia de IA (L1–L2) |
| Características sensibles a latencia para el usuario | Llamada directa a la API; los agents añaden sobrecarga de ida y vuelta |
| Requisitos estrictos de cumplimiento/auditoría | Human-in-the-loop con solo redacción por parte del agent |
Aprende cómo los agents se conectan a herramientas externas a través de la Model Context Protocol (MCP), y comprende los riegos de seguridad de la acción autónoma en nuestra guía sobre Prompt Injection.