🤖 Was ist ein AI Agent?
An AI agent ist ein AI-System, das ein large language model als Reasoning-Engine nutzt, um autonom seine Umgebung wahrzunehmen, Aktionen zu planen, Tools zu verwenden und mehrschrittige Aufgaben zielgerichtet auszuführen — ohne bei jedem Schritt menschliche Eingriffe zu benötigen.
Der entscheidende Unterschied zu einem normalen LLM-Chatbot ist agency: die Fähigkeit, folgenschwere Aktionen in der Welt durchzuführen. Ein chatbot beantwortet Fragen. Ein agent bucht Flüge, schreibt und bereitstellt Code, sendet E-Mails, fragt Datenbanken ab und iteriert über Ergebnisse — alles eigenständig.
📊 Autonomiegrade (L0–L5)
Nicht alle „agents“ sind gleich autonom. Anthropic's Framework definiert ein Spektrum von vollständig menschengesteuert bis vollständig autonom:
| Level | Name | Description | Example |
|---|---|---|---|
| L0 | Keine KI | Rein menschengesteuerte Software | Traditionelle Skripte, Formulare |
| L1 | AI-assisted | KI schlägt vor; Mensch entscheidet und handelt | GitHub Copilot autocomplete |
| L2 | AI-driven | KI handelt; Mensch überprüft vor Ausführung | KI erstellt PR-Entwurf; Entwickler genehmigt |
| L3 | Semi-autonomous | KI führt mit selektiven HITL-Checkpoints aus | Coding agent führt Tests autonom aus, fragt vor dem Mergen nach |
| L4 | Autonomous | KI führt End-to-End aus; Mensch überwacht | Agent stellt ein vollständiges Feature bereit ohne menschliche Schritte |
| L5 | Vollständig autonom | KI leitet sich selbst, korrigiert sich selbst, verbessert sich selbst | Nur im Forschungsstadium; nicht in Produktion eingesetzt |
Die meisten produktiven agents laufen heute auf L2–L3. L4 existiert in spezialisierten Bereichen (automatisierter Handel, Datenpipelines). L5 bleibt theoretisch und wirft erhebliche Alignment-Fragen auf.
🧩 Kernkomponenten eines AI Agenten
Jeder agent — unabhängig von Framework oder Anbieter — besteht aus vier grundlegenden Komponenten:
1. Wahrnehmung (Input)
Wie der agent seine Umgebung beobachtet. Das umfasst Benutzernachrichten, Tool-Call-Ergebnisse, Dateiinhalte, API-Antworten, Sensordaten und alle anderen Informationen, die in das Kontextfenster eingespeist werden. Die Qualität dessen, was der agent wahrnehmen kann, begrenzt direkt, was er tun kann.
2. Speicher
Was sich der agent merken kann und wie lange:
| Speichertyp | Scope | Implementation |
|---|---|---|
| In-context | Nur aktuelle Konversation | Nachrichten im Kontextfenster |
| Extern (kurzfristig) | Sitzungs- oder Aufgabendauer | Redis, In-Memory-Store, Scratchpad-Dateien |
| Extern (langfristig) | Über Sitzungen hinweg persistent | Vector database (RAG), SQL, Dateisystem |
| Model weights | In das Modell eingebaut | Training data, fine-tuning |
3. Tools (Action)
Die Funktionen, die der agent aufrufen kann, um die Welt zu beeinflussen. Tool-Design ist kritisch — gut definierte Tools mit klaren Beschreibungen und Schemata ermöglichen es dem LLM, sie korrekt zu verwenden. Schlecht gestaltete Tools führen zu Fehlgebrauch und Ausfällen.
- Lese-Tools: search_web, read_file, query_database, get_weather
- Schreib-Tools: write_file, send_email, create_pr, post_message
- Ausführungs-Tools: run_code, call_api, deploy_service
- Agent-Tools: spawn_subagent, ask_human (HITL), delegate_task
4. Planung & Schlussfolgerung
Wie der agent entscheidet, was als Nächstes zu tun ist. Moderne agents verwenden ein oder mehrere Planungsmuster:
- ReAct (Reason + Act): Vernetzung von Reasoning und Tool-Einsatz im selben Kontext
- Chain-of-Thought: Explizites schrittweises Reasoning vor dem Handeln
- Tree-of-Thought: Mehrere Denksprünge erkunden, den besten auswählen
- Plan-and-Execute: Erstelle einen vollständigen Plan im Voraus und führe dann jeden Schritt aus
🔁 Die Agentenschleife
Die meisten agents arbeiten in einer Wahrnehmen-Planen-Handeln-Schleife, die sich wiederholt, bis die Aufgabe abgeschlossen ist oder eine Abbruchbedingung erreicht ist:
- Beobachten: Lese den aktuellen Zustand (Nachrichten, Tool-Ergebnisse, Speicher)
- Planen: LLM überlegt, was als Nächstes zu tun ist (kann ein Scratchpad oder CoT erzeugen)
- Handeln: Rufe ein Tool auf, generiere Ausgabe oder bitte um menschliche Eingabe
- Aktualisieren: Empfange Tool-Ergebnisse, aktualisiere den Speicher, füge dem Kontext hinzu
- Bewerten: Prüfe, ob das Ziel erreicht ist; wenn nicht, zurück zu Schritt 1
Abbruchbedingungen sind kritisch, um unendliche Schleifen zu verhindern. Gängige Ansätze sind: maximale Iterationslimits, explizite "task complete" Tool-Aufrufe und menschliche Checkpoints nach N Schritten.
🛠️ Agent Frameworks & SDKs
Das Ökosystem der AI agents hat sich schnell entwickelt. Hier sind die wichtigsten Frameworks per April 2026:
| Framework | Language | Am besten für | Modellunterstützung |
|---|---|---|---|
| LangChain / LangGraph | Python, JS | Komplexe mehrstufige Pipelines, zustandsbehaftete Graphen | Any (OpenAI, Anthropic, Ollama…) |
| AutoGen (Microsoft) | Python | Multi-agent Konversationen, Codeausführung | OpenAI, Azure, lokale Modelle |
| CrewAI | Python | Rollenbasierte Multi-agent-Teams | OpenAI, Anthropic, lokal |
| Claude Agent SDK (Anthropic) | Python, TS | Claude-native agents mit MCP | Claude only |
| OpenAI Agents SDK | Python | OpenAI-native agents mit Handoffs | OpenAI only |
| Semantic Kernel (Microsoft) | Python, C#, Java | Enterprise, Plugin-Architektur | Any |
Für neue Projekte sollte man mit einem leichten Ansatz beginnen (direkte API-Aufrufe + function calling), bevor man ein schweres Framework übernimmt. Frameworks bieten Bequemlichkeit, aber auch Komplexität und Vendor-Lock-in.
💼 Einsatzbeispiele aus der Praxis
Softwareentwicklung
- Coding agents, die fehlschlagende Tests lesen, Bugs identifizieren und PRs einreichen (Devin, SWE-agent)
- Code-Review agents, die auf Sicherheitslücken und Stilverletzungen prüfen
- Dokumentationsagents, die Quellcode lesen und API-Dokumentation generieren
Forschung & Analyse
- Tiefgehende Forschungsagents, die das Web durchsuchen, Papers lesen und Berichte synthetisieren
- Wettbewerbsinformationsagents, die Nachrichten überwachen und Zusammenfassungen erstellen
- Datenanalyseagents, die SQL/Python schreiben und ausführen und Ergebnisse interpretieren
Geschäftsautomatisierung
- Kundensupportagents, die Tickets vollständig lösen (nicht nur Antworten entwerfen)
- Vertriebsagents, die Prospects recherchieren, Outreach entwerfen und Termine planen
- Finanzagents, die Transaktionen abgleichen und Ausnahmeberichte erstellen
Persönliche Produktivität
- E-Mail-agents, die Antworten entwerfen, Meetings planen und den Posteingang verwalten
- Rechercheassistenten, die auf Abruf Papers finden, lesen und zusammenfassen
- Workflow-Automatisierung, die disparate Tools ohne individuelle Integrationen verbindet
🚫 Wann man keine agents verwenden sollte
Agents sind mächtig, aber nicht immer das richtige Werkzeug. Einen agent einzusetzen, wenn eine einfachere Lösung ausreicht, erhöht Kosten, Latenz und Unvorhersehbarkeit.
| Situation | Besserer Ansatz |
|---|---|
| Ein-Schritt-Aufgabe mit klarem Ein-/Ausgang | Direkter LLM-API-Aufruf |
| Deterministische Datenverarbeitung | Traditioneller Code (kein LLM benötigt) |
| Unumkehrbare Aktionen mit hohem Risiko in großem Maßstab | Menschlicher Workflow mit KI-Unterstützung (L1–L2) |
| Latenzempfindliche, benutzerorientierte Funktionen | Direkter API-Aufruf; agents fügen Round-Trip-Overhead hinzu |
| Strenge regulatorische/prüfungsrelevante Anforderungen | Mensch-in-der-Schleife mit lediglich agent-Entwurf |
Erfahren Sie, wie agents sich mit externen Tools verbinden durch das Model Context Protocol (MCP), und verstehen Sie die Sicherheitsrisiken autonomer Aktionen in unserem Leitfaden zu Prompt Injection.