🤖 Ano ang AI Agent?
An AI agent ay isang AI system na gumagamit ng isang large language model bilang reasoning engine nito upang awtonomong maunawaan ang kapaligiran, magplano ng mga aksyon, gumamit ng tools, at magsagawa ng multi-step na mga gawain patungo sa isang layunin — nang hindi nangangailangan ng input ng tao sa bawat hakbang.
Ang pangunahing pagkakaiba mula sa karaniwang LLM chatbot ay agency: ang kakayahang gumawa ng mga consequential na aksyon sa mundo. Sumagot ang isang chatbot ng mga tanong. Ang isang agent ay nagbu-book ng mga flight, sumusulat at nag-deploy ng code, nagpapadala ng mga email, nag-qua-query ng databases, at inuulit ang mga resulta — lahat nang mag-isa.
📊 Mga Antas ng Autonomiya (L0–L5)
Hindi lahat ng "agents" ay pantay ang autonomiya. Inilalarawan ng framework ng Anthropic ang isang saklaw mula sa ganap na kontrolado ng tao hanggang sa ganap na awtonomo:
| Level | Name | Description | Example |
|---|---|---|---|
| L0 | Walang AI | Ganap na kontrolado ng tao na software | Tradisyonal na scripts, forms |
| L1 | AI-assisted | Nagmumungkahi ang AI; ang tao ang nagdedesisyon at kumikilos | GitHub Copilot autocomplete |
| L2 | AI-driven | Kumikilos ang AI; nire-review ng tao bago isagawa | Nagdagdag ang AI ng draft ng PR; inaaprubahan ng developer |
| L3 | Semi-autonomous | Nagsasagawa ang AI na may piling HITL checkpoints | Ang coding agent ay nagpapatakbo ng mga test nang awtonomo, humihingi ng pahintulot bago mag-merge |
| L4 | Autonomous | Nagsasagawa ang AI end-to-end; nagmo-monitor ang tao | Nag-de-deploy ang agent ng isang buong feature na walang hakbang ng tao |
| L5 | Ganap na awtonomo | Ang AI ay nagtatakda ng sarili, nag-aayos ng sarili, nag-iimprove ng sarili | Nasa yugto pa ng pananaliksik lamang; hindi idineploy sa produksyon |
Karamihan sa mga production agents sa ngayon ay gumagana sa L2–L3. Umiiral ang L4 sa mga espesyalistikong domain (automated trading, data pipelines). Mga teoretikal pa rin ang L5 at nagdudulot ng malalaking tanong tungkol sa alignment.
🧩 Pangunahing Mga Komponent ng isang AI Agent
Bawat agent — anuman ang framework o provider — ay binubuo mula sa apat na pundamental na bahagi:
1. Perception (Input)
Paano inoobserbahan ng agent ang kapaligiran nito. Kasama rito ang mga mensahe ng user, mga resulta ng tool call, nilalaman ng file, mga API response, sensor data, at anumang ibang impormasyon na pinapasok sa context window. Ang kalidad ng nakikitang impormasyon ng agent ay direktang naglilimita sa kaya nitong gawin.
2. Memorya
Ano ang kayang tandaan ng agent at gaano katagal:
| Uri ng Memorya | Scope | Implementation |
|---|---|---|
| In-context | Kasalukuyang pag-uusap lamang | Mga mensahe sa context window |
| Panlabas (panandalian) | Tagal ng session o gawain | Redis, in-memory store, scratchpad files |
| Panlabas (pangmatagalan) | Nananatili sa pagitan ng mga session | Vector database (RAG), SQL, file system |
| Model weights | Naka-bake sa model | Training data, fine-tuning |
3. Tools (Aksyon)
Ang mga function na maaaring tawagin ng agent upang makaapekto sa mundo. Mahalagang-diin ang disenyo ng tool — ang maayos na tinukoy na mga tools na may malinaw na mga deskripsyon at schema ay nagpapahintulot sa LLM na gamitin ang mga ito nang tama. Ang hindi mahusay na disenyo ng tools ay nagdudulot ng maling paggamit at mga pagkabigo.
- Basa ng mga tools: search_web, read_file, query_database, get_weather
- Isulat na mga tools: write_file, send_email, create_pr, post_message
- Ipatupad na mga tools: run_code, call_api, deploy_service
- Mga tool ng Agent: spawn_subagent, ask_human (HITL), delegate_task
4. Pagpaplano at Pangangatwiran
Paano nagdedesisyon ang agent kung ano ang susunod na gagawin. Gumagamit ang modernong mga agent ng isa o higit pang mga pattern ng pagpaplano:
- ReAct (Reason + Act): Pagsasama ng pangangatwiran at paggamit ng tool sa parehong context
- Chain-of-Thought: Tahing-hating sunod-sunod na pangangatwiran bago kumilos
- Tree-of-Thought: Magsiyasat ng maraming sangay ng pag-iisip, pumili ng pinakamahusay
- Plan-and-Execute: Gumawa ng buong plano nang maaga, pagkatapos isagawa ang bawat hakbang
🔁 Ang Agent Loop
Karamihan sa mga agent ay gumagana sa isang perceive-plan-act loop na inuulit hanggang matapos ang gawain o maabot ang stopping condition:
- Obserbahan: Basahin ang kasalukuyang estado (mga mensahe, mga resulta ng tool, memorya)
- Plano: Nagre-reason ang LLM tungkol sa susunod na gagawin (maaaring gumawa ng scratchpad o CoT)
- Gawa: Tumawag ng tool, gumawa ng output, o humingi ng input ng tao
- I-update: Tanggapin ang mga resulta ng tool, i-update ang memorya, idagdag sa context
- Suriin: Suriin kung naabot ang layunin; kung hindi, bumalik sa hakbang 1
Mahalaga ang stopping conditions para maiwasan ang walang katapusang loop. Karaniwang mga paraan ay kasama ang: max iteration limits, explicit "task complete" tool calls, at human-in-the-loop checkpoints pagkatapos ng N hakbang.
🛠️ Agent Frameworks & SDKs
Mabilis na umunlad ang ecosystem ng AI agent. Narito ang mga pangunahing framework hanggang Abril 2026:
| Framework | Language | Pinakamainam para sa | Suporta ng modelo |
|---|---|---|---|
| LangChain / LangGraph | Python, JS | Komplikadong multi-step pipelines, stateful graphs | Kahit ano (OpenAI, Anthropic, Ollama…) |
| AutoGen (Microsoft) | Python | Multi-agent na mga pag-uusap, pagpapatakbo ng code | OpenAI, Azure, local models |
| CrewAI | Python | Role-based multi-agent teams | OpenAI, Anthropic, local |
| Claude Agent SDK (Anthropic) | Python, TS | Claude-native agents with MCP | Claude only |
| OpenAI Agents SDK | Python | OpenAI-native agents with handoffs | OpenAI only |
| Semantic Kernel (Microsoft) | Python, C#, Java | Enterprise, plugin architecture | Any |
Para sa mga bagong proyekto, isaalang-alang ang pagsisimula sa isang magaan na pamamaraan (direct API calls + function calling) bago mag-adopt ng mabigat na framework. Nagdadala ng kaginhawahan ang mga framework ngunit nagdaragdag din ng komplikasyon at lock-in.
💼 Mga Use Case sa Totoong Mundo
Software development
- Mga coding agent na nagbabasa ng failing tests, tumutukoy ng bugs, at nagsusumite ng PRs (Devin, SWE-agent)
- Mga code review agent na nagsusuri para sa security vulnerabilities at style violations
- Mga documentation agent na nagbabasa ng source code at gumagawa ng API docs
Research & analysis
- Malalim na research agent na naghahanap sa web, nagbabasa ng papers, at nagsusintesis ng mga ulat
- Competitive intelligence agent na nagmo-monitor ng balita at gumagawa ng mga buod
- Data analysis agent na nagsusulat at nagpapatakbo ng SQL/Python at nag-iinterpret ng mga resulta
Business automation
- Customer support agent na nagreresolba ng tickets end-to-end (hindi lamang gumagawa ng draft ng sagot)
- Sales agent na nagreresearch ng prospects, gumagawa ng draft ng outreach, at nagseschedule ng mga tawag
- Finance agent na nagre-reconcile ng transactions at gumagawa ng exception reports
Personal productivity
- Email agent na gumagawa ng draft ng mga sagot, nagseschedule ng meetings, at nagma-manage ng inbox
- Research assistant na naghahanap, nagbabasa, at nagsusuma ng mga papers on demand
- Workflow automation na nag-uugnay ng magkakaibang tools nang walang custom integrations
🚫 Kailan HUWAG Gumamit ng Agents
Malakas ang kakayahan ng agents pero hindi palaging angkop. Ang paggamit ng agent kapag may mas simpleng solusyon ay nagdaragdag ng gastos, latency, at hindi mapapanagutan.
| Situation | Mas mainam na paraan |
|---|---|
| Single-step na gawain na may malinaw na input/output | Direct LLM API call |
| Deterministikong pag-transform ng datos | Tradisyonal na code (hindi kailangan ng LLM) |
| High-stakes irreversible actions sa malaking saklaw | Human workflow na may AI assistance (L1–L2) |
| Mga feature na sensitibo sa latency na nakaharap sa user | Direct API call; nagdaragdag ang agents ng round-trip overhead |
| Mahigpit na mga regulasyon/kinakailangan para sa audit | Human-in-the-loop na may agent na gumagawa lang ng draft |
Alamin kung paano nakakakonekta ang mga agent sa external tools sa pamamagitan ng Model Context Protocol (MCP), at unawain ang mga panganib sa seguridad ng awtonomong aksyon sa aming gabay tungkol sa Prompt Injection.