🤖 AI Agent là gì?
An AI agent là một hệ thống AI sử dụng large language model làm động cơ suy luận để tự động nhận biết môi trường, lên kế hoạch hành động, sử dụng công cụ và thực hiện các nhiệm vụ đa bước hướng tới mục tiêu — mà không yêu cầu con người can thiệp ở mỗi bước.
Sự khác biệt chính so với chatbot LLM thông thường là agency: khả năng thực hiện các hành động có hệ quả trong thế giới. Một chatbot trả lời câu hỏi. Một agent đặt vé máy bay, viết và triển khai mã, gửi email, truy vấn cơ sở dữ liệu và lặp lại kết quả — tất cả một cách tự động.
📊 Các mức độ tự chủ (L0–L5)
Không phải tất cả “agents” đều có cùng mức độ tự chủ. Khung của Anthropic định nghĩa một phổ từ hoàn toàn do con người điều khiển tới hoàn toàn tự chủ:
| Level | Name | Description | Example |
|---|---|---|---|
| L0 | Không có AI | Phần mềm hoàn toàn do con người điều khiển | Kịch bản truyền thống, mẫu đơn |
| L1 | AI-assisted | AI gợi ý; con người quyết định và hành động | GitHub Copilot autocomplete |
| L2 | AI-driven | AI hành động; con người rà soát trước khi thực thi | AI soạn PR; nhà phát triển phê duyệt |
| L3 | Semi-autonomous | AI thực thi với các điểm kiểm tra HITL có chọn lọc | Agent lập trình chạy bài kiểm tra tự động, hỏi trước khi merge |
| L4 | Autonomous | AI thực thi đầu cuối; con người giám sát | Agent triển khai một tính năng đầy đủ mà không có bước nào của con người |
| L5 | Hoàn toàn tự chủ | AI tự chỉ đạo, tự sửa lỗi, tự cải thiện | Chỉ ở giai đoạn nghiên cứu; chưa triển khai trong sản xuất |
Hầu hết agents trong sản xuất ngày nay hoạt động ở L2–L3. L4 tồn tại trong các miền chuyên biệt (giao dịch tự động, pipelines dữ liệu). L5 vẫn là lý thuyết và nảy sinh nhiều câu hỏi về alignment.
🧩 Các thành phần cốt lõi của AI Agent
Mọi agent — bất kể framework hay nhà cung cấp — được xây dựng từ bốn thành phần nền tảng:
1. Nhận thức (Input)
Cách agent quan sát môi trường. Điều này bao gồm tin nhắn người dùng, kết quả gọi công cụ, nội dung tệp, phản hồi API, dữ liệu cảm biến và bất kỳ thông tin nào khác được đưa vào cửa sổ ngữ cảnh. Chất lượng những gì agent có thể nhận biết trực tiếp giới hạn những gì nó có thể làm.
2. Bộ nhớ
Agent có thể ghi nhớ gì và trong bao lâu:
| Loại bộ nhớ | Scope | Implementation |
|---|---|---|
| In-context | Chỉ cuộc trò chuyện hiện tại | Các tin nhắn trong cửa sổ ngữ cảnh |
| Bên ngoài (ngắn hạn) | Thời lượng phiên hoặc tác vụ | Redis, bộ nhớ trong, tệp ghi chú tạm thời |
| Bên ngoài (dài hạn) | Duy trì qua các phiên | Cơ sở dữ liệu vector (RAG), SQL, hệ thống tệp |
| Trọng số model | Tích hợp sẵn trong model | Dữ liệu huấn luyện, fine-tuning |
3. Công cụ (Hành động)
Những hàm mà agent có thể gọi để ảnh hưởng tới thế giới. Thiết kế công cụ rất quan trọng — các công cụ được định nghĩa rõ và có mô tả cùng schema giúp LLM sử dụng đúng cách. Công cụ thiết kế kém dẫn đến lạm dụng và lỗi.
- Đọc công cụ: search_web, read_file, query_database, get_weather
- Công cụ viết: write_file, send_email, create_pr, post_message
- Công cụ thực thi: run_code, call_api, deploy_service
- Công cụ của agent: spawn_subagent, ask_human (HITL), delegate_task
4. Lập kế hoạch & Lý luận
Cách agent quyết định bước tiếp theo. Các agent hiện đại sử dụng một hoặc nhiều mẫu lập kế hoạch:
- ReAct (Reason + Act): Xen kẽ suy luận và sử dụng công cụ trong cùng ngữ cảnh
- Chain-of-Thought: Suy luận từng bước rõ ràng trước khi hành động
- Tree-of-Thought: Khám phá nhiều nhánh suy luận, chọn cái tốt nhất
- Plan-and-Execute: Tạo kế hoạch đầy đủ trước, sau đó thực thi từng bước
🔁 Vòng lặp Agent
Hầu hết agents hoạt động theo vòng lặp perceive-plan-act lặp lại cho đến khi nhiệm vụ hoàn thành hoặc đạt điều kiện dừng:
- Quan sát: Đọc trạng thái hiện tại (tin nhắn, kết quả công cụ, bộ nhớ)
- Lập kế hoạch: LLM suy luận về việc tiếp theo (có thể sinh ra scratchpad hoặc CoT)
- Hành động: Gọi công cụ, sinh output, hoặc yêu cầu đầu vào từ con người
- Cập nhật: Nhận kết quả công cụ, cập nhật bộ nhớ, thêm vào ngữ cảnh
- Đánh giá: Kiểm tra xem mục tiêu đã đạt chưa; nếu chưa, quay lại bước 1
Điều kiện dừng rất quan trọng để tránh vòng lặp vô hạn. Các cách phổ biến gồm: giới hạn số vòng lặp tối đa, gọi công cụ "task complete" rõ ràng và các điểm kiểm tra human-in-the-loop sau N bước.
🛠️ Frameworks & SDKs cho Agent
Hệ sinh thái AI agent đã phát triển nhanh chóng. Dưới đây là các framework chính tính đến tháng 4 năm 2026:
| Framework | Language | Phù hợp cho | Hỗ trợ model |
|---|---|---|---|
| LangChain / LangGraph | Python, JS | Pipelines đa bước phức tạp, đồ thị có trạng thái | Bất kỳ (OpenAI, Anthropic, Ollama…) |
| AutoGen (Microsoft) | Python | Cuộc trò chuyện đa-agent, thực thi mã | OpenAI, Azure, local models |
| CrewAI | Python | Đội multi-agent theo vai trò | OpenAI, Anthropic, local |
| Claude Agent SDK (Anthropic) | Python, TS | Claude-native agents với MCP | Chỉ Claude |
| OpenAI Agents SDK | Python | OpenAI-native agents với handoffs | Chỉ OpenAI |
| Semantic Kernel (Microsoft) | Python, C#, Java | Doanh nghiệp, kiến trúc plugin | Any |
Với dự án mới, hãy cân nhắc bắt đầu bằng cách tiếp cận nhẹ (gọi API trực tiếp + function calling) trước khi áp dụng framework nặng. Framework đem lại tiện lợi nhưng cũng tăng độ phức tạp và ràng buộc.
💼 Trường hợp sử dụng thực tế
Phát triển phần mềm
- Agents lập trình đọc test lỗi, nhận diện bug và nộp PR (Devin, SWE-agent)
- Agents rà soát mã kiểm tra lỗ hổng bảo mật và vi phạm style
- Agents tạo tài liệu đọc source code và sinh API docs
Nghiên cứu & phân tích
- Agents nghiên cứu sâu tìm web, đọc bài báo và tổng hợp báo cáo
- Agents tình báo cạnh tranh giám sát tin tức và tạo tóm tắt
- Agents phân tích dữ liệu viết và chạy SQL/Python và diễn giải kết quả
Tự động hóa doanh nghiệp
- Agents hỗ trợ khách hàng xử lý ticket đầu cuối (không chỉ soạn thảo phản hồi)
- Agents bán hàng nghiên cứu khách hàng tiềm năng, soạn outreach và lên lịch cuộc gọi
- Agents tài chính đối chiếu giao dịch và sinh báo cáo ngoại lệ
Năng suất cá nhân
- Agents email soạn thảo phản hồi, lên lịch họp và quản lý hộp thư
- Trợ lý nghiên cứu tìm, đọc và tóm tắt bài báo theo yêu cầu
- Tự động hóa workflow kết nối các công cụ rời rạc mà không cần tích hợp tùy chỉnh
🚫 Khi KHÔNG nên dùng Agents
Agents rất mạnh nhưng không phải lúc nào cũng là giải pháp phù hợp. Sử dụng agent khi có giải pháp đơn giản hơn sẽ làm tăng chi phí, độ trễ và tính không xác định.
| Situation | Cách tiếp cận tốt hơn |
|---|---|
| Nhiệm vụ một bước với input/output rõ ràng | Gọi API LLM trực tiếp |
| Biến đổi dữ liệu có tính xác định | Mã truyền thống (không cần LLM) |
| Hành động không thể đảo ngược với quy mô lớn và rủi ro cao | Quy trình làm việc của con người có trợ giúp AI (L1–L2) |
| Tính năng nhạy cảm với độ trễ cho người dùng | Gọi API trực tiếp; agents thêm chi phí vòng đi-về |
| Yêu cầu kiểm soát/chứng thực nghiêm ngặt | Human-in-the-loop với agent chỉ soạn thảo |
Tìm hiểu cách agents kết nối với các công cụ bên ngoài thông qua Model Context Protocol (MCP), và hiểu rủi ro bảo mật của hành động tự động trong hướng dẫn của chúng tôi về Prompt Injection.