AI Agent là gì? Các mức độ tự chủ, thành phần & trường hợp sử dụng

🤖 AI Agent là gì?

An AI agent là một hệ thống AI sử dụng large language model làm động cơ suy luận để tự động nhận biết môi trường, lên kế hoạch hành động, sử dụng công cụ và thực hiện các nhiệm vụ đa bước hướng tới mục tiêu — mà không yêu cầu con người can thiệp ở mỗi bước.

Sự khác biệt chính so với chatbot LLM thông thường là agency: khả năng thực hiện các hành động có hệ quả trong thế giới. Một chatbot trả lời câu hỏi. Một agent đặt vé máy bay, viết và triển khai mã, gửi email, truy vấn cơ sở dữ liệu và lặp lại kết quả — tất cả một cách tự động.

💡 Định nghĩa đơn giản: LLM + Tools + Memory + Loop = Agent. Remove any of these, and you have something less than an agent. Add planning and multi-agent communication, and you get systems capable of extraordinary complexity.

📊 Các mức độ tự chủ (L0–L5)

Không phải tất cả “agents” đều có cùng mức độ tự chủ. Khung của Anthropic định nghĩa một phổ từ hoàn toàn do con người điều khiển tới hoàn toàn tự chủ:

Level	Name	Description	Example
L0	Không có AI	Phần mềm hoàn toàn do con người điều khiển	Kịch bản truyền thống, mẫu đơn
L1	AI-assisted	AI gợi ý; con người quyết định và hành động	GitHub Copilot autocomplete
L2	AI-driven	AI hành động; con người rà soát trước khi thực thi	AI soạn PR; nhà phát triển phê duyệt
L3	Semi-autonomous	AI thực thi với các điểm kiểm tra HITL có chọn lọc	Agent lập trình chạy bài kiểm tra tự động, hỏi trước khi merge
L4	Autonomous	AI thực thi đầu cuối; con người giám sát	Agent triển khai một tính năng đầy đủ mà không có bước nào của con người
L5	Hoàn toàn tự chủ	AI tự chỉ đạo, tự sửa lỗi, tự cải thiện	Chỉ ở giai đoạn nghiên cứu; chưa triển khai trong sản xuất

Hầu hết agents trong sản xuất ngày nay hoạt động ở L2–L3. L4 tồn tại trong các miền chuyên biệt (giao dịch tự động, pipelines dữ liệu). L5 vẫn là lý thuyết và nảy sinh nhiều câu hỏi về alignment.

🧩 Các thành phần cốt lõi của AI Agent

Mọi agent — bất kể framework hay nhà cung cấp — được xây dựng từ bốn thành phần nền tảng:

1. Nhận thức (Input)

Cách agent quan sát môi trường. Điều này bao gồm tin nhắn người dùng, kết quả gọi công cụ, nội dung tệp, phản hồi API, dữ liệu cảm biến và bất kỳ thông tin nào khác được đưa vào cửa sổ ngữ cảnh. Chất lượng những gì agent có thể nhận biết trực tiếp giới hạn những gì nó có thể làm.

2. Bộ nhớ

Agent có thể ghi nhớ gì và trong bao lâu:

Loại bộ nhớ	Scope	Implementation
In-context	Chỉ cuộc trò chuyện hiện tại	Các tin nhắn trong cửa sổ ngữ cảnh
Bên ngoài (ngắn hạn)	Thời lượng phiên hoặc tác vụ	Redis, bộ nhớ trong, tệp ghi chú tạm thời
Bên ngoài (dài hạn)	Duy trì qua các phiên	Cơ sở dữ liệu vector (RAG), SQL, hệ thống tệp
Trọng số model	Tích hợp sẵn trong model	Dữ liệu huấn luyện, fine-tuning

3. Công cụ (Hành động)

Những hàm mà agent có thể gọi để ảnh hưởng tới thế giới. Thiết kế công cụ rất quan trọng — các công cụ được định nghĩa rõ và có mô tả cùng schema giúp LLM sử dụng đúng cách. Công cụ thiết kế kém dẫn đến lạm dụng và lỗi.

Đọc công cụ: search_web, read_file, query_database, get_weather
Công cụ viết: write_file, send_email, create_pr, post_message
Công cụ thực thi: run_code, call_api, deploy_service
Công cụ của agent: spawn_subagent, ask_human (HITL), delegate_task

4. Lập kế hoạch & Lý luận

Cách agent quyết định bước tiếp theo. Các agent hiện đại sử dụng một hoặc nhiều mẫu lập kế hoạch:

ReAct (Reason + Act): Xen kẽ suy luận và sử dụng công cụ trong cùng ngữ cảnh
Chain-of-Thought: Suy luận từng bước rõ ràng trước khi hành động
Tree-of-Thought: Khám phá nhiều nhánh suy luận, chọn cái tốt nhất
Plan-and-Execute: Tạo kế hoạch đầy đủ trước, sau đó thực thi từng bước

🔁 Vòng lặp Agent

Hầu hết agents hoạt động theo vòng lặp perceive-plan-act lặp lại cho đến khi nhiệm vụ hoàn thành hoặc đạt điều kiện dừng:

Quan sát: Đọc trạng thái hiện tại (tin nhắn, kết quả công cụ, bộ nhớ)
Lập kế hoạch: LLM suy luận về việc tiếp theo (có thể sinh ra scratchpad hoặc CoT)
Hành động: Gọi công cụ, sinh output, hoặc yêu cầu đầu vào từ con người
Cập nhật: Nhận kết quả công cụ, cập nhật bộ nhớ, thêm vào ngữ cảnh
Đánh giá: Kiểm tra xem mục tiêu đã đạt chưa; nếu chưa, quay lại bước 1

Điều kiện dừng rất quan trọng để tránh vòng lặp vô hạn. Các cách phổ biến gồm: giới hạn số vòng lặp tối đa, gọi công cụ "task complete" rõ ràng và các điểm kiểm tra human-in-the-loop sau N bước.

⚠️ Vòng lặp agent không có cơ chế bảo vệ có thể chạy vô thời hạn và tích tụ chi phí API khổng lồ. Luôn triển khai giới hạn vòng lặp cứng và ngân sách token cho agents sản xuất.

🛠️ Frameworks & SDKs cho Agent

Hệ sinh thái AI agent đã phát triển nhanh chóng. Dưới đây là các framework chính tính đến tháng 4 năm 2026:

Framework	Language	Phù hợp cho	Hỗ trợ model
LangChain / LangGraph	Python, JS	Pipelines đa bước phức tạp, đồ thị có trạng thái	Bất kỳ (OpenAI, Anthropic, Ollama…)
AutoGen (Microsoft)	Python	Cuộc trò chuyện đa-agent, thực thi mã	OpenAI, Azure, local models
CrewAI	Python	Đội multi-agent theo vai trò	OpenAI, Anthropic, local
Claude Agent SDK (Anthropic)	Python, TS	Claude-native agents với MCP	Chỉ Claude
OpenAI Agents SDK	Python	OpenAI-native agents với handoffs	Chỉ OpenAI
Semantic Kernel (Microsoft)	Python, C#, Java	Doanh nghiệp, kiến trúc plugin	Any

Với dự án mới, hãy cân nhắc bắt đầu bằng cách tiếp cận nhẹ (gọi API trực tiếp + function calling) trước khi áp dụng framework nặng. Framework đem lại tiện lợi nhưng cũng tăng độ phức tạp và ràng buộc.

💼 Trường hợp sử dụng thực tế

Phát triển phần mềm

Agents lập trình đọc test lỗi, nhận diện bug và nộp PR (Devin, SWE-agent)
Agents rà soát mã kiểm tra lỗ hổng bảo mật và vi phạm style
Agents tạo tài liệu đọc source code và sinh API docs

Nghiên cứu & phân tích

Agents nghiên cứu sâu tìm web, đọc bài báo và tổng hợp báo cáo
Agents tình báo cạnh tranh giám sát tin tức và tạo tóm tắt
Agents phân tích dữ liệu viết và chạy SQL/Python và diễn giải kết quả

Tự động hóa doanh nghiệp

Agents hỗ trợ khách hàng xử lý ticket đầu cuối (không chỉ soạn thảo phản hồi)
Agents bán hàng nghiên cứu khách hàng tiềm năng, soạn outreach và lên lịch cuộc gọi
Agents tài chính đối chiếu giao dịch và sinh báo cáo ngoại lệ

Năng suất cá nhân

Agents email soạn thảo phản hồi, lên lịch họp và quản lý hộp thư
Trợ lý nghiên cứu tìm, đọc và tóm tắt bài báo theo yêu cầu
Tự động hóa workflow kết nối các công cụ rời rạc mà không cần tích hợp tùy chỉnh

🚫 Khi KHÔNG nên dùng Agents

Agents rất mạnh nhưng không phải lúc nào cũng là giải pháp phù hợp. Sử dụng agent khi có giải pháp đơn giản hơn sẽ làm tăng chi phí, độ trễ và tính không xác định.

Situation	Cách tiếp cận tốt hơn
Nhiệm vụ một bước với input/output rõ ràng	Gọi API LLM trực tiếp
Biến đổi dữ liệu có tính xác định	Mã truyền thống (không cần LLM)
Hành động không thể đảo ngược với quy mô lớn và rủi ro cao	Quy trình làm việc của con người có trợ giúp AI (L1–L2)
Tính năng nhạy cảm với độ trễ cho người dùng	Gọi API trực tiếp; agents thêm chi phí vòng đi-về
Yêu cầu kiểm soát/chứng thực nghiêm ngặt	Human-in-the-loop với agent chỉ soạn thảo

💡 Quy tắc chung: Nếu bạn có thể giải quyết vấn đề bằng một prompt được tinh chỉnh tốt và một lần gọi API, hãy làm vậy. Xây agent chỉ khi nhiệm vụ thực sự yêu cầu nhiều bước, chọn công cụ động, hoặc lặp lại dựa trên kết quả trung gian.

Tìm hiểu cách agents kết nối với các công cụ bên ngoài thông qua Model Context Protocol (MCP), và hiểu rủi ro bảo mật của hành động tự động trong hướng dẫn của chúng tôi về Prompt Injection.