ออกแบบ AI Workflow แบบ Big Tech: จาก Prompt ถึง Production ด้วย Agent + RAG

บทความนี้พาคุณวางโครง AI Workflow ตั้งแต่รับโจทย์จากผู้ใช้, route งานด้วย agent, เชื่อม RAG เพื่อดึงความรู้, ไปจนถึง deploy และ monitor ใน production แบบที่ทีมเล็กถึงกลางทำตามได้จริง

AI Workflow, Agent, RAG, Production, LLM

การทำ AI ให้ใช้งานได้จริงไม่ใช่แค่เขียน prompt ให้ตอบเก่ง แต่ต้องออกแบบ workflow ทั้งเส้นทางตั้งแต่รับคำขอ, ตัดสินใจว่าจะให้ใครทำงาน, ดึงข้อมูลที่เกี่ยวข้อง, และคุมคุณภาพหลัง deploy บทความนี้จะพาคุณประกอบระบบแบบ step-by-step ในสไตล์ที่คล้ายองค์กรใหญ่ใช้จริง โดยหลังอ่านจบคุณจะได้ภาพสถาปัตยกรรม AI Workflow ที่นำไปเริ่มต้นกับทีมขนาดเล็กถึงกลางได้ทันที สิ่งที่ควรมีมาก่อนคือความเข้าใจพื้นฐานเรื่อง API, LLM, และการเก็บข้อมูลในฐานข้อมูลหรือ vector store

Step 1: ออกแบบจุดรับคำขอและแยกประเภทงานให้ชัด

เริ่มจากกำหนด entry point ของระบบก่อน เช่น chatbot, internal tool, หรือ API endpoint เพราะจุดนี้จะเป็นที่รับทั้งข้อความผู้ใช้, metadata, และ context ทางธุรกิจ เหตุผลที่ต้องออกแบบส่วนนี้ให้ชัดคือคำขอแต่ละแบบไม่ควรวิ่งเข้าโมเดลเดียวกันทั้งหมด บางงานต้องตอบจากเอกสาร บางงานต้องคำนวณ บางงานต้องส่งต่อให้ human review

แนวทางที่ทำได้ทันทีคือแบ่งคำขอออกเป็น 3 กลุ่มหลัก

FAQ / Knowledge lookup: เหมาะกับ RAG

Task execution: เช่น สรุป, แปล, จัดหมวดหมู่

Action workflow: เช่น สร้าง ticket, เรียก service ภายใน

ตัวอย่าง pseudo-flow

User Request -> Input Validator -> Intent Classifier -> Route to Agent

ในขั้นนี้ควรมีการตรวจสอบเบื้องต้นด้วย เช่น

ความยาวข้อความเกิน limit หรือไม่

มีข้อมูลอ่อนไหวที่ต้อง mask หรือไม่

จำเป็นต้องแนบ user role เพื่อกำหนดสิทธิ์หรือไม่

หากทำจุดนี้ดี ระบบจะลด cost และลดโอกาสที่ agent หรือ model ถูกใช้งานผิดประเภทตั้งแต่ต้นทาง

Step 2: ใช้ Agent เป็นตัว route งานแทนการให้ LLM ทำทุกอย่าง

หลายทีมเริ่มต้นผิดตรงที่โยนทุกโจทย์เข้า LLM ตัวเดียว แล้วคาดหวังให้มันตัดสินใจเองทั้งหมด วิธีที่ scale ได้ดีกว่าคือมี orchestrator agent ทำหน้าที่เป็นตัวกลาง แล้วค่อยส่งงานไปยัง sub-agent ตามความถนัด

ตัวอย่างโครงสร้าง agent ที่ใช้ได้จริง

Router Agent: วิเคราะห์ intent และเลือกเส้นทาง

Retrieval Agent: ดึงข้อมูลจาก knowledge base

Writer Agent: เรียบเรียงคำตอบให้อ่านง่าย

Action Agent: เรียก API หรือระบบภายใน

ตัวอย่าง logic แบบง่าย

if intent == "knowledge_query":
    result = retrieval_agent.run(query)
    answer = writer_agent.run(result)
elif intent == "create_ticket":
    answer = action_agent.run(payload)
else:
    answer = fallback_agent.run(user_input)

เหตุผลที่แยกแบบนี้เพราะทำให้

debug ง่ายขึ้น

เปลี่ยนบางส่วนได้โดยไม่กระทบทั้งระบบ

วัดผลราย agent ได้ เช่น latency, error rate, success rate

สำหรับทีมเล็ก ไม่จำเป็นต้องมี agent จำนวนมากตั้งแต่แรก เริ่มจาก 2-3 ตัวที่แยกหน้าที่ชัดเจนก็เพียงพอ

Step 3: เติม RAG เพื่อให้คำตอบอิงข้อมูลจริงขององค์กร

เมื่อระบบต้องตอบจากเอกสารภายใน, policy, product spec, หรือ playbook การใช้แค่ prompt อย่างเดียวมักไม่พอ ต้องมี RAG (Retrieval-Augmented Generation) เพื่อให้โมเดลดึงข้อมูลที่เกี่ยวข้องก่อนตอบ

ลำดับการทำ RAG ที่แนะนำคือ

รวบรวมเอกสารต้นทาง

ทำ chunking ให้ขนาดพอดีกับบริบท

แปลงเป็น embedding

เก็บใน vector store

ค้นหา top-k ข้อความที่เกี่ยวข้อง

ส่ง context เข้า LLM เพื่อสร้างคำตอบ

ตัวอย่าง prompt pattern

คำถามผู้ใช้: {query}
ข้อมูลอ้างอิง:
{retrieved_context}

จงตอบโดยอิงจากข้อมูลอ้างอิงเท่านั้น
ถ้าข้อมูลไม่พอ ให้บอกตรงๆ ว่าไม่พบข้อมูลที่ชัดเจน

เคล็ดลับสำคัญคืออย่าดึง context เยอะเกินไป เพราะจะเพิ่ม cost และทำให้คำตอบฟุ้ง ควรทดลองเรื่อง

chunk size

top-k retrieval

metadata filter เช่น แผนก, ภาษา, วันที่อัปเดต

ถ้าต้องการความน่าเชื่อถือสูง ควรให้ระบบส่งกลับ source reference หรือชื่อเอกสารที่ใช้ตอบด้วย เพื่อช่วยทั้งผู้ใช้และทีม support ตรวจสอบย้อนหลังได้

Step 4: Deploy แบบ production-ready และใส่ monitoring ตั้งแต่วันแรก

ระบบ AI ที่เดโมได้ กับระบบที่ใช้งานจริง ต่างกันมากในเรื่องเสถียรภาพและการสังเกตการณ์ ใน production คุณควรแยก pipeline ให้ชัดว่าอะไรคือ online path และอะไรคือ offline job เช่น embedding update, evaluation batch, หรือ re-index เอกสาร

องค์ประกอบขั้นต่ำที่ควรมี

API service สำหรับรับ request

queue / worker สำหรับงานที่ใช้เวลานาน

model gateway สำหรับเรียก LLM หลาย provider ได้

logging เก็บ prompt, response, latency, token usage

monitoring dashboard สำหรับดู error และคุณภาพ

ตัวอย่าง metrics ที่ควรติดตาม

response time

retrieval hit rate

hallucination report

token cost per request

fallback frequency

อีกเรื่องที่หลายทีมมองข้ามคือ versioning ควร version ทั้ง prompt, retrieval setting, และ model configuration เพราะเมื่อคุณภาพตก จะได้ย้อนกลับไปหาสาเหตุได้ว่าเกิดจาก prompt เปลี่ยน, embedding เปลี่ยน, หรือเอกสารใหม่เข้า index แล้วกระทบผลลัพธ์

Troubleshooting / Tips: ปัญหาที่เจอบ่อยและวิธีแก้

ปัญหาที่พบบ่อยใน AI Workflow มักไม่ใช่เรื่องโมเดลอย่างเดียว แต่เป็นการประกอบระบบไม่ครบชั้น

ตอบผิดแม้มีข้อมูลในคลังความรู้

ตรวจ chunking ว่าตัดข้อความสั้นหรือยาวเกินไป

ตรวจ retrieval query ว่าถูก rewrite หรือไม่

ตรวจ metadata filter ว่าบล็อกเอกสารที่ควรค้นเจอหรือเปล่า

ค่าใช้จ่ายสูงเกินคาด

ลดจำนวน context ที่ส่งเข้า model

ใช้ model ขนาดเล็กกับงาน route หรือ classify

cache คำถามที่เกิดซ้ำ

agent ตัดสินใจผิดเส้นทาง

เพิ่ม rule-based guardrail สำหรับ intent สำคัญ

เก็บตัวอย่าง misroute แล้วนำมาปรับ classifier

ตอบมั่นใจเกินไปทั้งที่ข้อมูลไม่พอ

บังคับ prompt ให้ตอบว่าไม่ทราบเมื่อ evidence ไม่พอ

เพิ่ม confidence check ก่อนแสดงผล

สรุปแล้ว AI Workflow ที่ดีต้องคิดเป็นระบบ ไม่ใช่คิดเฉพาะ prompt โดยโครงสร้างที่แนะนำคือเริ่มจาก entry point ที่คุม input ได้, ใช้ agent route งานตามหน้าที่, เสริม RAG ให้ตอบจากข้อมูลจริง, และปิดท้ายด้วย deployment ที่มี monitoring และ versioning ครบ เมื่อทำพื้นฐานนี้แน่นแล้ว คุณสามารถต่อยอดไปสู่ human-in-the-loop, automatic evaluation, หรือ multi-agent workflow ที่ซับซ้อนขึ้นได้โดยไม่ต้องรื้อระบบใหม่ทั้งหมด

กลับไปยังบล็อก OVERFLOW