ออกแบบ AI Workflow แบบ Big Tech: จาก Prompt ถึง Production ด้วย Agent + RAG

บทความนี้พาคุณวางโครง AI Workflow ตั้งแต่รับโจทย์จากผู้ใช้, route งานด้วย agent, เชื่อม RAG เพื่อดึงความรู้, ไปจนถึง deploy และ monitor ใน production แบบที่ทีมเล็กถึงกลางทำตามได้จริง

ออกแบบ AI Workflow แบบ Big Tech: จาก Prompt ถึง Production ด้วย Agent + RAG

AI Workflow, Agent, RAG, Production, LLM

การทำ AI ให้ใช้งานได้จริงไม่ใช่แค่เขียน prompt ให้ตอบเก่ง แต่ต้องออกแบบ workflow ทั้งเส้นทางตั้งแต่รับคำขอ, ตัดสินใจว่าจะให้ใครทำงาน, ดึงข้อมูลที่เกี่ยวข้อง, และคุมคุณภาพหลัง deploy บทความนี้จะพาคุณประกอบระบบแบบ step-by-step ในสไตล์ที่คล้ายองค์กรใหญ่ใช้จริง โดยหลังอ่านจบคุณจะได้ภาพสถาปัตยกรรม AI Workflow ที่นำไปเริ่มต้นกับทีมขนาดเล็กถึงกลางได้ทันที สิ่งที่ควรมีมาก่อนคือความเข้าใจพื้นฐานเรื่อง API, LLM, และการเก็บข้อมูลในฐานข้อมูลหรือ vector store

Step 1: ออกแบบจุดรับคำขอและแยกประเภทงานให้ชัด

เริ่มจากกำหนด entry point ของระบบก่อน เช่น chatbot, internal tool, หรือ API endpoint เพราะจุดนี้จะเป็นที่รับทั้งข้อความผู้ใช้, metadata, และ context ทางธุรกิจ เหตุผลที่ต้องออกแบบส่วนนี้ให้ชัดคือคำขอแต่ละแบบไม่ควรวิ่งเข้าโมเดลเดียวกันทั้งหมด บางงานต้องตอบจากเอกสาร บางงานต้องคำนวณ บางงานต้องส่งต่อให้ human review

แนวทางที่ทำได้ทันทีคือแบ่งคำขอออกเป็น 3 กลุ่มหลัก

  • FAQ / Knowledge lookup: เหมาะกับ RAG
  • Task execution: เช่น สรุป, แปล, จัดหมวดหมู่
  • Action workflow: เช่น สร้าง ticket, เรียก service ภายใน
  • ตัวอย่าง pseudo-flow

    User Request -> Input Validator -> Intent Classifier -> Route to Agent

    ในขั้นนี้ควรมีการตรวจสอบเบื้องต้นด้วย เช่น

  • ความยาวข้อความเกิน limit หรือไม่
  • มีข้อมูลอ่อนไหวที่ต้อง mask หรือไม่
  • จำเป็นต้องแนบ user role เพื่อกำหนดสิทธิ์หรือไม่
  • หากทำจุดนี้ดี ระบบจะลด cost และลดโอกาสที่ agent หรือ model ถูกใช้งานผิดประเภทตั้งแต่ต้นทาง

    Step 2: ใช้ Agent เป็นตัว route งานแทนการให้ LLM ทำทุกอย่าง

    หลายทีมเริ่มต้นผิดตรงที่โยนทุกโจทย์เข้า LLM ตัวเดียว แล้วคาดหวังให้มันตัดสินใจเองทั้งหมด วิธีที่ scale ได้ดีกว่าคือมี orchestrator agent ทำหน้าที่เป็นตัวกลาง แล้วค่อยส่งงานไปยัง sub-agent ตามความถนัด

    ตัวอย่างโครงสร้าง agent ที่ใช้ได้จริง

  • Router Agent: วิเคราะห์ intent และเลือกเส้นทาง
  • Retrieval Agent: ดึงข้อมูลจาก knowledge base
  • Writer Agent: เรียบเรียงคำตอบให้อ่านง่าย
  • Action Agent: เรียก API หรือระบบภายใน
  • ตัวอย่าง logic แบบง่าย

    if intent == "knowledge_query":
        result = retrieval_agent.run(query)
        answer = writer_agent.run(result)
    elif intent == "create_ticket":
        answer = action_agent.run(payload)
    else:
        answer = fallback_agent.run(user_input)

    เหตุผลที่แยกแบบนี้เพราะทำให้

  • debug ง่ายขึ้น
  • เปลี่ยนบางส่วนได้โดยไม่กระทบทั้งระบบ
  • วัดผลราย agent ได้ เช่น latency, error rate, success rate
  • สำหรับทีมเล็ก ไม่จำเป็นต้องมี agent จำนวนมากตั้งแต่แรก เริ่มจาก 2-3 ตัวที่แยกหน้าที่ชัดเจนก็เพียงพอ

    Step 3: เติม RAG เพื่อให้คำตอบอิงข้อมูลจริงขององค์กร

    เมื่อระบบต้องตอบจากเอกสารภายใน, policy, product spec, หรือ playbook การใช้แค่ prompt อย่างเดียวมักไม่พอ ต้องมี RAG (Retrieval-Augmented Generation) เพื่อให้โมเดลดึงข้อมูลที่เกี่ยวข้องก่อนตอบ

    ลำดับการทำ RAG ที่แนะนำคือ

  • รวบรวมเอกสารต้นทาง
  • ทำ chunking ให้ขนาดพอดีกับบริบท
  • แปลงเป็น embedding
  • เก็บใน vector store
  • ค้นหา top-k ข้อความที่เกี่ยวข้อง
  • ส่ง context เข้า LLM เพื่อสร้างคำตอบ
  • ตัวอย่าง prompt pattern

    คำถามผู้ใช้: {query}
    ข้อมูลอ้างอิง:
    {retrieved_context}
    
    จงตอบโดยอิงจากข้อมูลอ้างอิงเท่านั้น
    ถ้าข้อมูลไม่พอ ให้บอกตรงๆ ว่าไม่พบข้อมูลที่ชัดเจน

    เคล็ดลับสำคัญคืออย่าดึง context เยอะเกินไป เพราะจะเพิ่ม cost และทำให้คำตอบฟุ้ง ควรทดลองเรื่อง

  • chunk size
  • top-k retrieval
  • metadata filter เช่น แผนก, ภาษา, วันที่อัปเดต
  • ถ้าต้องการความน่าเชื่อถือสูง ควรให้ระบบส่งกลับ source reference หรือชื่อเอกสารที่ใช้ตอบด้วย เพื่อช่วยทั้งผู้ใช้และทีม support ตรวจสอบย้อนหลังได้

    Step 4: Deploy แบบ production-ready และใส่ monitoring ตั้งแต่วันแรก

    ระบบ AI ที่เดโมได้ กับระบบที่ใช้งานจริง ต่างกันมากในเรื่องเสถียรภาพและการสังเกตการณ์ ใน production คุณควรแยก pipeline ให้ชัดว่าอะไรคือ online path และอะไรคือ offline job เช่น embedding update, evaluation batch, หรือ re-index เอกสาร

    องค์ประกอบขั้นต่ำที่ควรมี

  • API service สำหรับรับ request
  • queue / worker สำหรับงานที่ใช้เวลานาน
  • model gateway สำหรับเรียก LLM หลาย provider ได้
  • logging เก็บ prompt, response, latency, token usage
  • monitoring dashboard สำหรับดู error และคุณภาพ
  • ตัวอย่าง metrics ที่ควรติดตาม

  • response time
  • retrieval hit rate
  • hallucination report
  • token cost per request
  • fallback frequency
  • อีกเรื่องที่หลายทีมมองข้ามคือ versioning ควร version ทั้ง prompt, retrieval setting, และ model configuration เพราะเมื่อคุณภาพตก จะได้ย้อนกลับไปหาสาเหตุได้ว่าเกิดจาก prompt เปลี่ยน, embedding เปลี่ยน, หรือเอกสารใหม่เข้า index แล้วกระทบผลลัพธ์

    Troubleshooting / Tips: ปัญหาที่เจอบ่อยและวิธีแก้

    ปัญหาที่พบบ่อยใน AI Workflow มักไม่ใช่เรื่องโมเดลอย่างเดียว แต่เป็นการประกอบระบบไม่ครบชั้น

  • ตอบผิดแม้มีข้อมูลในคลังความรู้
  • ตรวจ chunking ว่าตัดข้อความสั้นหรือยาวเกินไป
  • ตรวจ retrieval query ว่าถูก rewrite หรือไม่
  • ตรวจ metadata filter ว่าบล็อกเอกสารที่ควรค้นเจอหรือเปล่า
  • ค่าใช้จ่ายสูงเกินคาด
  • ลดจำนวน context ที่ส่งเข้า model
  • ใช้ model ขนาดเล็กกับงาน route หรือ classify
  • cache คำถามที่เกิดซ้ำ
  • agent ตัดสินใจผิดเส้นทาง
  • เพิ่ม rule-based guardrail สำหรับ intent สำคัญ
  • เก็บตัวอย่าง misroute แล้วนำมาปรับ classifier
  • ตอบมั่นใจเกินไปทั้งที่ข้อมูลไม่พอ
  • บังคับ prompt ให้ตอบว่าไม่ทราบเมื่อ evidence ไม่พอ
  • เพิ่ม confidence check ก่อนแสดงผล
  • สรุปแล้ว AI Workflow ที่ดีต้องคิดเป็นระบบ ไม่ใช่คิดเฉพาะ prompt โดยโครงสร้างที่แนะนำคือเริ่มจาก entry point ที่คุม input ได้, ใช้ agent route งานตามหน้าที่, เสริม RAG ให้ตอบจากข้อมูลจริง, และปิดท้ายด้วย deployment ที่มี monitoring และ versioning ครบ เมื่อทำพื้นฐานนี้แน่นแล้ว คุณสามารถต่อยอดไปสู่ human-in-the-loop, automatic evaluation, หรือ multi-agent workflow ที่ซับซ้อนขึ้นได้โดยไม่ต้องรื้อระบบใหม่ทั้งหมด

    กลับไปยังบล็อก OVERFLOW