AI & LLM

Glossary คำศัพท์ AI ที่ต้องรู้ ฉบับนักพัฒนา

RAG, fine-tuning, embedding, context window, hallucination — อธิบายสั้นๆ ตรงๆ ไม่มีน้ำ

Nat ·
#glossary #llm #rag #fine-tuning #embedding

คำศัพท์ที่เจอบ่อยในโลก AI/LLM เรียงตามตัวอักษร อัพเดทเรื่อยๆ


Context Window

จำนวน token สูงสุดที่ model รับ-ส่งได้ใน 1 request รวม input + output
เช่น: Claude 3.5 = 200K tokens ≈ หนังสือ ~150 หน้า

Embedding

การแปลง text เป็น vector ตัวเลข เพื่อคำนวณความ “ใกล้เคียง” ทางความหมาย
ใช้ใน: RAG, semantic search, clustering

Fine-tuning

การ train model เพิ่มด้วยข้อมูลของเราเพื่อให้ตอบสไตล์/domain ที่เราต้องการ
เหมาะกับ: งานที่ต้องการ tone เฉพาะ หรือความรู้เฉพาะทางที่ไม่มีใน pre-training

Hallucination

เมื่อ model “แต่งข้อมูล” ที่ไม่มีจริงออกมาอย่างมั่นใจ
แก้ได้ด้วย: RAG, grounding ด้วย source จริง, prompt ให้บอกว่า “ไม่รู้”

Prompt Engineering

การออกแบบ input ที่ให้ model ตอบได้ดีขึ้นโดยไม่ต้อง fine-tune
เทคนิค: few-shot, chain-of-thought, role assignment, structured output

RAG (Retrieval-Augmented Generation)

ดึงข้อมูลจาก knowledge base มาใส่ใน context ก่อนให้ model ตอบ
ทำไมดี: model ไม่ต้องจำทุกอย่าง แค่อ่านและสรุปสิ่งที่ดึงมา

Temperature

ค่าควบคุมความ “random” ของคำตอบ

  • 0.0 = deterministic, คำตอบเดิมทุกครั้ง
  • 1.0 = creative, หลากหลาย
  • งานโค้ด/fact: ใช้ต่ำ | งาน creative: ใช้สูง

Token

หน่วยที่เล็กที่สุดที่ model ประมวลผล — ไม่ใช่ตัวอักษร ไม่ใช่คำ
คร่าวๆ: 1 คำภาษาอังกฤษ ≈ 1–2 token | 1 คำไทย ≈ 2–4 token