Bài 37.1: RAG architecture và principles

Chào mừng trở lại với chuỗi bài viết về Lập trình Web và những chủ đề nóng hổi xung quanh nó! Hôm nay, chúng ta sẽ cùng "đào sâu" vào một kiến trúc AI đang làm mưa làm gió, giúp các mô hình ngôn ngữ lớn (LLM) trở nên thông minh hơn, chính xác hơn và cập nhật hơn trong các ứng dụng thực tế của chúng ta: RAG - Retrieval Augmented Generation.

Nếu bạn đã từng làm việc với các chatbot hoặc các ứng dụng dựa trên LLM cơ bản, có thể bạn đã gặp phải một số vấn đề phổ biến:

Kiến thức bị "cắt cụt": Các LLM được huấn luyện trên dữ liệu đến một thời điểm nhất định. Chúng không biết về những sự kiện, thông tin hoặc dữ liệu mới nhất xảy ra sau thời điểm đó.
"Ảo giác" (Hallucination): Đôi khi, LLM tự tin đưa ra những thông tin sai sự thật hoặc không có trong dữ liệu huấn luyện của chúng.
Thiếu ngữ cảnh cụ thể: LLM không có kiến thức về dữ liệu riêng tư của bạn, tài liệu nội bộ của công ty bạn, hay thông tin sản phẩm rất chi tiết trên website của bạn.

Đây chính là lúc RAG xuất hiện như một giải pháp đột phá.

RAG: Sự kết hợp mạnh mẽ của Truy xuất và Tạo sinh

RAG là viết tắt của Retrieval Augmented Generation, nghĩa là Tạo sinh được tăng cường bằng Truy xuất. Ý tưởng cốt lõi rất đơn giản nhưng cực kỳ hiệu quả: thay vì chỉ dựa vào kiến thức "nội tại" đã được học trong quá trình huấn luyện, mô hình sẽ truy xuất thông tin liên quan từ một nguồn dữ liệu bên ngoài và sử dụng thông tin đó để tăng cường cho quá trình tạo sinh câu trả lời.

Hãy tưởng tượng bạn hỏi một chuyên gia: "Chính sách đổi trả hàng mới nhất của cửa hàng X là gì?". Một chuyên gia giỏi sẽ không chỉ dựa vào trí nhớ chung chung, mà sẽ lập tức tra cứu tài liệu chính sách mới nhất của cửa hàng X (bước Retrieval), sau đó đọc hiểu và trả lời cho bạn dựa trên thông tin vừa tra cứu (bước Generation được Augmented bởi thông tin tra cứu). RAG làm chính xác điều này, nhưng ở quy mô máy tính.

Kiến trúc RAG hoạt động như thế nào?

Kiến trúc RAG thường bao gồm hai giai đoạn chính, hoạt động offline (chuẩn bị dữ liệu) và online (khi người dùng tương tác):

Giai đoạn 1: Chuẩn bị Dữ liệu (Indexing/Preparation) - Thường làm Offline

Đây là bước xây dựng "ngân hàng kiến thức" mà mô hình RAG sẽ truy xuất từ đó.

Thu thập Dữ liệu: Gom tất cả các nguồn thông tin mà bạn muốn LLM có thể truy cập: tài liệu, trang web, cơ sở dữ liệu, file PDF, v.v. Đây có thể là tài liệu nội bộ, kiến thức chuyên ngành, thông tin sản phẩm, blog, v.v.
Chia nhỏ (Chunking): Các tài liệu thường rất dài. Chúng ta cần chia chúng thành các đoạn nhỏ hơn, dễ quản lý và tìm kiếm hơn. Việc chia nhỏ này rất quan trọng vì LLM có "cửa sổ ngữ cảnh" (context window) giới hạn – chúng chỉ có thể xử lý một lượng văn bản nhất định cùng lúc. Các đoạn nhỏ giúp chúng ta chỉ đưa những thông tin thực sự liên quan vào cửa sổ ngữ cảnh.
Nhúng (Embedding): Mỗi đoạn văn bản nhỏ (chunk) sau khi chia sẽ được chuyển đổi thành một vector (một chuỗi các số) bằng cách sử dụng một mô hình nhúng (Embedding Model). Các vector này biểu diễn ý nghĩa ngữ nghĩa của đoạn văn bản đó. Các đoạn văn bản có ý nghĩa tương tự sẽ có các vector gần gũi trong không gian đa chiều.
Lưu trữ vào Cơ sở dữ liệu Vector (Vector Database): Các vector nhúng cùng với đoạn văn bản gốc tương ứng sẽ được lưu trữ trong một cơ sở dữ liệu được tối ưu hóa cho việc tìm kiếm sự tương đồng giữa các vector – gọi là Vector Database. Các database này (như Pinecone, Weaviate, Qdrant, ChromaDB, Milvus, v.v.) cho phép tìm kiếm rất nhanh các vector gần nhất với một vector truy vấn cho trước.

Ví dụ minh họa (Conceptual Chunking & Embedding - Python):

# Giả sử bạn có một đoạn văn bản dài
long_text = "Chính sách đổi trả hàng của FullhouseDev quy định rằng khách hàng có thể đổi trả sản phẩm trong vòng 30 ngày kể từ ngày mua nếu sản phẩm còn nguyên tem mác..."

# Bước 1: Chia nhỏ văn bản (Conceptual - dùng thư viện như LangChain)
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=100, # Kích thước đoạn văn bản mong muốn
    chunk_overlap=20 # Phần trùng lặp giữa các đoạn để giữ ngữ cảnh
)
chunks = text_splitter.split_text(long_text)
# chunks có thể trông như ["Chính sách đổi trả hàng của FullhouseDev quy định rằng khách hàng có thể đổi trả sản phẩm...", "...sản phẩm trong vòng 30 ngày kể từ ngày mua nếu sản phẩm còn nguyên tem mác..."]

print("Các đoạn văn bản (Chunks):")
for i, chunk in enumerate(chunks):
    print(f"Chunk {i+1}: {chunk}")

# Bước 2: Nhúng từng đoạn (Conceptual - dùng mô hình nhúng)
# Đây chỉ là minh họa, bạn sẽ dùng thư viện thực tế (vd: sentence-transformers, OpenAIEmbeddings)
def get_embedding(text):
    # Thực tế sẽ gọi API của mô hình nhúng hoặc chạy mô hình local
    # Trả về một vector số
    return [len(text), text.count('a'), text.count(' '), ...] # Vector giả định

chunk_embeddings = [get_embedding(chunk) for chunk in chunks]

print("\nVector nhúng của các Chunks:")
for i, embedding in enumerate(chunk_embeddings):
     print(f"Embedding Chunk {i+1}: {embedding[:5]}...") # Chỉ hiển thị vài phần tử đầu

Giải thích code: Đoạn code này minh họa hai bước đầu tiên của giai đoạn chuẩn bị: chia văn bản dài thành các đoạn nhỏ hơn (RecursiveCharacterTextSplitter) và sau đó chuyển mỗi đoạn thành một vector số (hàm get_embedding giả định). Trong thực tế, hàm get_embedding sẽ sử dụng một mô hình AI mạnh mẽ để tạo ra các vector có ý nghĩa ngữ nghĩa thực sự.

Giai đoạn 2: Xử lý Truy vấn (Query Processing) - Hoạt động Online

Khi người dùng đặt câu hỏi, hệ thống RAG sẽ thực hiện các bước sau:

Nhúng Truy vấn (Query Embedding): Câu hỏi của người dùng cũng được chuyển đổi thành một vector bằng cách sử dụng cùng mô hình nhúng đã dùng ở giai đoạn 1.
Tìm kiếm Sự tương đồng (Similarity Search): Hệ thống sẽ sử dụng vector của câu hỏi để tìm kiếm trong Vector Database. Nó sẽ tìm các vector của các đoạn văn bản (chunks) có sự tương đồng cao nhất với vector của câu hỏi. Điều này giúp truy xuất những đoạn văn bản liên quan nhất đến ý nghĩa của câu hỏi.
Tăng cường Prompt (Augment Prompt): Các đoạn văn bản liên quan vừa được truy xuất sẽ được thêm vào prompt của LLM. Prompt sẽ được cấu trúc lại để bao gồm hướng dẫn cho LLM, các đoạn văn bản ngữ cảnh được truy xuất, và câu hỏi gốc của người dùng. Ví dụ: "Hãy trả lời câu hỏi sau dựa chỉ vào thông tin trong các đoạn văn bản dưới đây. Các đoạn văn bản: [đoạn 1] [đoạn 2] [đoạn 3]. Câu hỏi: [câu hỏi của người dùng]".
Tạo sinh Câu trả lời (Generation): Prompt đã được tăng cường này được gửi đến LLM. LLM sẽ sử dụng ngữ cảnh được cung cấp để tạo ra câu trả lời. Vì LLM có thông tin cụ thể và cập nhật từ các đoạn văn bản, khả năng tạo ra câu trả lời chính xác, dựa trên thực tế và liên quan đến ngữ cảnh riêng của bạn sẽ cao hơn rất nhiều.

Ví dụ minh họa (Conceptual Vector Search & Prompt Augmentation - Python/Pseudocode):

# Giả sử bạn có vector của câu hỏi và Vector Database đã sẵn sàng
user_query = "Tôi có thể đổi trả hàng trong bao lâu?"
query_vector = get_embedding(user_query) # Nhúng câu hỏi bằng cùng mô hình

# Bước 1: Tìm kiếm trong Vector Database (Conceptual)
# Thực tế dùng thư viện của Vector DB (vd: pinecone.query, weaviate.query)
# db là đối tượng kết nối đến Vector Database
# k là số lượng đoạn văn bản liên quan nhất muốn lấy về
retrieved_chunks = db.similarity_search(query_vector, k=3) # Lấy 3 đoạn liên quan nhất

print("\nCác đoạn văn bản được truy xuất:")
for chunk in retrieved_chunks:
    print(f"- {chunk}") # Hiển thị nội dung các đoạn được lấy về

# Bước 2: Tăng cường Prompt cho LLM (Conceptual)
context_text = "\n".join(retrieved_chunks) # Nối các đoạn lại thành một chuỗi ngữ cảnh

# Tạo prompt cuối cùng gửi đến LLM
prompt = f"""
Sử dụng thông tin sau đây để trả lời câu hỏi của người dùng.
Nếu thông tin được cung cấp không đủ để trả lời, hãy nói rằng bạn không có đủ thông tin.

Ngữ cảnh:
{context_text}

Câu hỏi của người dùng:
{user_query}

Trả lời:
"""

print("\nPrompt được gửi đến LLM:")
print(prompt)

# Bước 3: Gửi prompt đến LLM và nhận kết quả (Conceptual)
# from langchain_openai import ChatOpenAI # Ví dụ dùng thư viện LangChain + OpenAI
# llm = ChatOpenAI(model="gpt-4") # Khởi tạo mô hình LLM
# final_answer = llm.invoke(prompt) # Gửi prompt và nhận câu trả lời

# print("\nCâu trả lời cuối cùng từ LLM:")
# print(final_answer)

Giải thích code: Đoạn code này mô phỏng cách hệ thống RAG hoạt động khi có câu hỏi từ người dùng. Đầu tiên, câu hỏi được chuyển thành vector. Vector này được dùng để tìm kiếm các đoạn văn bản liên quan trong Vector Database. Cuối cùng, các đoạn văn bản được tìm thấy được kết hợp với câu hỏi gốc để tạo thành một prompt chi tiết và đầy đủ, sẵn sàng gửi tới mô hình LLM để tạo ra câu trả lời cuối cùng dựa trên ngữ cảnh đã được cung cấp.

Các Nguyên tắc Cốt lõi của RAG

Dựa trên kiến trúc, chúng ta có thể rút ra các nguyên tắc quan trọng làm nên sức mạnh của RAG:

Ngữ cảnh là Vua (Context is King): RAG hiểu rằng câu trả lời tốt nhất thường dựa trên thông tin ngữ cảnh cụ thể và liên quan nhất, thay vì chỉ dựa vào kiến thức chung chung.
Tách biệt Kiến thức và Suy luận: Quá trình truy xuất kiến thức (tìm thông tin) được tách biệt khỏi quá trình suy luận và tạo sinh câu trả lời (thực hiện bởi LLM). Điều này giúp hệ thống linh hoạt và dễ dàng cập nhật kiến thức mới mà không cần huấn luyện lại toàn bộ LLM.
Tập trung vào Độ liên quan (Relevance): Khả năng tìm kiếm và truy xuất chính xác các đoạn văn bản liên quan đến câu hỏi là yếu tố then chốt quyết định chất lượng của câu trả lời cuối cùng. Chất lượng của mô hình nhúng và Vector Database đóng vai trò rất lớn ở đây.
Khả năng Cập nhật Nhanh chóng: Bạn có thể dễ dàng thêm, sửa hoặc xóa thông tin trong nguồn dữ liệu của mình (chỉ cần xử lý lại bước Indexing cho phần dữ liệu thay đổi) mà không ảnh hưởng đến LLM. Điều này giúp hệ thống RAG luôn làm việc với thông tin mới nhất.
Giảm thiểu "Ảo giác": Bằng cách buộc LLM phải dựa vào ngữ cảnh được cung cấp, RAG giúp giảm đáng kể khả năng LLM bịa đặt thông tin. Nếu thông tin không có trong ngữ cảnh truy xuất, LLM sẽ khó mà tạo ra câu trả lời sai lệch một cách tự tin.
Tính Minh bạch ( tiềm năng ): Với kiến trúc RAG, bạn có tiềm năng cho người dùng biết thông tin được truy xuất từ nguồn nào (bằng cách hiển thị nguồn của các đoạn văn bản được dùng làm ngữ cảnh). Điều này tăng tính minh bạch và độ tin cậy.

Tại sao RAG quan trọng đối với Lập trình Web?

Là những người làm trong lĩnh vực web, chúng ta luôn tìm cách xây dựng những ứng dụng mạnh mẽ và thông minh hơn. RAG mở ra cánh cửa cho việc tích hợp AI vào ứng dụng web một cách hiệu quả:

Chatbot Thông minh hơn: Xây dựng chatbot hỗ trợ khách hàng, chatbot tư vấn sản phẩm, hoặc chatbot nội bộ cho công ty dựa trên dữ liệu cụ thể của bạn (chính sách, danh mục sản phẩm, tài liệu kỹ thuật) thay vì chỉ dựa vào kiến thức chung của LLM.
Tìm kiếm ngữ nghĩa trên Website/App: Tạo công cụ tìm kiếm không chỉ dựa trên từ khóa mà dựa trên ý nghĩa của nội dung, giúp người dùng tìm thấy thông tin họ cần nhanh hơn và chính xác hơn trong các tài liệu, bài viết, sản phẩm trên website của bạn.
Tạo Nội dung Tự động dựa trên Dữ liệu Nội bộ: Sử dụng RAG để tạo báo cáo, tóm tắt, hoặc mô tả sản phẩm dựa trên dữ liệu được truy xuất từ cơ sở dữ liệu nội bộ hoặc tài liệu công ty.
Trải nghiệm Cá nhân hóa: Kết hợp dữ liệu người dùng (lịch sử mua hàng, sở thích) được truy xuất từ database truyền thống với RAG để cung cấp các đề xuất hoặc thông tin được cá nhân hóa sâu sắc hơn thông qua giao diện chatbot hoặc trợ lý ảo.

Comments

There are no comments at the moment.