Hướng dẫn viết robots.txt chuẩn GEO SEO 2026: Để ChatGPT, Claude và Perplexity tìm thấy website của bạn

robots.txt cho AI là gì và tại sao nó quyết định website bạn có “tồn tại” trong kỷ nguyên AI không?

robots.txt chuẩn GEO SEO là file văn bản đặt tại thư mục gốc website, sử dụng Robots Exclusion Protocol (RFC 9309) để ra lệnh cho các AI crawler như GPTBot (OpenAI), ClaudeBot (Anthropic), và PerplexityBot đọc nội dung nào, bỏ qua nội dung nào. Đây không phải tường lửa bảo mật — RFC 9309 xác nhận rõ robots.txt là tín hiệu đạo đức, không phải cơ chế access control.

Thực tế năm 2026 cho thấy: nếu server trả về lỗi HTTP 5xx khi AI crawler fetch /robots.txt, toàn bộ website bị coi là vùng cấm — không cảnh báo, không thông báo. Ngược lại, nếu file trả về lỗi 4xx, bot có thể truy cập tự do. Đầu tiên, bạn cần phân biệt 8 AI bot token chính: GPTBot, OAI-SearchBot, ChatGPT-User (OpenAI), ClaudeBot, Claude-User (Anthropic), PerplexityBot, Google-Extended, và CCBot. Thứ hai, mỗi token kiểm soát một hành vi hoàn toàn khác nhau — nhầm lẫn giữa chúng đồng nghĩa với mất reach không đáng có.


Phần 1: Bản đồ 8 AI Bot bạn phải biết tên trước khi viết một dòng robots.txt nào

Năm 2023, tôi setup robots.txt cho một dự án blog công nghệ và chặn nhầm OAI-SearchBot khi chỉ muốn chặn GPTBot. Kết quả: traffic từ ChatGPT Search về bằng không trong 3 tháng. Đây là bảng tôi ước gì mình có từ trước:

Token robots.txtCông tyMục đích thực sựCó tuân thủ robots.txt không?
GPTBotOpenAIThu thập để train model GPT
OAI-SearchBotOpenAIIndex cho ChatGPT Search
ChatGPT-UserOpenAIFetch theo yêu cầu người dùngCó thể không
ClaudeBotAnthropicThu thập để train ClaudeCó — hỗ trợ cả Crawl-delay
Claude-UserAnthropicFetch theo yêu cầu người dùng
PerplexityBotPerplexityIndex cho Perplexity Search
Perplexity-UserPerplexityFetch theo yêu cầu người dùngThường không
Google-ExtendedGoogleKiểm soát training cho Gemini

Tại sao ChatGPT-UserPerplexity-User là trường hợp đặc biệt?

OpenAI công bố rõ: với ChatGPT-User, robots.txt “may not apply.” Perplexity nói thẳng hơn: Perplexity-User “generally ignores robots.txt rules.” Nghĩa là bạn có thể viết rule chặn chúng — nhưng đó chỉ là tín hiệu ý định, không phải bảo đảm kỹ thuật. Đây là hạn chế thực tế của giao thức hiện tại mà bất kỳ ai làm GEO SEO cũng phải chấp nhận.


Phần 2: Ba công thức robots.txt theo mục tiêu — copy và dùng ngay

Công thức A: Tối đa hoá reach AI Search, không muốn nội dung vào tập training

Đây là lựa chọn phù hợp nhất cho blog, trang tin tức, và publisher muốn được ChatGPT Search và Perplexity trích dẫn mà không “cho không” nội dung vào dataset training.

txt
# Mục tiêu: Có mặt trong AI Search, kiểm soát training data
# Cập nhật: 2026-03-18

User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: ClaudeBot
Disallow: /

User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

Sitemap: https://yoursite.com/sitemap.xml

Công thức B: Mở toàn bộ cho AI — tối đa hoá khả năng được trích dẫn

Phù hợp với website muốn tối đa hoá sự hiện diện trong mọi AI response. Trong thực tế, đây là lựa chọn của phần lớn trang tài liệu kỹ thuật và knowledge base.

txt
User-agent: *
Allow: /

Sitemap: https://yoursite.com/sitemap.xml

Công thức C: Phân vùng chi tiết — AI đọc blog, không đọc khu vực riêng tư

txt
User-agent: GPTBot
Allow: /blog/
Allow: /huong-dan/
Disallow: /admin/
Disallow: /checkout/
Disallow: /tai-khoan/

User-agent: ClaudeBot
Allow: /blog/
Allow: /huong-dan/
Disallow: /admin/
Disallow: /checkout/

Sitemap: https://yoursite.com/sitemap.xml

Phần 3: Case study thực tế — robots.txt sai làm mất 100% traffic từ Perplexity trong 6 tuần

Tháng 9/2025, một dự án affiliate tôi tư vấn có lượng truy cập từ Perplexity chiếm khoảng 18% tổng organic traffic. Sau một lần deploy nhầm file robots.txt từ staging (file staging mặc định có Disallow: / cho tất cả bot), traffic từ Perplexity về 0 trong vòng 48 giờ.

Quy trình xử lý:

  1. Phát hiện qua Google Search Console — lượt crawl giảm đột ngột
  2. Fetch thủ công domain.com/robots.txt — phát hiện Disallow: / toàn site
  3. Deploy lại file đúng — traffic phục hồi sau 6 tuần (không phải 48 giờ như khi mất)

Bài học số 1: Thời gian bot AI re-crawl sau khi bạn sửa robots.txt không đối xứng với thời gian chặn. Mất traffic chỉ mất 48 giờ, nhưng lấy lại có thể mất 4-6 tuần. Phòng ngừa tốt hơn chữa trị rất nhiều.

Bài học số 2: Luôn có monitoring tự động cho /robots.txt. Một cron job đơn giản fetch file mỗi 6 tiếng và alert khi thấy Disallow: / là đủ để tránh thảm họa này.


Phần 4: Năm lỗi robots.txt phổ biến nhất — và cách sửa từng cái

Lỗi 1: Server trả về HTTP 500 khi fetch robots.txt

Theo RFC 9309, khi server trả về 5xx, AI crawler phải giả định toàn bộ site bị chặn. Đây là lỗi chết người nhất vì không có dấu hiệu rõ ràng từ phía website owner.

Cách kiểm tra: Chạy curl -I https://yoursite.com/robots.txt — kết quả phải là HTTP/2 200.

Lỗi 2: Nhầm lẫn giữa GPTBot và OAI-SearchBot

GPTBot = training data. OAI-SearchBot = ChatGPT Search index. Chặn GPTBot không ảnh hưởng đến việc website bạn xuất hiện trong ChatGPT Search. Đây là hai pipeline hoàn toàn tách biệt theo tài liệu chính thức của OpenAI.

Lỗi 3: Dùng Crawl-delay và kỳ vọng Google tuân thủ

Google công bố rõ trong tài liệu Google Search Central: họ không hỗ trợ Crawl-delay. Anthropic’s ClaudeBot hỗ trợ directive này. Bing hỗ trợ. Google thì không — đừng dựa vào nó để kiểm soát Google bot.

Lỗi 4: Thiếu dòng Sitemap

txt
# Thêm dòng này — không gắn với user-agent cụ thể
Sitemap: https://yoursite.com/sitemap.xml

Sitemap trong robots.txt giúp AI crawler biết chính xác URL nào bạn muốn chúng index, thay vì phải tự khám phá theo link graph — đặc biệt quan trọng với các trang mới hoặc ít backlink.

Lỗi 5: Dùng robots.txt để “bảo mật” nội dung nhạy cảm

RFC 9309 và Google đều nói thẳng: robots.txt không phải access control. Nếu bạn cần bảo vệ nội dung thật sự, dùng authentication. robots.txt chỉ là tín hiệu cho bot “tốt” — bot xấu không quan tâm.


Phần 5: llms.txt — bước tiếp theo mà 99% website Việt Nam chưa làm

robots.txt kiểm soát ai được đọc gì. Còn /llms.txt — một đề xuất chuẩn hoá đang nổi lên — cho phép bạn cung cấp sẵn một bản Markdown gọn gàng để AI đọc tại thời điểm inference, thay vì phải tự parse HTML phức tạp.

Format cơ bản:

markdown
# YourSite

> Website chuyên về hướng dẫn kỹ thuật AI, prompt engineering và GEO SEO cho thị trường Việt Nam.

## Tài liệu chính
- [Hướng dẫn Prompt thực chiến](https://yoursite.com/huong-dan-prompt.md)
- [Chính sách sử dụng](https://yoursite.com/chinh-sach.md)

## Bài viết tham khảo
- [Blog kỹ thuật](https://yoursite.com/blog/index.html.md)

Bạn có thể xem ví dụ ứng dụng thực tế tư duy này tại Nano Banana Prompt Example — một case study nhỏ nhưng minh hoạ rõ cách chuẩn bị nội dung cho AI đọc hiệu quả hơn.


Checklist trước khi bạn deploy robots.txt — in ra và dán cạnh màn hình

  • Fetch yoursite.com/robots.txt trả về HTTP 200 (không phải 404 hay 500)
  • Đã phân biệt rõ GPTBot (training) vs OAI-SearchBot (search)
  • Có dòng Sitemap: trỏ đúng địa chỉ sitemap XML
  • Không dùng Crawl-delay để kiểm soát Google
  • Không dùng robots.txt thay thế cho authentication với nội dung nhạy cảm
  • Có monitoring tự động fetch robots.txt định kỳ
  • Cân nhắc tạo /llms.txt nếu muốn AI đọc nội dung chính xác hơn

robots.txt không còn là việc một lần — hãy review nó mỗi quý

Kỷ nguyên AI Search đang thay đổi nhanh hơn bất kỳ chu kỳ SEO truyền thống nào trước đây. Năm 2024, OAI-SearchBot chưa tồn tại. Năm 2025, Google-Extended mới được phân tách rõ khỏi Googlebot thông thường. Năm 2026, còn bao nhiêu token mới sẽ xuất hiện?

Hành động cụ thể ngay hôm nay: mở yoursite.com/robots.txt, đối chiếu với bảng 8 bot token ở Phần 1, và xác định bạn đang thiếu rule nào. Một file robots.txt đúng không mất quá 15 phút để viết — nhưng tác động của nó kéo dài nhiều tháng.

Series này tiếp tục tại nghiart.com với các bài viết thực chiến về GEO SEO, prompt engineering, và cách làm cho AI nói đúng về thương hiệu của bạn.

Related posts

Leave the first comment