TinyBee

Công cụ SEO

Trình kiểm tra Robots.txt

Dán nội dung robots.txt để kiểm tra các chỉ thị phổ biến và phát hiện các khối thu thập dữ liệu rủi ro.

Cách sử dụng

  1. 1

    Dán nội dung robots.txt.

  2. 2

    Chạy trình kiểm tra.

  3. 3

    Xem lại các chỉ thị và cảnh báo.

Câu trả lời nhanh

Trình kiểm tra Robots.txt phân tích cú pháp tệp robots.txt của bạn để làm nổi bật các quy tắc đang hoạt động, mục tiêu User-agent, liên kết sơ đồ trang web và các khối thu thập dữ liệu. Nó tốt nhất để kiểm tra cấu hình thu thập dữ liệu trước khi Google, Bing hoặc các tác nhân AI lập chỉ mục trang web của bạn.

Tính năng chính

  • Kiểm tra tính hợp lệ của chỉ thị (Allow, Disallow, Sitemap, Crawl-delay).
  • Nhóm các quy tắc theo khối User-agent để kiểm tra rõ ràng, đa trình thu thập dữ liệu.
  • Làm nổi bật các chỉ thị trống hoặc các vấn đề định dạng trong thời gian thực.
  • Xác định các URL sơ đồ trang web tuyệt đối và xác minh sự tuân thủ bố cục chuẩn.
  • Xử lý văn bản hoàn toàn trong trình duyệt, ngăn chặn rò rỉ cấu hình thu thập dữ liệu trang web.
  • Yêu cầu không có kết nối đến DNS sản xuất, tên miền hoặc Search Console.

Giới thiệu về công cụ này

Tệp robots.txt của một trang web là người gác cổng ban đầu cho các công cụ tìm kiếm và trình thu thập dữ liệu AI, hướng dẫn chúng nơi chúng được phép đi lang thang và những thư mục nào phải được giữ kín. Một dấu gạch chéo đặt sai vị trí, dấu sao đại diện không chính xác hoặc đường dẫn Disallow bị lỗi có thể chặn hoàn toàn toàn bộ các phần của tên miền của bạn khỏi việc lập chỉ mục tìm kiếm—hoặc vô tình làm lộ các thư mục dàn dựng bí mật cho các trình lập chỉ mục công cộng. Trình kiểm tra này dịch các chỉ thị robots thô thành các bảng có cấu trúc, rõ ràng, làm nổi bật những tác nhân nào có quyền thu thập dữ liệu và cảnh báo bạn về các khối thu thập dữ liệu nguy hiểm. Vì quá trình xác thực chạy bên trong cửa sổ trình duyệt cục bộ của bạn, bạn có thể kiểm tra và tinh chỉnh các quy tắc của mình ngoại tuyến một cách an toàn trước khi triển khai chúng trực tiếp.

Các tình huống phổ biến

Xác minh các khối dàn dựng

Đảm bảo các thư mục dàn dựng, quản trị viên và thử nghiệm được chặn chính xác để ngăn các trình lập chỉ mục tìm kiếm lập chỉ mục các bản sao trang web trùng lặp.

Kiểm tra các quy tắc trình thu thập dữ liệu AI

Định cấu hình các quy tắc tùy chỉnh để cho phép các trình thu thập dữ liệu tìm kiếm chính thống trong khi chặn hoặc điều tiết cụ thể các trình thu thập nội dung mô hình AI hung hăng.

Xác thực đường dẫn sơ đồ trang web

Xác minh rằng liên kết sơ đồ trang web của bạn được khai báo đầy đủ dưới dạng URL tuyệt đối và được đặt chính xác bên ngoài các khối chỉ thị user-agent.

Câu hỏi thường gặp

Công cụ này có thay thế việc kiểm tra trên Google Search Console không?

Không. Đây là công cụ kiểm tra cục bộ nhanh các lỗi phổ biến trước khi xác thực sâu hơn.

Nó có thể lấy tệp robots.txt trực tiếp không?

Tính năng lấy tệp trực tiếp có thể được thêm vào sau như một tính năng hỗ trợ từ máy chủ.

Vị trí chuẩn cho quy tắc sơ đồ trang web là gì?

Chỉ thị Sitemap độc lập với các khối User-agent. Nó nên được khai báo dưới dạng URL tuyệt đối (ví dụ: Sitemap: https://yourdomain.com/sitemap.xml) và thường nằm ở trên cùng hoặc dưới cùng của tệp.

Các quy tắc crawl-delay có được Google hỗ trợ không?

Không. Googlebot hoàn toàn bỏ qua các chỉ thị Crawl-delay. Tuy nhiên, các bot tìm kiếm khác (như Bingbot) và các trình thu thập dữ liệu trang web nhỏ vẫn hỗ trợ và tôn trọng các cài đặt Crawl-delay.

Tôi có thể kiểm tra các ký tự đại diện không?

Có. Các ký tự đại diện chuẩn (như * và $) được hỗ trợ bởi các công cụ tìm kiếm hiện đại và có thể được phân tích cú pháp để kiểm tra các kết quả khớp.

Tệp thu thập dữ liệu của tôi có riêng tư không?

Có. Tất cả quá trình phân tích cú pháp robots.txt được xử lý nghiêm ngặt trong cửa sổ trình duyệt của bạn bằng JavaScript phía máy khách. Không có thư mục hoặc chỉ thị nào của bạn được ghi lại.

Công cụ liên quan