Xác minh các khối dàn dựng
Đảm bảo các thư mục dàn dựng, quản trị viên và thử nghiệm được chặn chính xác để ngăn các trình lập chỉ mục tìm kiếm lập chỉ mục các bản sao trang web trùng lặp.
Công cụ SEO
Dán nội dung robots.txt để kiểm tra các chỉ thị phổ biến và phát hiện các khối thu thập dữ liệu rủi ro.
Dán nội dung robots.txt.
Chạy trình kiểm tra.
Xem lại các chỉ thị và cảnh báo.
Trình kiểm tra Robots.txt phân tích cú pháp tệp robots.txt của bạn để làm nổi bật các quy tắc đang hoạt động, mục tiêu User-agent, liên kết sơ đồ trang web và các khối thu thập dữ liệu. Nó tốt nhất để kiểm tra cấu hình thu thập dữ liệu trước khi Google, Bing hoặc các tác nhân AI lập chỉ mục trang web của bạn.
Tệp robots.txt của một trang web là người gác cổng ban đầu cho các công cụ tìm kiếm và trình thu thập dữ liệu AI, hướng dẫn chúng nơi chúng được phép đi lang thang và những thư mục nào phải được giữ kín. Một dấu gạch chéo đặt sai vị trí, dấu sao đại diện không chính xác hoặc đường dẫn Disallow bị lỗi có thể chặn hoàn toàn toàn bộ các phần của tên miền của bạn khỏi việc lập chỉ mục tìm kiếm—hoặc vô tình làm lộ các thư mục dàn dựng bí mật cho các trình lập chỉ mục công cộng. Trình kiểm tra này dịch các chỉ thị robots thô thành các bảng có cấu trúc, rõ ràng, làm nổi bật những tác nhân nào có quyền thu thập dữ liệu và cảnh báo bạn về các khối thu thập dữ liệu nguy hiểm. Vì quá trình xác thực chạy bên trong cửa sổ trình duyệt cục bộ của bạn, bạn có thể kiểm tra và tinh chỉnh các quy tắc của mình ngoại tuyến một cách an toàn trước khi triển khai chúng trực tiếp.
Đảm bảo các thư mục dàn dựng, quản trị viên và thử nghiệm được chặn chính xác để ngăn các trình lập chỉ mục tìm kiếm lập chỉ mục các bản sao trang web trùng lặp.
Định cấu hình các quy tắc tùy chỉnh để cho phép các trình thu thập dữ liệu tìm kiếm chính thống trong khi chặn hoặc điều tiết cụ thể các trình thu thập nội dung mô hình AI hung hăng.
Xác minh rằng liên kết sơ đồ trang web của bạn được khai báo đầy đủ dưới dạng URL tuyệt đối và được đặt chính xác bên ngoài các khối chỉ thị user-agent.
Không. Đây là công cụ kiểm tra cục bộ nhanh các lỗi phổ biến trước khi xác thực sâu hơn.
Tính năng lấy tệp trực tiếp có thể được thêm vào sau như một tính năng hỗ trợ từ máy chủ.
Chỉ thị Sitemap độc lập với các khối User-agent. Nó nên được khai báo dưới dạng URL tuyệt đối (ví dụ: Sitemap: https://yourdomain.com/sitemap.xml) và thường nằm ở trên cùng hoặc dưới cùng của tệp.
Không. Googlebot hoàn toàn bỏ qua các chỉ thị Crawl-delay. Tuy nhiên, các bot tìm kiếm khác (như Bingbot) và các trình thu thập dữ liệu trang web nhỏ vẫn hỗ trợ và tôn trọng các cài đặt Crawl-delay.
Có. Các ký tự đại diện chuẩn (như * và $) được hỗ trợ bởi các công cụ tìm kiếm hiện đại và có thể được phân tích cú pháp để kiểm tra các kết quả khớp.
Có. Tất cả quá trình phân tích cú pháp robots.txt được xử lý nghiêm ngặt trong cửa sổ trình duyệt của bạn bằng JavaScript phía máy khách. Không có thư mục hoặc chỉ thị nào của bạn được ghi lại.