TinyBee

SEO工具

Robots.txt 测试工具

粘贴 robots.txt 内容以检查常见指令并发现有风险的抓取拦截。

如何使用

  1. 1

    粘贴 robots.txt 内容。

  2. 2

    运行测试工具。

  3. 3

    查看指令和警告。

快速解答

Robots.txt Tester 解析您的 robots.txt 文件,以突出显示活动规则、User-agent 目标、站点地图链接和抓取拦截。它非常适合在 Google、Bing 或 AI 代理索引您的网站之前审核抓取配置。

主要功能

  • 检查指令的有效性(Allow、Disallow、Sitemap、Crawl-delay)。
  • 按 User-agent 块对规则进行分组,以便进行清晰的多爬虫审核。
  • 实时突出显示空指令或格式问题。
  • 识别绝对站点地图 URL 并验证是否符合标准布局。
  • 完全在浏览器中处理文本,防止网站抓取配置泄露。
  • 无需连接到生产 DNS、域名或 Search Console。

关于此工具

网站的 robots.txt 文件是搜索引擎和 AI 抓取工具的初始守门人,指示它们允许访问哪些位置以及哪些目录必须保持私密。一个放错位置的斜杠、不正确的通配符星号或格式错误的 Disallow 路径,都可能完全阻止您域名的整个部分被搜索索引——或者意外地将秘密的暂存目录暴露给公共索引器。此测试器将原始 robots 指令转换为清晰的结构化表格,突出显示哪些代理具有抓取权限,并警告您危险的抓取拦截。由于验证在您的本地浏览器窗口中运行,您可以在实时部署之前安全地离线测试和调整您的规则。

常见场景

验证暂存拦截

确保正确拦截暂存、管理和测试目录,以防止搜索索引器索引重复的网站副本。

审核 AI 抓取工具规则

配置自定义规则以允许主流搜索爬虫,同时专门拦截或限制激进的 AI 模型内容抓取工具。

验证站点地图路径

验证您的站点地图链接是否已完全声明为绝对 URL,并正确放置在 user-agent 指令块之外。

常见问题

这能替代 Google Search Console 测试吗?

不能。它是在进行更深入验证之前,用于快速本地检查常见错误的工具。

它可以获取实时的 robots.txt 文件吗?

实时获取功能可以在以后作为服务器辅助功能添加。

站点地图规则的标准位置是什么?

Sitemap 指令独立于 User-agent 块。它应声明为绝对 URL(例如 Sitemap: https://yourdomain.com/sitemap.xml),通常位于文件的最顶部或最底部。

Google 支持 crawl-delay 规则吗?

不支持。Googlebot 完全忽略 Crawl-delay 指令。但是,其他搜索机器人(如 Bingbot)和小型网站抓取工具仍然支持并遵守 Crawl-delay 设置。

我可以测试通配符吗?

可以。现代搜索引擎支持标准通配符(如 * 和 $),并且可以解析以审核匹配项。

我的抓取文件是私密的吗?

是的。所有 robots.txt 解析都严格在您的浏览器窗口中使用客户端 JavaScript 处理。您的任何目录或指令都不会被记录。

相关工具