Pag-verify ng mga staging block
Tiyaking naharang nang tama ang mga direktoryo ng staging, admin, at pagsubok upang maiwasan ang mga search indexer na i-index ang mga duplicate na kopya ng site.
Mga tool sa SEO
I-paste ang nilalaman ng robots.txt upang siyasatin ang mga karaniwang direktiba at makita ang mga mapanganib na block sa pag-crawl.
I-paste ang nilalaman ng robots.txt.
Patakbuhin ang tester.
Suriin ang mga direktiba at babala.
Ang Robots.txt Tester ay nagpa-parse ng iyong robots.txt file upang i-highlight ang mga aktibong panuntunan, mga target ng User-agent, mga link ng sitemap, at mga crawl block. Pinakamainam ito para sa pag-audit ng mga configuration ng pag-crawl bago i-index ng Google, Bing, o mga ahente ng AI ang iyong site.
Ang robots.txt file ng isang site ay ang paunang gatekeeper para sa mga search engine at AI scraper, na nagtuturo sa kanila kung saan sila pinapayagang gumala at kung aling mga direktoryo ang dapat manatiling pribado. Ang isang maling slash, maling wildcard star, o maling Disallow path ay maaaring ganap na harangan ang buong mga seksyon ng iyong domain mula sa pag-index ng paghahanap—o hindi sinasadyang ilantad ang mga lihim na direktoryo ng staging sa mga pampublikong indexer. Isinasalin ng tester na ito ang mga raw robots na direktiba sa malinaw, nakabalangkas na mga talahanayan, na nagha-highlight kung aling mga ahente ang may crawl clearance at nagbabala sa iyo ng mga mapanganib na crawl-block. Dahil tumatakbo ang pagpapatunay sa loob ng iyong lokal na window ng browser, maaari mong ligtas na subukan at i-tweak ang iyong mga panuntunan offline bago i-deploy ang mga ito nang live.
Tiyaking naharang nang tama ang mga direktoryo ng staging, admin, at pagsubok upang maiwasan ang mga search indexer na i-index ang mga duplicate na kopya ng site.
I-configure ang mga custom na panuntunan upang payagan ang mga pangunahing search crawler habang partikular na hinaharangan o pinipigilan ang mga agresibong AI model content scraper.
I-verify na ang iyong link ng sitemap ay ganap na idineklara bilang isang absolute URL at inilagay nang tama sa labas ng mga bloke ng direktiba ng user-agent.
Hindi. Ito ay isang mabilis na lokal na pagsusuri para sa mga karaniwang pagkakamali bago ang mas malalim na balidasyon.
Ang live fetching ay maaaring idagdag sa ibang pagkakataon bilang isang server-assisted na feature.
Ang isang direktiba ng Sitemap ay independiyente sa mga bloke ng User-agent. Dapat itong ideklara bilang isang absolute URL (hal. Sitemap: https://yourdomain.com/sitemap.xml) at karaniwang nakaupo sa pinakataas o ibaba ng file.
Hindi. Binabalewala ng Googlebot ang mga direktiba ng Crawl-delay nang buo. Gayunpaman, ang iba pang mga search bot (tulad ng Bingbot) at mga menor de edad na site scraper ay sumusuporta at gumagalang pa rin sa mga setting ng Crawl-delay.
Oo. Ang mga karaniwang wildcard (tulad ng * at $) ay sinusuportahan ng mga modernong search engine at maaaring i-parse upang i-audit ang mga tugma.
Oo. Ang lahat ng pag-parse ng robots.txt ay mahigpit na pinangangasiwaan sa loob ng iyong window ng browser gamit ang client-side JavaScript. Wala sa iyong mga direktoryo o direktiba ang naka-log.
Suriin ang hugis ng sitemap XML at mga pangunahing entry ng URL.
Pagsamahin ang mga PDF file sa isang dokumento.
I-extract ang mga pahina o hatiin ang isang PDF sa mas maliliit na file.