Robots.txt controle tool

Controleer hier de inhoud van het robots.txt bestand op jouw website en of Googlebot / Bingbot toegang hebben tot de inhoud op jouw website.

Veelgestelde vragen over robots.txt bestanden

Wat is een robotos.txt bestand?

Een robots.txt-bestand is een bestand in de hoofdmap van uw site waarin u aangeeft welke delen van uw site niet toegankelijk zijn voor crawlers van zoekmachines. Het bestand gebruikt de Robots Exclusion Standard. Dit is een protocol met een klein aantal opdrachten waarmee u de toegang tot uw site kunt aangeven per sectie en per specifiek soort webcrawlers (zoals mobiele crawlers versus desktopcrawlers).

Waarvoor wordt een robots.txt bestand gebruikt?

Webpagina's

Voor (HTML) webpagina's (geen afbeeldingen) moet robots.txt alleen worden gebruikt om het crawlverkeer te beheren, gewoonlijk omdat u niet wilt dat uw server wordt overbelast door de crawler van Google of u geen crawlbudget wilt verspillen aan het crawlen van onbelangrijke of vergelijkbare pagina's op uw site. U moet robots.txt niet gebruiken als manier om uw webpagina's te verbergen in zoekresultaten van Google. Dit komt omdat andere pagina's mogelijk verwijzen naar uw pagina, waardoor uw pagina op die manier kan worden geïndexeerd en het robots.txt-bestand wordt vermeden. Als u uw pagina wilt blokkeren voor weergave in de zoekresultaten, gebruikt u een andere methode, zoals wachtwoordbeveiliging of noindex-tags of -instructies.

Afbeeldingsbestanden

robots.txt voorkomt dat afbeeldingsbestanden worden weergegeven in zoekresultaten van Google. (Het bestand voorkomt echter niet dat andere pagina's of gebruikers linken naar uw afbeelding.)

Bronbestanden

U kunt robots.txt gebruiken om bronbestanden (zoals onbelangrijke afbeeldings-, script- of stijlbestanden) te blokkeren. U kunt dit doen als u denkt dat het verlies van de bronnen geen aanzienlijke impact heeft op pagina's die zonder deze bronnen worden geladen. Als de afwezigheid van deze bronnen echter tot gevolg heeft dat de crawler van Google de pagina minder goed kan interpreteren, moet u ze niet blokkeren. Als u dit wel doet, kan Google de pagina's die afhankelijk zijn van die bronnen, niet goed analyseren.

Kun je met een robots.txt het gedrag van een crawler afdwingen?

De instructies in robots.txt-bestanden kunnen het gedrag van crawlers op uw site niet afdwingen. Deze instructies fungeren als richtlijnen voor de crawlers die uw site openen. Hoewel Googlebot en andere respectabele webcrawlers de instructies in een robots.txt-bestand opvolgen, is het mogelijk dat andere crawlers dat niet doen. Als u informatie wilt beveiligen zodat deze niet wordt geopend door webcrawlers, kunt u beter andere blokkeringsmethoden gebruiken, zoals wachtwoordbeveiliging voor privébestanden op uw server.

Hoewel respectabele webcrawlers de richtlijnen in een robots.txt-bestand opvolgen, kan elke crawler de richtlijnen op een andere manier interpreteren. U moet op de hoogte zijn van de juiste syntaxis voor verschillende webcrawlers, omdat sommige bepaalde instructies mogelijk niet begrijpen.

Wat als iemand naar mijn verborgen pagina's linkt?

Een geblokkeerde pagina kan nog steeds worden geïndexeerd als hiernaar wordt gelinkt vanaf andere sites Hoewel Google de content die door robots.txt wordt geblokkeerd, niet crawlt of indexeert, kunnen we nog steeds een niet-toegestane URL vinden en indexeren als hiernaar wordt gelinkt vanaf andere plaatsen op internet. Als gevolg hiervan kan het URL-adres en eventueel andere openbaar beschikbare informatie, zoals de linktekst in links naar de pagina, worden weergegeven in de zoekresultaten van Google. Als u wilt voorkomen dat uw URL wordt weergegeven in zoekresultaten van Google, moet u de bestanden op uw server beveiligen met een wachtwoord of de noindex-metatag of -reactieheader gebruiken (of de pagina helemaal verwijderen).