Ontdek alle mogelijkheden met ApplePY. Bekijk alle features

Robots.txt bestand: complete handleiding

Hoe maak je een Robots.txt-bestand aan?
Hier is een voorbeeld van het Robots.txt-bestand
Hoe het Robots.txt-bestand te bewerken en te optimaliseren?
Hoe het Robots.txt-bestand te optimaliseren?
Andere tips om het robots.txt-bestand te optimaliseren
Robot.txt-bestand testen in Google Search Console

Robots.txt bestand: complete handleiding

Robots.txt-bestand bewerken en optimaliseren voor betere SEO?

Het optimaliseren van het Robots.txt-bestand is een uitdagende taak. Het speelt een belangrijke rol in SEO. Want, je hebt vast wel eens van Robots.txt gehoord.

Maar maak je volledig gebruik van dit bestand? Als je de Robots.txt over het hoofd ziet, kan dit de positie schaden van het domeinnaam. Als het verkeerd is geconfigureerd, kunnen zoekmachines de website volledig negeren, wat ertoe kan leiden dat een website volledig uit de zoekresultaten verdwijnt.

Het robots.txt-bestand staat ook bekend als het Robots Exclusions Protocol. Het instrueert zoekmachine-bots over hoe een website moet worden gecrawld, welke pagina's moeten worden gecrawld en welke pagina's moeten worden genegeerd.

Wanneer bots van zoekmachines op de website komen, leest deze het robots.txt-bestand en volgt de instructies. Als je het niet goed hebt geconfigureerd, indexeren de crawlers en spiders van zoekmachines mogelijk geen belangrijke pagina's of kunnen ze ook ongewenste pagina's/mappen indexeren.

Het is dus erg belangrijk om het Robots.txt-bestand te optimaliseren. Dit bestand wordt in de hoofdmap van het domein geplaatst (bijv. www.domein.nl/robots.txt). Er kan slechts één robots.txt op de website staan en deze bevindt zich in de hoofdmap, zoals eerder vermeld.

Je kunt cPanel of FTP-client gebruiken om dit bestand te bekijken. Het is net als elk gewoon tekstbestand en je kunt het openen met een platte teksteditor zoals Kladblok en bewerken.

Hoe maak je een Robots.txt-bestand aan?

WordPress biedt automatische creatie van het robots.txt-bestand. Gebruik je WordPress, dan zou je al een robots.txt-bestand in de hoofdmap moeten hebben. Als je een ander CMS gebruikt of je website geen robot.txt-bestand heeft, maak dan gewoon een eenvoudig Kladblok-bestand en noem het robots.txt en upload het naar de hoofdmap van je website met behulp van FTP-client of cPanel. Er zijn een aantal robot txt-bestand generators online beschikbaar.

Om in te checken in cPanel, ga naar Bestandsbeheer -> public_html map. Je zou hier het robots.txt-bestand moeten terugvinden.

Voordat we direct beginnen om het robots.txt-bestand te optimaliseren, moeten we eerst de basisprincipes van het robots.txt-bestand begrijpen. Er zijn hoofdzakelijk drie commando's: User-agent, allow & disallow.

We zullen deze commando's configureren om een betere grip te krijgen in wat spiders en crawlers wel mogen indexeren en welke pagina’s genegeerd mogen worden.

User-agent - De eigenschap User-agent definieert de naam van de bots en crawlers van zoekmachines waarvoor we een aantal regels configureren en instellen om indexering toe te staan en niet toe te staan. Dit kan de Googlebot of Bingbot zijn. Als je alle bots van zoekmachines wilt vermelden, kun je in plaats van user-agent voor individuele bots een asterisk (*) gebruiken om naar alle bots van zoekmachines te verwijzen.
Allow – eigenschap allow, zoals de naam al doet vermoeden, instrueert zoekmachines om bepaalde delen van de website die jij wilt, te crawlen en te indexeren.
Disallow - deze eigenschap geeft zoekmachines de opdracht bepaalde delen van jouw website NIET te crawlen en te indexeren.
Sitemap: de opdracht Sitemap vertelt de bots van de zoekmachine dat dit de sitemap van de website is.

Hier is een voorbeeld van het Robots.txt-bestand.

User-agent: *

Disallow: /wp-admin

Allow: /

Ik hoop dat je het bovenstaande voorbeeld nu kunt begrijpen. Hier instrueren we alle bots van zoekmachines (omdat we User-agent gebruiken: *) om /wp-admin/ een deel van de website (regel 2) niet te crawlen of te indexeren en vervolgens toe te staan om pagina’s te crawlen en te indexeren van andere delen van de website (regel 3).

Nog enkele voorbeelden voor een beter begrip:

Sta indexering van alles toe

User-agent: *

Allow: /

Indexering van alles niet toestaan

User-agent: *

Disallow: /

Sta een bepaalde bot (bijvoorbeeld Googlebot) niet toe om een bepaalde map (een map) te indexeren, maar een pagina (mijn pagina) in die map toe te staan.

User-agent: Googlebot

Disallow: /mijnmap/

Allow: /mijnmap/mijnpagina

Hoe het Robots.txt-bestand te bewerken en te optimaliseren?

Je bent nu bekend met het robots.txt-bestand. Laten we verder gaan met hoe je het robots.txt-bestand kunt bewerken en optimaliseren om maximale voordelen te behalen. Het bewerken van robots.txt is een van de dingen die je moet doen na het installeren van WordPress.

Het Robots.txt-bestand bewerken

Je kunt het robots.txt-bestand bewerken vanuit cPanel of de FTP-client. Om dit via cPanel te bewerken, volg je onderstaande stappen:

Stap 1: Log in op de cPanel-account
Stap 2: Ga naar Bestandsbeheer
Stap 3: Ga naar de map public_html van de website
Stap 4: Zoek het robots.txt-bestand
Stap 5: Klik met de rechtermuisknop op het bestand en selecteer 'Bewerken' zoals hieronder weergegeven:

robots.txt optimaliseren

Het opent het bestand in een bewerkbare modus. Breng de nodige wijzigingen aan en klik op wijzigingen opslaan.

Hoe het Robots.txt-bestand te optimaliseren?

Zoals al eerder, is het een zeer uitdagende taak om robots.txt te optimaliseren, rekening houdend met alle factoren. Een niet-geoptimaliseerd robots.txt-bestand kan de vindbaarheid schaden en het domein volledig de-indexeren (bijv. als je het commando "Disallow: /" in het Robots.txt-bestand gebruikt, wordt jouw website niet meer geïndexeerd door zoekmachines).

Houd de volgende dingen in gedachten wanneer je begint met het optimaliseren van het robots.txt-bestand.

User-agents zorgvuldig toevoegen. Wees zeer voorzichtig bij het geven van specifieke bots (omdat je belangrijke bots misschien mist) of asterisk (*) (omdat je misschien ook sommige bots wilt negeren).
Bepaal welke delen van de website jij niet wilt dat zoekmachinebots crawlen. Bepaalde pagina’s kunnen zijn: /wp-admin/, /cgi-bin/,/index.php, /wp-content/plugins/, /readme.html, /trackback/, /xmlrpc.php etc.
Op dezelfde manier kun je bepaalde belangrijke pagina's van de website toestaan. Het toevoegen van "Allow: /" deze opdracht is niet zo belangrijk omdat bots je website toch zullen crawlen. Maar je kunt het gebruiken voor de specifieke bot of als je wilt crawlen.
Het toevoegen van sitemaps onderaan het Robots.txt-bestand is ook goed voor de vindbaarheid.

Een robots.txt-bestand kan verschillen van het mijne, omdat je mogelijk andere vereisten en andere mappen hebt. Enkele andere acties die je kunt uitvoeren zijn:

Je kunt ook bepaalde opmerkingen geven om te onthouden waarom je bepaalde commando's en configuraties hebt gegeven. Dit commentaar kan worden beschouwd als een definitie van de code. Deze opmerking wordt niet in overweging genomen door WebCrawler of bots. Je kunt '#' gebruiken om commentaar te geven.
Bijvoorbeeld #Xyz bot toestaan om de xyz-map te crawlen.
Je kunt met een wachtwoord beveiligde gebieden, bestanden of intranetten niet toestaan om de beveiliging af te dwingen.
Sta readme.html niet toe om de website te beschermen tegen aanvallen van buitenaf. Het Readme.html-bestand kan door iemand worden gebruikt om te weten welke WordPress-versie jij gebruikt door ernaar te navigeren, zodat ze jouw website kunnen hacken.
Om veiligheidsredenen moet je de WordPress-plug-in-directory ook niet toestaan. Schrijf gewoon Disallow: /wp-content/plugins/.

Je kunt het $-teken gebruiken om te specificeren dat het overeenkomt met het einde van de URL. Als je bijvoorbeeld URL's wilt blokkeren die eindigen op .html, kun je het volgende element gebruiken:

User-agent: Googlebot

Disallow: /*.html$

Andere tips om het robots.txt-bestand te optimaliseren

Gebruik het bestand Robots.txt niet om slecht kwaliteit content te verbergen. De beste werkwijze is om noindex en nofollow-metatags hiervoor te gebruiken.
Een robots.txt-bestand mag geen 200 regels voor Disallow overschrijden. Begin met een paar regels die niet zijn toegestaan. Als je er nog een paar wilt toevoegen, voeg het dan later toe.
Gebruik het Robots.txt-bestand niet om zoekmachines te stoppen om categorieën, tags, archieven, auteurspagina's, enz. te indexeren. Ook hiervoor kun je nofollow- en noindex-metatags toevoegen.
Voorkom dat de zoekmachines bepaalde mappen op de website indexeren die mogelijk duplicate content bevatten.

Robots.txt-bestand testen in Google Search Console

Heb je de Robots.txt aangepast en geoptimaliseerd? Test dan eerst even of de aanpassingen correct geconfigureerd zijn. Om dit te doen:

Log-in op jouw Google Search Console-account;
Navigeer naar het gedeelte Crawlen. Je gebruikt een nieuw Search Console omgeving, dus je hoort eerst naar deze Search Console Robots.txt testtool te gaan.
Klik op ‘robots.txt-tester’
Het toont het nieuwste robots.txt-bestand op de website. Als je vanaf nu niet permanent hebt gewijzigd, kun je eenvoudig de inhoud van het geoptimaliseerde robot.txt-bestand plakken en testen.

Nieuwste adviezen

Gerelateerde artikelen