Google ziet toename in foutief gebruik van 403/404-reacties van uitgevers en Content Delivery Networks voor het beperken van de Googlebot-snelheid
Google heeft richtlijnen gepubliceerd over hoe de crawl-snelheid van Googlebot op de juiste manier kan worden verminderd als gevolg van een toename van het foutieve gebruik van 403/404 responscodes, wat een negatieve impact kan hebben op websites.
De leidraad vermeldde dat het misbruik van de responscodes toenam bij webuitgevers en content delivery networks.
Googlebot beperken
Googlebot is de geautomatiseerde software van Google die websites bezoekt (crawlt) en de inhoud downloadt.
Googlebot beperken betekent het vertragen van de snelheid waarmee Google een website crawlt.
De uitdrukking, Google’s crawlsnelheid, verwijst naar het aantal verzoeken om webpagina’s per seconde dat Googlebot doet.
Er zijn momenten waarop een uitgever Googlebot wil afremmen, bijvoorbeeld als hij de server te zwaar belast.
Google beveelt verschillende manieren aan om de crawlsnelheid van Googlebot te beperken, met name via de Google Search Console.
Beperking van de crawlsnelheid via search console vertraagt de crawlsnelheid voor een periode van 90 dagen.
Een andere manier om de crawlsnelheid van Google te beïnvloeden is het gebruik van Robots.txt om Googlebot te verhinderen individuele pagina’s, directories (categorieën) of de hele website te crawlen.
Het goede van Robots.txt is dat het Google alleen vraagt om niet te crawlen en niet om een site uit de index te verwijderen.
Het gebruik van robots.txt kan echter leiden tot “langetermijneffecten” op de crawlpatronen van Google.
Misschien is de ideale oplossing daarom het gebruik van Search Console.
Google: Stop Rate Limiting met 403/404
Google heeft op zijn Search Central blog richtlijnen gepubliceerd waarin uitgevers wordt geadviseerd geen 4XX response codes te gebruiken (behalve de 429 response code).
De blog post noemde specifiek het misbruik van de 403 en 404 error response codes voor rate limiting, maar de guidance geldt voor alle 4XX response codes behalve de 429 response.
De aanbeveling is nodig omdat ze een toename hebben gezien van uitgevers die deze foutcodes gebruiken om de crawl-snelheid van Google te beperken.
De 403 responscode betekent dat de bezoeker (Googlebot in dit geval) de webpagina niet mag bezoeken.
De 404-responscode vertelt Googlebot dat de webpagina helemaal verdwenen is.
Server error response code 429 betekent “te veel aanvragen” en dat is een geldige foutmelding.
Na verloop van tijd kan Google webpagina’s uit zijn zoekindex verwijderen als ze deze twee foutcodes blijven gebruiken.
Dat betekent dat de pagina’s niet in aanmerking komen voor plaatsing in de zoekresultaten.
Google schreef:
“De afgelopen maanden hebben we een toename opgemerkt van website-eigenaren en sommige content delivery networks (CDN’s) die proberen 404 en andere 4xx-clientfouten (maar geen 429) te gebruiken om te proberen de crawl-snelheid van Googlebot te verlagen.
De korte versie van deze blogpost is: doe dat alsjeblieft niet…”
Uiteindelijk raadt Google aan om de 500, 503 of 429 foutreactiecodes te gebruiken.
De 500 responscode betekent dat er een interne serverfout is opgetreden. De 503 respons betekent dat de server het verzoek om een webpagina niet kan verwerken.
Google behandelt beide soorten antwoorden als tijdelijke fouten. Het zal dus later opnieuw komen kijken of de pagina’s weer beschikbaar zijn.
Een 429-foutreactie vertelt de bot dat hij te veel aanvragen doet en kan hem ook vragen een bepaalde tijd te wachten voordat hij opnieuw gaat scrawlen.
Google raadt aan hun Developer Page te raadplegen over het beperken van de snelheid van Googlebot.
Lees de blogpost van Google: