xt:Commerce - robots.txt
Mit der robots.txt im Stammverzeichnis des Shops wird den Crawlern, die Ihre Webseite in regelmäßigen Abständen besuchen gesagt welche Inhalte für eine Indexierung in den Suchmaschinenergebnissen geeignet sind und welche nicht für Suchanfragen herangezogen werden dürfen. Nach der Installation des Shops kann man die "robots.txt" im Root-Verzeichnis des Shops sehen. Man kann die Datei ebenso über die URL-Zeile des Browsers aufrufen: http://www.ihre-domain.tld/robots.txt
Damit nicht für jede Suchmaschine eine eigene robots.txt erstellt werden muss haben sich Google, Bing & Co auf eine gemeinsame Syntax innerhalb der robots.txt Datei geeinigt.
Steuerung der Spider und Robots via robots.txt
An Hand des folgenden Auszugs aus einer robots.txt kann man sich eine kurzen Überblick verschaffen.
User-agent: Googlebot-Mobile Disallow: / User-agent: * Allow: /templates/*css Allow: /templates/*js Allow: /cache/*css Allow: /cache/*js Disallow: /xtLogs/ Disallow: /xtFramework/
Der User-Agent ist der Name des Robots der Ihren Webseiteninhalt liest und vorläufig bewertet. Inzwischen kommen für die Masse an unterschiedlichen Medien die man im Internet suchen kann, unterschiedliche Robotszum Einsatz.
Crawler | User-agent | HTTP(S) benötigt User-Agent |
---|---|---|
Googlebot (Google Websuche) | Googlebot | Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) oder (selten verwendet): Googlebot/2.1 (+http://www.google.com/bot.html) |
Googlebot für Bilder |
| Googlebot-Image/1.0 |
Googlebot für Videos | Googlebot-Video | Googlebot-Video/1.0 |
Google Mobile | Googlebot-Mobile | [verschiedene Mobilgerät-Typen] ( |
So wie im Beispiel zu sehen würden diese beiden Zeilen den Effekt haben, dass Inhalt der Webseite für den Mobile-Content in Googles Suchmaschinen freigegeben ist und die Inhalte nicht für den Suchindex aufbereitet werden darf .
User-agent: Googlebot-Mobile Disallow: /
Diese Anweisung heißt so viel wie, dass jeder Robot der die Seite aufsucht sich angesprochen fühlen darf und alle Anweisungen (Allow / Disallow) zu befolgen hat die ab der nächsten Zeile geschrieben gesetzt ist.
User-agent: * Allow: /templates/*css Allow: /templates/*js Allow: /cache/*css Allow: /cache/*js Disallow: /xtLogs/ Disallow: /xtFramework/