Was ist Robots.txt?

Robots.txt ist eine Textdatei, die im Stammverzeichnis einer Website abgelegt wird und Suchmaschinen-Crawlern anzeigt, welche Bereiche der Website sie crawlen dürfen und welche nicht. Sie folgt einem Standard namens Robots Exclusion Protocol.

Diese Datei wird typischerweise verwendet, um das Verhalten von Crawlern zu steuern und zu verhindern, dass Seiten indexiert werden, die für Suchmaschinen oder Nutzer nicht relevant sind – wie z. B. Admin-Bereiche, doppelte Inhalte oder Staging-Umgebungen.

Warum Robots.txt wichtig ist

Eine korrekt konfigurierte robots.txt-Datei hilft dabei, zu steuern, wie Suchmaschinen mit deiner Website interagieren. Das kann die Crawling-Effizienz verbessern und sensible oder irrelevante Bereiche vor der Indexierung schützen.

Vorteile sind unter anderem:

  • Steuerung des Zugriffs von Crawlern auf bestimmte Ordner oder Dateien
  • Reduzierung der Serverbelastung durch das Blockieren unnötiger Crawls
  • Verhinderung der Indexierung von doppelten oder nicht öffentlichen Inhalten
  • Erhöhung von Sicherheit und Datenschutz durch Einschränkung des Zugriffs auf sensible Bereiche

Das Blockieren einer Seite mittels robots.txt garantiert jedoch nicht, dass sie nicht in den Suchergebnissen erscheint – insbesondere, wenn sie von anderen Seiten verlinkt wird. Um die Indexierung vollständig zu verhindern, sind zusätzliche Meta-Tags oder HTTP-Header erforderlich.

Beispiel in der Anwendung

Eine einfache robots.txt-Datei könnte so aussehen:

User-agent: *
Disallow: /admin/
Disallow: /cart/
Allow: /

Dies weist alle Suchmaschinen-Bots (User-agent: *) an, die Verzeichnisse /admin/ und /cart/ nicht zu crawlen, erlaubt aber das Crawlen des übrigen Teils der Website.

Verwandte Begriffe

  • Crawling
  • Indexierung
  • XML-Sitemap
  • Noindex-Tag
  • Technisches SEO