Einführung in die robots.txt

Die robots.txt-Datei ist ein entscheidendes Werkzeug für die Verwaltung des Zugriffs von Suchmaschinen-Crawlern auf Ihre Website. Sie hilft dabei, festzulegen, welche Bereiche der Website durchsucht und indexiert werden dürfen und welche nicht. In dieser umfassenden Anleitung werden wir die wichtigsten Aspekte der robots.txt-Datei, ihre Struktur und Best Practices für ihre Verwendung erläutern.

Beispiel für den disallow einer robots.txt

Grundlegender Aufbau einer robots.txt-Datei

Die robots.txt-Datei besteht aus einfachen Regeln, die von Suchmaschinen-Crawlern interpretiert werden können. Diese Regeln setzen sich aus sogenannten „User-agents“ und „Disallow“-Befehlen zusammen.

User-agent: *
Disallow: /private/

In diesem Beispiel wird allen User-agents (also allen Crawlern) der Zugriff auf das Verzeichnis /private/ verweigert.

User-agent

Der „User-agent“ gibt an, für welche Suchmaschinen-Crawler die nachfolgenden Regeln gelten. Der Wert * steht hierbei für alle Crawler. Es ist jedoch auch möglich, spezifische Crawler zu benennen, wie beispielsweise Googlebot für den Google-Crawler.

Disallow und Allow

  • Disallow: Verhindert den Zugriff auf bestimmte Bereiche der Website.
  • Allow: Erlaubt den Zugriff auf bestimmte Bereiche, selbst wenn ein übergeordneter Pfad durch eine Disallow-Regel gesperrt ist.

Beispiel:

User-agent: *
Disallow: /private/
Allow: /private/public-file.html

In diesem Fall ist der Zugriff auf das Verzeichnis /private/ gesperrt, aber die Datei /private/public-file.html ist dennoch zugänglich.

Sitemap-Verweis

Ein wichtiger Aspekt der robots.txt-Datei ist der Verweis auf die Sitemap der Website. Dies ermöglicht es Suchmaschinen, die Sitemap leicht zu finden und alle Seiten effizient zu durchsuchen.

Sitemap: https://www.ihrewebsite.de/sitemap.xml

Best Practices für robots.txt

1. Verwenden Sie spezifische Regeln

Stellen Sie sicher, dass Ihre robots.txt-Datei spezifische Regeln für verschiedene Suchmaschinen-Crawler enthält. Dies hilft, die Indexierung Ihrer Website zu optimieren.

2. Testen Sie Ihre robots.txt-Datei

Nutzen Sie Tools wie den Google Search Console robots.txt Tester, um sicherzustellen, dass Ihre robots.txt-Datei korrekt konfiguriert ist und wie erwartet funktioniert.

3. Aktualisieren Sie Ihre robots.txt regelmäßig

Stellen Sie sicher, dass Ihre robots.txt-Datei immer aktuell ist und alle neuen Inhalte und Verzeichnisse berücksichtigt.

4. Verwenden Sie das richtige Dateiformat

Die robots.txt-Datei sollte im ASCII- oder UTF-8-Format gespeichert werden und keine unnötigen Leerzeichen oder Kommentare enthalten, die die Lesbarkeit für Crawler beeinträchtigen könnten.

Häufige Fehler und wie man sie vermeidet

1. Falsche Pfade angeben

Stellen Sie sicher, dass die in der robots.txt-Datei angegebenen Pfade korrekt und erreichbar sind.

2. Wichtige Seiten blockieren

Vermeiden Sie es, wichtige Seiten wie die Startseite oder andere zentrale Seiten der Website zu blockieren.

3. Mehrere User-agent-Einträge

Wenn Sie mehrere User-agent-Einträge haben, stellen Sie sicher, dass die Reihenfolge und die Regeln klar und nicht widersprüchlich sind.

Beispiel einer umfassenden robots.txt-Datei

User-agent: *
Disallow: /private/
Disallow: /tmp/
Disallow: /test/

User-agent: Googlebot
Disallow: /no-google/
Allow: /public/

Sitemap: https://www.ihrewebsite.de/sitemap.xml

Beispiel einer robots.txt-Datei für WordPress

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-content/cache/
Disallow: /wp-login.php
Disallow: /xmlrpc.php

Sitemap: https://www.ihrewebsite.de/sitemap_index.xml

In diesem Beispiel werden bestimmte Verzeichnisse und Dateien von der Indexierung ausgeschlossen, die für die Funktionalität der Website notwendig sind, aber nicht in den Suchergebnissen erscheinen sollten.

Beispiel einer robots.txt-Datei für Typo3

User-agent: *
Disallow: /typo3/
Disallow: /typo3conf/
Disallow: /typo3temp/
Disallow: /fileadmin/_temp_/
Disallow: /fileadmin/_processed_/
Disallow: /t3lib/
Disallow: /tslib/

Sitemap: https://www.ihrewebsite.de/sitemap.xml

Dieses Beispiel zeigt, wie man für eine Typo3-Installation bestimmte Verzeichnisse ausschließen kann, die für die Struktur und Verwaltung der Website verwendet werden, jedoch nicht in den Suchergebnissen erscheinen sollen.

Top Robots.txt Tipps

Die robots.txt-Datei kann eine wichtige Rolle bei der Verwaltung des Zugriffs von Suchmaschinen-Crawlern auf Ihre Website spielen. Hier sind einige Strategien, um Spam-Crawler auszuschließen und Server-Ressourcen zu sparen:

Ausschluss von Spam-Crawlern

  1. Bekannte Spam-Crawler blockieren:
    Fügen Sie spezifische Regeln hinzu, um bekannte Spam-Crawler zu blockieren. Diese Crawler sind oft als User-agents erkennbar.
   User-agent: BadBot
   Disallow: /
  1. Wildcard-Disallow:
    Verwenden Sie allgemeine Muster, um eine breitere Palette von Spam-Crawlern zu blockieren.
   User-agent: *
   Disallow: /*.pdf$
   Disallow: /*.doc$
   Disallow: /*.exe$
  1. Honeypot-Seiten erstellen:
    Erstellen Sie Seiten, die für normale Benutzer unsichtbar sind, aber von Crawlern gefunden werden. Wenn ein Crawler auf diese Seiten zugreift, können Sie ihn identifizieren und blockieren.

Server-Ressourcen sparen

  1. Crawler auf wichtige Bereiche beschränken:
    Beschränken Sie den Zugriff auf unwichtige Bereiche der Website, um Server-Ressourcen zu sparen.
   User-agent: *
   Disallow: /tmp/
   Disallow: /logs/
   Disallow: /cache/
  1. Crawler-Frequenz kontrollieren:
    Setzen Sie Crawl-Delay-Werte, um die Frequenz zu steuern, mit der Crawler auf Ihre Website zugreifen.
   User-agent: *
   Crawl-delay: 10
  1. Zugriff auf große Dateien beschränken:
    Vermeiden Sie, dass Crawler große Dateien herunterladen, die viele Server-Ressourcen beanspruchen.
   User-agent: *
   Disallow: /*.zip$
   Disallow: /*.tar.gz$
  1. Nur relevante Crawler zulassen:
    Geben Sie spezifische Anweisungen für bekannte Suchmaschinen-Crawler und blockieren Sie alle anderen.
   User-agent: Googlebot
   Allow: /

   User-agent: Bingbot
   Allow: /

   User-agent: *
   Disallow: /

Beispiel einer umfassenden robots.txt-Datei

# Alle Crawler blockieren
User-agent: *
Disallow: /

# Erlaubnis für Googlebot
User-agent: Googlebot
Allow: /
Crawl-delay: 10

# Erlaubnis für Bingbot
User-agent: Bingbot
Allow: /
Crawl-delay: 10

# Blockierung bekannter Spam-Crawler
User-agent: BadBot
Disallow: /

User-agent: EvilScraper
Disallow: /

# Sitemap-Verweis
Sitemap: https://www.ihrewebsite.de/sitemap.xml

Durch die Implementierung dieser Strategien können Sie sicherstellen, dass Ihre Server-Ressourcen effizient genutzt werden und Spam-Crawler den Zugang zu Ihrer Website nicht missbrauchen.

Fazit

Die robots.txt-Datei ist ein mächtiges Werkzeug, um den Zugriff von Suchmaschinen-Crawlern auf Ihre Website zu steuern. Durch das Befolgen der Best Practices und das Vermeiden häufiger Fehler können Sie sicherstellen, dass Ihre Website effizient und effektiv indexiert wird. Halten Sie Ihre robots.txt-Datei stets aktuell und testen Sie sie regelmäßig, um die bestmögliche Leistung Ihrer Website in den Suchmaschinen zu gewährleisten.