Immer mehr Websites blockieren GPTBot, den Web-Crawler von Open AI, und die Crawler anderer Chatbots. Das ist aus emotionaler Sicht nachvollziehbar, aber nicht immer die beste wirtschaftliche Lösung. Was du beachten solltest.
Im August 2023 annoncierte die ChatGPT-Entwicklerfirma Open AI die von vielen Publishern ersehnte Möglichkeit, die eigenen Inhalte von der Verwendung im Open-AI-Sprachmodell auszuschließen.
GPTBot & Co blockieren in der robots.txt
Der Crawler identifiziert sich als GPTBot, womit zur Blockierung lediglich die folgenden zwei zwei Zeilen in die robots.txt im Hauptverzeichnis der Domain einzufügen sind.
User-agent: GPTBot Disallow: /
Mit dem gleichen Code-Schnipsel lassen sich auch die Crawler der anderen Sprachmodelle blockieren. Die wichtigsten Bots heißen
- CCBot: Common Crawl – Non-Profit-Organisation, dessen Daten allerdings auch von ChatGPT & Co genutzt werden.
- ClaudeBot: Crawler von Anthropic für Claude, den nach ChatGPT aktuell zweitbeliebtesten Chatbot.
- Google-Extended: AI-Crawler von Google für die Sprachsysteme des Konzerns. Eine Blockierung dieses Bots hat keine Auswirkungen auf die Sichtbarkeit deiner Inhalte in der organischen Google-Suche.
- Bytespider: Crawler von der TikTok-Mutter ByteDance.
- ChatGPT-User: Der Bot tritt nur bei Nutzer-Aktionen innerhalb von ChatGPT und CustomGPTs in Aktion. Bei einer entsprechenden Frage besucht er deine Website (solange er nicht geblockt ist) und inkludiert bei der Beantwortung einen Link dorthin. Anders als der GPTBot crawlt ChatGPT-User laut OpenAI nicht von sich aus das Web und verwendet erhobene Daten auch nicht zum Training des eigenen Sprachmodells.
Innerhalb weniger Tage nach Einführung im August 2023 wurde der GPTBot von fast 10 Prozent der Top 1.000 Websites blockiert, wie eine Auswertung der Software-Firma Originality AI ergab. In Deutschland kann ChatGPT zum Beispiel spiegel.de, bild.de und chefkoch.de, aber auch ein amazon.de nicht crawlen.
Inzwischen gehört der ChatGPT-Bot zu den 10 meistgeblockten Bots im Internet und weißt die höchsten Steigerungsraten auf, bemerkte der Idealo-Manager Malte Landwehr in einem Beitrag bei LinkedIn. Die Daten lassen sich relativ einfach erheben, weil die robots.txt jeder Website öffentlich und immer am gleichen Ort zu finden ist (etwa www.idealo.de/robots.txt).
Sollten Website-Betreiber also AI-Bots ausschließen? Die intuitive Antwort ist sicherlich in den meisten Fällen “ja”.
Gründe für die Sperrung von AI-Crawlern
1. Kein faires Geschäft. Ist bei Crawlern von Suchmaschinen als Gegenleistung für die abgegriffenen Informationen immerhin Search-Traffic zu erwarten, scheint eine solche Gegenleistung bei ChatGPT & Co. zu fehlen. Der Besucher bleibt in aller Regel beim Chatbot und kann nicht direkt monetarisiert werden.
2. Keine Kontrolle über Wiedergabe. Chatbots sind berüchtigt für Halluzinationen, verkürzt gesagt die fehlerhafte Wiedergabe von Informationen. Empfiehlt ChatGPT einem Nutzer den Verzehr von Steinen zum Abnehmen (tatsächlich passiert) und verweist dabei auf deinen Food Blog, fällt die Falschaussage auch auf dich zurück.
2. Zusätzliche Server-Last. Jeder Crawler auf deiner Website belastet deine Server und macht die Seite im schlimmsten Fall damit langsamer – auch für menschliche Besucher. Der robots.txt kommt hier auch die wichtige Funktion zu, Ressourcen zu sparen. Gerade wenn ihrer Nutzung kein adäquater Wert gegenübersteht.
Gründe für die Zulassung von AI-Crawlern
1. Keine Wirkung. Kaum eine Website hat wirklich absolut einzigartige Inhalte und Informationen. Die Chancen stehen gut, dass deine Wettbewerber die AI-Bots nicht blockiert haben – und im Zweifel dann den Traffic abgreifen, wenn von den Chatbots dann doch einmal auf die jeweilige Quelle der Information hingewiesen wird.
2. Besser wenig als kein Traffic. Im Zusammenhang mit Punkt 1: Eine Sperrung von AI-Crawlern wird dir keinen Besucher extra bringen. Erlaubst du hingegen dem GPTBot den Zugriff auf deine Seite, kannst du immerhin mit einigen Klicks auf die mehr oder weniger prominent platzierten Quellen-Links rechnen.
3. Indirekte Effekte. Wenn du nicht über Affiliate-Links oder Display-Werbung monetarisierst, sondern eigene Produkte verkaufst, ist der Traffic auf der eigenen Website nur Mittel zum Zweck. Wenn du eine Marke für Blumentöpfe hast, möchtest du bei Nutzer-Frage bei ChatGPT nach den Blumentöpfen natürlich auch aufgeführt sein. Eine Blockade des Crawlings der eigenen Website wäre natürlich Gift dafür.
- ChatGPT blockieren für die eigene Website: 3 Gründe dafür & 3 dagegen - 27. November 2024
- 20.000 Euro monatlich mit Faceless Youtube Channel [Case Study] - 24. September 2024
- Geld verdienen mit Youtube: 7 Optionen & 7 Ideen für 2024 - 23. August 2024