Wie ihr eure Website von Archive.org / Wayback Machine entfernen könnt

25. Juni 2019

David

Vermutlich kennt ihr Archive.org bereits. Das Portal ist im Grunde genommen nichts anderes als eine Bibliothek, die so gut wie alles sammelt, was im Internet so zu finden gibt. Bücher, Filme, Musik und vieles mehr. Der eigentliche Name, des gemeinnützigen Projekts, ist Internet Archive und Webmaster kennen es vermutlich vor allem durch die sogenannte Wayback Machine.

Kurz gesagt, speichert das Internet Archive also so ziemlich alles was es finden kann. Im Falle der Websites, sind es die sogenannten Snapshots, mit denen auch Jahre später noch Websites aufgerufen werden können, die schon lange nicht mehr existieren. Eine Art öffentliche verfügbares Backup also, wenn man so möchte.

Heute zeige ich euch, wie ihr das Internet Archive, vor allem aber die Wayback Machine, von eurer Websites aussperrt und eure Einträge dort restlos entfernen könnt. Schließlich möchte nicht jeder mit seiner Arbeit im Archiv landen.

Inhalt

Warum ist die Wayback Machine ein Problem?

Weil die Wayback Machine ein Snapshot eurer Website erstellt, ist es problemlos möglich, eine mehrere Jahre alte Version aufzurufen. Das gilt z.B. für die Website web.de, die im Jahr 2009 noch so aussah. Interessant, aber warum sollte jemand eine alte Version betrachten dürfen?

In der Vergangenheit kam es zum Beispiel immer wieder zu unbeabsichtigten Leaks oder rechtlichen Problemen auf Websites, die danach noch lange in der Wayback Machine sichtbar waren. Auch die Presse nutzt solche Links zur Wayback Machine immer wieder mal, wenn Originalquellen gelöscht werden.

Als Betreiber einer Website dürfte es jedoch kaum der Wunsch sein, dass gelöschte Inhalte weiterhin verfügbar bleiben. Es muss nicht einmal ein Rechtsverstoß vorliegen, aber warum sollte eine alte Version eurer Website weiterhin verfügbar gemacht werden?

Aus diesen und vielen weiteren Gründen, möchten die meisten Anbieter eigentlich nicht, dass ihre Websites bei Archive.org eingesehen werden können. Doch wie lässt sich die Website dort entfernen?

Der Weg zur Löschung bei Archive.org

Es gab mal eine Zeit, da konnte der Bot von Archive.org ganz einfach via robots.txt blockiert werden. Laut vielen Berichten funktioniert das nicht mehr zuverlässig und auch das Internet Archive bestätigt, dass die robots.txt keine große Priorität mehr genießt. Das ist nicht weiter verwunderlich, denn viele Tools halten sich schon lange nicht mehr an sie. Eine Garantie bot die robots.txt sowieso noch nie.

Was also tun? Im Grunde hilft nur ein ordnungsgemäßer DMCA Takedown. Das ist ein offizieller Anspruch auf Löschung, da ihr das Copyright der Inhalte besitzt und dies entsprechend einfordert.
Der DMCA Takedown ist außerdem eine Art Standard für das Entfernen von urheberrechtlich geschützten Material, in erster Linie bei US-Websites, muss also eine gewisse Struktur aufweisen, damit er seine Gültigkeit besitzt.

Stellt euch das wie ein Formular vor, bei dem alle Angaben vorhanden sein müssen, damit es überhaupt berücksichtigt werden kann. Deutsche kennen so eine nervtötende Bürokratie.

DMCA Takedown Generator

Um es euch besonders einfach zu machen, könnt ihr einen DMCA Takedown Generator nutzen. Diesen kann man verwenden, um für den Artikel eine Testanfrage an das Internet Archive zu stellen und zu überprüfen, ob der Takedown korrekt angenommen wird und die Methode wirklich funktioniert.

Dort tragt ihr im Grunde nur eure Daten ein. Dann noch den Link zur Wayback Machine hinzufügen und bei »Original Content URLs« eure eigene Website eintragen.

Ist der DMCA Takedown generiert worden, reicht es aus, das Internet Archive per E-Mail zu kontaktieren. In meinem Fall habe ich formlos (auf Englisch natürlich) darum gebeten, meine Domains aus der Wayback Machine zu entfernen und dann auf den DMCA Takedown unterhalb der E-Mail verwiesen. Diesen habe ich dort einfach direkt hineinkopiert.

Die Kontaktdaten vom Internet Archive findet ihr hier. Ob ihr dem Generator eure Daten antraut, bleibt euch überlassen. Vorlagen gibt es im Internet jede Menge. Ich hatte jedenfalls keine Probleme mit dem Generator und wollte ihn deshalb empfehlen.

Archive.org per .htaccess aussperren

Vertrauen ist gut, Kontrolle ist besser. Frei nach diesem Motto, sperre ich den Bot vom Internet Archive schon lange aus. Das geht mittels Blockade über die .htaccess in eurem Hauptverzeichnis.
Um einen User-Agent zu blockieren, in diesem Fall den sogenannten ia_archiver von Archive.org, reicht folgender Code.

<IfModule mod_rewrite.c>
RewriteCond %{HTTP_USER_AGENT} (ia_archiver) [NC]
RewriteRule ^(.*)$ - [F,L]
</IfModule>

Das Blockiert den entsprechenden Bot und sorgt somit auch dafür, dass die Wayback Machine bei euch gar keinen Zugriff mehr hat und dementsprechend auch nicht crawlen kann. Ist der Code von Anfang an integriert, wird es also auch keine Snapshots geben und ein DMCA Takedown wird somit nicht nötig.

Wie lange dauert die Löschung?

Tatsächlich reagieren die Verantwortlichen nach einreichen des DMCA Takedowns recht schnell. Müssen sie vermutlich auch, da dies in Amerika recht etabliert ist und sie weiteren Ärger vermeiden sollten.

Gesetzlich gibt es aber wohl keine Frist. Ich habe mich für den Artikel etwas durch die Gesetze gelesen und dort ist wohl von »expeditiously« die Rede, also von einer prompten/schnellen Löschung.

Ich bekam bei meinem Test bereits wenige Stunden später (Zeitverschiebung beachten) die Antwort, dass meine Seiten zur Entfernung im System vorgemerkt wurde und es nun ein automatischer Prozess ist, der eventuell einen Tag dauern kann.

Oder anders gesagt: Am Nachmittag habe ich den DMCA Takedown abgeschickt, am nächsten Morgen hatte ich die Bestätigung im E-Mail Postfach und die Seite war ebenfalls schon gelöscht. Alles also recht unproblematisch und schnell. Da hätte ich, in Anbetracht der Projektgröße, mit längeren Reaktionszeiten gerechnet.

Meine Erfahrung mit Archive.org

Ob der Eintrag eurer Website im Internet Archive nun unbedingt gelöscht werden muss, lasse ich jetzt mal im Raum stehen. In den meisten Fällen dürfte es egal sein, ob die eigene Website in der Wayback Machine erscheint oder nicht.

Manchmal ist es auch ganz angenehm, so ein nostalgisches Backup zu haben. So wie ich oben die alte Version von web.de aus dem Jahr 2009 verlinkt habe, so ist ein Blick zurück manchmal auch ganz witzig oder gar nützlich.

Aber, und deshalb ist es mir so wichtig, dass meine Websites dort nicht mehr erscheinen: Wenn ihr mal einen inhaltlichen Fehler überseht oder eine News mit Embargo zu früh veröffentlicht (solche Sachen gab es bei meinem Gaming Blog durchaus mal), ist die Wayback Machine auch ziemlich unangenehm. Dann zeigt sie nämlich Inhalte, die auf der Website längst gelöscht wurden und nicht mehr online sein sollen. Manchmal auch, weil sonst rechtliche Konsequenten drohen.

Persönlich sperre ich den Archive.org Bot deshalb inzwischen von Anfang an aus, dann braucht es gar kein DMCA Takedown mehr, da das Internet Archive einfach keinen Zugriff bekommt. Wie ihr das handhabt, bleibt wie immer euch überlassen.

Ich hoffe, der Artikel war interessant für euch. Falls ihr sonst noch Fragen oder Themen habt, die ich mal genauer klären soll, rein damit in die Kommentare.