Vermutlich kennt ihr Archive.org bereits. Das Portal ist im Grunde genommen nichts anderes als eine Bibliothek, die so gut wie alles sammelt, was im Internet so zu finden gibt. Bücher, Filme, Musik und vieles mehr. Der eigentliche Name, des gemeinnützigen Projekts, ist Internet Archive und Webmaster kennen es vermutlich vor allem durch die sogenannte Wayback Machine.
Kurz gesagt, speichert das Internet Archive also so ziemlich alles was es finden kann. Im Falle der Websites, sind es die sogenannten Snapshots, mit denen auch Jahre später noch Websites aufgerufen werden können, die schon lange nicht mehr existieren. Eine Art öffentliche verfügbares Backup also, wenn man so möchte.
Heute zeige ich euch, wie ihr das Internet Archive, vor allem aber die Wayback Machine, von eurer Websites aussperrt und eure Einträge dort restlos entfernen könnt. Schließlich möchte nicht jeder mit seiner Arbeit im Archiv landen.
Warum ist die Wayback Machine ein Problem?
Weil die Wayback Machine ein Snapshot eurer Website erstellt, ist es problemlos möglich, eine mehrere Jahre alte Version aufzurufen. Das gilt z.B. für die Website web.de, die im Jahr 2009 noch so aussah. Interessant, aber warum sollte jemand eine alte Version betrachten dürfen?
In der Vergangenheit kam es zum Beispiel immer wieder zu unbeabsichtigten Leaks oder rechtlichen Problemen auf Websites, die danach noch lange in der Wayback Machine sichtbar waren. Auch die Presse nutzt solche Links zur Wayback Machine immer wieder mal, wenn Originalquellen gelöscht werden.
Als Betreiber einer Website dürfte es jedoch kaum der Wunsch sein, dass gelöschte Inhalte weiterhin verfügbar bleiben. Es muss nicht einmal ein Rechtsverstoß vorliegen, aber warum sollte eine alte Version eurer Website weiterhin verfügbar gemacht werden?
Aus diesen und vielen weiteren Gründen, möchten die meisten Anbieter eigentlich nicht, dass ihre Websites bei Archive.org eingesehen werden können. Doch wie lässt sich die Website dort entfernen?
Der Weg zur Löschung bei Archive.org
Es gab mal eine Zeit, da konnte der Bot von Archive.org ganz einfach via robots.txt blockiert werden. Laut vielen Berichten funktioniert das nicht mehr zuverlässig und auch das Internet Archive bestätigt, dass die robots.txt keine große Priorität mehr genießt. Das ist nicht weiter verwunderlich, denn viele Tools halten sich schon lange nicht mehr an sie. Eine Garantie bot die robots.txt sowieso noch nie.
Was also tun? Im Grunde hilft nur ein ordnungsgemäßer DMCA Takedown. Das ist ein offizieller Anspruch auf Löschung, da ihr das Copyright der Inhalte besitzt und dies entsprechend einfordert.
Der DMCA Takedown ist außerdem eine Art Standard für das Entfernen von urheberrechtlich geschützten Material, in erster Linie bei US-Websites, muss also eine gewisse Struktur aufweisen, damit er seine Gültigkeit besitzt.
Stellt euch das wie ein Formular vor, bei dem alle Angaben vorhanden sein müssen, damit es überhaupt berücksichtigt werden kann. Deutsche kennen so eine nervtötende Bürokratie.
DMCA Takedown Generator
Um es euch besonders einfach zu machen, könnt ihr einen DMCA Takedown Generator nutzen. Diesen kann man verwenden, um für den Artikel eine Testanfrage an das Internet Archive zu stellen und zu überprüfen, ob der Takedown korrekt angenommen wird und die Methode wirklich funktioniert.
Dort tragt ihr im Grunde nur eure Daten ein. Dann noch den Link zur Wayback Machine hinzufügen und bei »Original Content URLs« eure eigene Website eintragen.
Ist der DMCA Takedown generiert worden, reicht es aus, das Internet Archive per E-Mail zu kontaktieren. In meinem Fall habe ich formlos (auf Englisch natürlich) darum gebeten, meine Domains aus der Wayback Machine zu entfernen und dann auf den DMCA Takedown unterhalb der E-Mail verwiesen. Diesen habe ich dort einfach direkt hineinkopiert.
Die Kontaktdaten vom Internet Archive findet ihr hier. Ob ihr dem Generator eure Daten antraut, bleibt euch überlassen. Vorlagen gibt es im Internet jede Menge. Ich hatte jedenfalls keine Probleme mit dem Generator und wollte ihn deshalb empfehlen.
Archive.org per .htaccess aussperren
Vertrauen ist gut, Kontrolle ist besser. Frei nach diesem Motto, sperre ich den Bot vom Internet Archive schon lange aus. Das geht mittels Blockade über die .htaccess in eurem Hauptverzeichnis.
Um einen User-Agent zu blockieren, in diesem Fall den sogenannten ia_archiver von Archive.org, reicht folgender Code.
<IfModule mod_rewrite.c> RewriteCond %{HTTP_USER_AGENT} (ia_archiver) [NC] RewriteRule ^(.*)$ - [F,L] </IfModule>
Das Blockiert den entsprechenden Bot und sorgt somit auch dafür, dass die Wayback Machine bei euch gar keinen Zugriff mehr hat und dementsprechend auch nicht crawlen kann. Ist der Code von Anfang an integriert, wird es also auch keine Snapshots geben und ein DMCA Takedown wird somit nicht nötig.
Wie lange dauert die Löschung?
Tatsächlich reagieren die Verantwortlichen nach einreichen des DMCA Takedowns recht schnell. Müssen sie vermutlich auch, da dies in Amerika recht etabliert ist und sie weiteren Ärger vermeiden sollten.
Gesetzlich gibt es aber wohl keine Frist. Ich habe mich für den Artikel etwas durch die Gesetze gelesen und dort ist wohl von »expeditiously« die Rede, also von einer prompten/schnellen Löschung.
Ich bekam bei meinem Test bereits wenige Stunden später (Zeitverschiebung beachten) die Antwort, dass meine Seiten zur Entfernung im System vorgemerkt wurde und es nun ein automatischer Prozess ist, der eventuell einen Tag dauern kann.
Oder anders gesagt: Am Nachmittag habe ich den DMCA Takedown abgeschickt, am nächsten Morgen hatte ich die Bestätigung im E-Mail Postfach und die Seite war ebenfalls schon gelöscht. Alles also recht unproblematisch und schnell. Da hätte ich, in Anbetracht der Projektgröße, mit längeren Reaktionszeiten gerechnet.
Meine Erfahrung mit Archive.org
Ob der Eintrag eurer Website im Internet Archive nun unbedingt gelöscht werden muss, lasse ich jetzt mal im Raum stehen. In den meisten Fällen dürfte es egal sein, ob die eigene Website in der Wayback Machine erscheint oder nicht.
Manchmal ist es auch ganz angenehm, so ein nostalgisches Backup zu haben. So wie ich oben die alte Version von web.de aus dem Jahr 2009 verlinkt habe, so ist ein Blick zurück manchmal auch ganz witzig oder gar nützlich.
Aber, und deshalb ist es mir so wichtig, dass meine Websites dort nicht mehr erscheinen: Wenn ihr mal einen inhaltlichen Fehler überseht oder eine News mit Embargo zu früh veröffentlicht (solche Sachen gab es bei meinem Gaming Blog durchaus mal), ist die Wayback Machine auch ziemlich unangenehm. Dann zeigt sie nämlich Inhalte, die auf der Website längst gelöscht wurden und nicht mehr online sein sollen. Manchmal auch, weil sonst rechtliche Konsequenten drohen.
Persönlich sperre ich den Archive.org Bot deshalb inzwischen von Anfang an aus, dann braucht es gar kein DMCA Takedown mehr, da das Internet Archive einfach keinen Zugriff bekommt. Wie ihr das handhabt, bleibt wie immer euch überlassen.
Ich hoffe, der Artikel war interessant für euch. Falls ihr sonst noch Fragen oder Themen habt, die ich mal genauer klären soll, rein damit in die Kommentare.
- So fügst du PDF- und Drucken-Button in deine Website-Artikel ein + Plugin-Tipps - 23. November 2022
- So muss euer Facebook-Titelbild aussehen, damit es geklickt wird! - 10. März 2022
- 3 WordPress Plugins für Diagramme: Visualizer, wpDataTables & WP Charts and Graphs - 15. Februar 2022
Hallo,
also mir Antworten die nicht! Ich muss aus rechtlichen Gründen meine Seite komplett entfernen lassen.
Habe einen normal formulierten Text + darunter aus dem Generator angepassten Text angehängt und abgeschickt.
Mit der bitte meine Seite zu löschen..
Was soll ich da noch tun ?
Das kann schon recht lange dauern, bis die reagieren. Wie lange ist es her, dass du sie angeschrieben hast?
Montag war das (13.1.20)
Hatte die Hoffnung laut dem Artikel das dies schneller geht..
Das kann leider schon ein paar Wochen dauern.
Hat jetzt geklappt. Sie wollten noch ein paar Verifikationsdaten – dann war es keine 24h später gelöscht! Erste Sahne
Wenn man zum Beispiel eine Abmahnung bekommt auf einer Seite dieses oder jenes nicht mehr zu tun, ist es wichtig auch das archive.org anzuschreiben.
Zumindest muss man nachweisen dass man sich um Löschung bemüht hat.
(in der dummen Situation stecke ich gerade)
Danke für den Tipp.
Wie sieht es denn mit alternativen Web Archives aus?
Gibt es so etwas? Nicht dass ich bei IA die Löschung beantrage und meine Daten noch woanders liegen?
Danke!
Das ist schon das wichtigste Archiv. Alles kann man sowieso nicht finden.
Hallo Peer,
ich habe einen Blogartikel inkl. ein paar Bildern von meiner Webseite entfernt die dringend verschwinden müssen und finde sie weiterhin auf Wayback. Diese möchte ich natürlich auf Wayback entfernen lassen.
Hast deine ganze Seite mit dem Take down Formular entfernen lassen oder nur einen Artikel oder einzelne Bilder?
Desweiteren frage ich mich, was ich mit den (alte unverschlüsselte URLs wie https:// wie http:// oder http://www) mache? Müssen hierfür einzelne Anträge gestellt werden?
Ach und leider habe ich den Jetpack CDN Server einmal benutzt. Der hat anscheinend auch Bildkopien von meinen Bildern gemacht. Diese CDN Server URL´s meiner Bildkopien kenne ich allerdings nicht. Hat jemand einen Tipp wie man Links vom Jetpack Server, nachdem löschen der Bilder, noch ausfindig machen kann?
Viele Grüße
Isa
Ich habe da die ganze Seite entfernen lassen. Die Entfernung ist meines Wissens Domainbezogenen. Da spielt es keine Rolle, ob https oder http.
Und selbst mit und ohne www müsste entfernt werden, aber dafür kann ich nicht garantieren.
Zu Jetpack kann ich leider nichts sagen, da ich das nicht nutze.
Da musst Du den Support von Jetpack selbst anschreiben, die löschen das….. Warte Zeit unklar.
Hat jemand positive Erfahrung mit DMCA bei mir reagiert archive.org seit Monaten nicht darauf
Ja bei mir seit Wochen. Soweit ich recherchiert habe verstoßen sie damit gegen deutsches Urheberrecht – aber daran müssen sich ohnehin nach meiner Meinung hauptsächlich wir Blogger halten…..
Vielen Dank an Peer Wandiger für diese Information – hat funktioniert. Sie hatten in (schneller) Antwortmail eine Reihe von Möglichkeiten zur Bestätigung angeboten, dass man der Seitenverantwortliche ist. Habe Variante 1 genommen, an einer Stelle der Seite knapp noch mal das DMCA-Anliegen einzufügen.
Hallo,
wenn ich auf den Link des dmca generator klicke, kommt als Antwort “apache is functionally normally” …
gibt es noch ein anderes Tool, oder ist das hier kaputt?
grüße
Maria
Ich habe mal einen anderen Generator verlinkt, aber davon gibt es einige, wenn man danach in Google sucht.
Bei mir hat es inzwischen geklappt.
Ich lasse den Archive-Bot bei mir passieren, aus zwei Gründen: Zum einen hat man dadurch ein Not-Backup der eigenen Website. Zum anderen könnte es sein, dass es ein kleiner Rankingvorteil bei Google sein kann, wenn man den Bot nicht aussperrt (vorweisen, dass man es “seriös” meint).
Hallo Peer,
vielen Dank für deine Anleitung. Ich hatte vor zwei Tagen mit dem verlinkten DMCA Generator die Takedown Notice generiert und per Mail an Arichve.org geschickt. Heute, nur zwei Tage später kam die positive Rückmeldung und meine Website ist in der Way Back Machine nicht mehr zu finden.
Schöne Grüße
Michael
Ist es nicht. Idr. sperren Sie sich, trotz nachweis per Perso, oder alten Rechnungen auf denen die Domain nicht drauf ist. Idr. haben auch alte Hoster so gut wie nie die Domains drauf, da diese eben anders abgerechnetet werden…
Es gehört einfach ins Reich von WKW StudiVz und endlich verrotet.. Aber es stirbt einfach nicht aus.
Hallo betrifft dies bloß die eigenen websites ? Ich habe nämlich das problem das beiträge von twitter, die ich längst wieder gelöscht habe, dort gelandet sind und ich bin ja offiziell nicht der eigentümmer der domain von twitter.com ! Ich hab dies da gelöscht da ich gemerkt hab das dies was da schadet . Nicht in meinem sinne ist das dies alle menschen wissen !
Das ist noch schwerer. Ich wüsste nicht, wie man solche Social Media Beiträge entfernen sollte. Das zeigt aber sehr gut, dass man sich IMMER gut überlegen sollte, was man online postet. Egal wo.
Mir erschließt sich der letzte Teil beim DMCA-Generator nicht, also “Infringing Content URL” bzw. wenn ich dort den Link zu meiner Seite bei webarchive eintrage, was trage ich dann bei “Name of infringing work” ein?
Die sollen sämtliche Seiten von mir löschen, also gegeben ich bei “Work” dann ein * an und bei URL den Link?
23.8.2023
Ganz herzlichen Dank für diese wunderbare Anleitung!!!
Ich habe den DMCA Generator genutzt und mit der Kopie dann die email ans Webarchiv geschickt.
Bekam zügig Antwort und musste dann noch nachweisen, dass ich der Domain-Eigentümer bin und angeben, was von wann bis wann gelöscht werden soll.
Danach bekam ich die Bestätigung und dass ich mich noch einen Tag gedulden soll, bis die Änderungen wirksam werden.
Es hat geklappt!
Es macht unbedingt Sinn eine Webseite aus archive.org zu löschen! Vor allem, wenn ich eine nicht mehr genutzte Domain kündigen will.
Bei mir war es ein alter Blog. Die Domain hat ein anderer gekauft, aus archive.org meine alten Inhalte kopiert und wieder auf die Seite gesetzt. Keine Ahnung, welchen Unfung der im Hintergrund damit angerichtet hat. Vermutlich eine Spamschleuder. Und auf der Webseite waren meine Daten, Bilder, Inhalte.
Mit Unterstützung der Polizei habe ich den Domaininhaber, der durch zwischengeschaltete Dienste verschleiert war herausfinden können und die Urheberrechtsverletzung melden können. Die Seite wurde abgeschaltet. Aber es war viel Arbeit das alles zu recherchieren und zu dokumentieren. Ich verhindere jetzt jede Archivierung, damit mir sowas nicht nochmal passiert.
Moin,
Ich will und muss meine Inhalten bei archive.org löschen lassen. Meine Internetseite hatte ich schon mithilfe der im “.htaccess” Order enthaltenen Eintragungen:
deny,allow
Deny from all
blockieren lassen, was auch wunderbar funktioniert. Alle Zugriffe auf die Seite werden blockiert. Wenn ich aber nun wie vorgeschlagen die Textdatei: robots.txt mit den notwendigen Einträgen auf der ´Hauptseite im Verzeichnis hochlade, wird natürlich auch der Zugriff auf eben diese txt-datei mit dem Hinweis “vorbidden” verhindert. Nun will ich aber die Internetseite nicht wieder freigeben, weil ja dann auch alle Inhalte wieder verfügbar wären. Was kann ich also machen, um den Anforderungen von archive.org zu genügen.