Reddit blockiert diverse Suchmaschinen und KI-Bots

Reddit geht derzeit verschärft gegen Webcrawler vor. Ein Bericht von 404 Media macht darauf aufmerksam, dass Reddit Suchmaschinen hindert, aktuelle Beiträge und Kommentare zu zeigen.

Momentan soll einzig und allein Google als populäre Suchmaschine Webergebnisse anzeigen. DuckDuckGo, Bing und Co sind außen vor. Das dürfte wohl daran liegen, dass Google mit Reddit einen 60-Millionen-Dollar-Deal abgeschlossen hat. Google trainiert mit Reddit-Inhalten seine KI-Modelle.

In den vergangenen Monaten hatte Reddit beispielsweise seine API für Drittentwickler teurer gemacht. Um die Scraping-Politik durchzusetzen, hat Reddit vergangenen Monat die robots.txt-Datei aktualisiert. Gibt es keine Vereinbarung mit Reddit, dann gibt es auch keinen Zugriff auf Reddit-Daten sowie Inhalte. Sprich: Reddit holt hier wohl nur noch bezahlende Suchmaschinen mit ins Boot.

Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf ge­lan­gt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir ei­ne kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

Avatar-Foto

Baujahr 1995. Technophiler Schwabe & Lehrer. Unterwegs vor allem im Bereich Smart Home und ständig auf der Suche nach neuen Gadgets & Technik-Trends aus Fernost. X; Threads; LinkedIn. Mail: felix@caschys.blog

Neueste Beiträge

Mit dem Absenden eines Kommentars stimmst du unserer Datenschutzerklärung und der Speicherung von dir angegebener, personenbezogener Daten zu.

19 Kommentare

  1. Verrückt, denn Reddit gehören dle Inhalte gar nicht. Reddit benimmt sich aber so, als hätten sie die Inhalte aufwendig selbst produziert. Wie bei allen solchen Plattformen… Usenet war da echt besser als dlese arroganten Plattformen. Private Forenbetreiber sind da aber ähnlich und verstecken z.B. Inhalte von Nutzern und verlangen eine Anmeldung.

    • Black Mac says:

      Reddit benimmt sich aber so, als hätten sie die Inhalte aufwendig selbst produziert.

      Reddit benimmt sich so, als hätten sie die Plattform aufgebaut und bekannt gemacht. Sie erzählen, dass sie für die Infrastruktur aufkommen. Und sie tun so, als würden sie Programmierer und Techniker bezahlen, die den Karren am Laufen halten, nur damit die kostenlose Plattform weiter existiert.

      Und jetzt besitzen sie sogar die Frechheit, bei der Nutzung der Daten und der Monetarisierung dreinzureden! Unfassbar!

    • „When Your Content is created with or submitted to the Services, you grant us a worldwide, royalty-free, perpetual, irrevocable, non-exclusive, transferable, and sublicensable license to use, copy, modify, adapt, prepare derivative works of, distribute, store, perform, and display Your Content and any name, username, voice, or likeness provided in connection with Your Content in all media formats and channels now known or later developed anywhere in the world. This license includes the right for us to make Your Content available for syndication, broadcast, distribution, or publication by other companies, organizations, or individuals who partner with Reddit.“

    • Private Forenbetreiber sind private Forenbetreiber und können festlegen, dass du dich gefälligst erst mal anzumelden und die im speziellen Fall gültigen Forenregeln zu akzeptieren hast. Oder würde es dir gefallen, wenn sich Hinz & Kunz in deiner Wohnung umsehen, Fotos davon posten und andere noch animieren, das ebenfalls zu tun?

    • Reddit User Agreement gelesen?

    • Ich bin da komplett bei der @Rot. Ich finde öffentliche Plattformen sollten auch öffentlich zugänglich sein für alle Suchmaschinen. Wer das nicht gut findet, der findet es implizit dann auch gut, dass man gezwungen ist eine spezielle Suchmaschine zu benutzen weil man ansonsten nicht alle Infos aus dem freien, öffentlichen Internet zu sehen bekommt.

  2. Via Startpage müsst man ja trotzdem an die Ergebnisse kommen, denn es wertet ja Googleanfragen aus.

  3. Die Tage noch auf DuckDuckGo gewechselt und jetzt so eine Nachricht

    • weirdscience says:

      wieso tun immer alle so als ob so ein „Wechsel“ irgendwas dauerhaftes sein muesste oder Geld oder gar Zeit gekostet hat? Dann diese komischen Sprueche als ob es nicht moeglich waere wieder Google zu nutzen oder eine andere Suchmaschine. Und vor allem, wieso viele meinen man muesse sich auf seine einzige Suchmaschine beschraenken. Echt merkwuerdiges verhalten.

      Ich empfehle meta suchmaschinen wie SearxNG usw. oder auch Brave search.

  4. Uh.. also das ist ziemlich problematisch, oder? Reddit ist im Moment leider DER Ort für non-fake Antworten. Das wird in Zukunft nur noch vom Monopolisten angezeigt? Ist das klug?

    Stellt euch Mal vor ihr habt ein Windows-Problem und könnt euch nur auf den Boilerplate Seiten des Microsoft Hilfeforums bewegen. Das wär doch ein eigener Höllenkreis. 😀

    Dearest Gentlesir, have you tried running /chdsk blablabla. Thank you for your patience gentlesir. You very welcome!

    Urgh

  5. So langsam stirbt die robots.txt. Soweit ich weiss ist es eine freiwillige Sache sich an die robots.txt zu halten.

    Erst haben die AI Scraper angefangen die zu ignorieren und wenn jetzt Reddit die anderen Suchmaschinen aussperrt wird es nicht lange dauern, bis die ersten sich ein Beispiel an den AI Scrapern nehmen.

    Reddit ist eine unglaublich wichtige Ressource, da es so ziemlich die größte Plattform ist, wo man noch Antworten von Menschen anstatt SEO Bullshit findet. Das wissen auch die Suchmaschinenbetreiber.

    • Ja, ich halte das auch so!
      Wenn der spinnerte Ladenbetreiber mir ein Produkt nicht gratis gibt dann klaue ich es eben, ich meine was bildet der sich eigentlich ein, über seine Ressourcen selbst bestimmen zu wollen!

      P.S. auch über die robots.txt konnte/kann man diverse Suchmaschinen ein- oder ausschliessen
      User-agent: *
      Disallow: /
      User-agent: Googlebot
      Disallow:
      User-agent: bingbot
      Disallow: /not-for-bing/

      • OpenAI etc. ist nichts passiert, als sie die robots.txt ignoriert haben. Ein bisschen schlechte Presse, das war dann aber schnell wieder vergessen.

        Wenn es nun aber zu einem deutlichen Wettbewerbsnachteil für Suchmaschinen werden würde, wenn sie Reddit nicht crawlen, werden einige sicher abwägen, ob man es nicht doch einfach macht.

        Ich sage nicht, dass ich das gut finde, aber die moralische Hürde das zu tun, ist seit den Meldungen über die AI Crawler noch weiter gesunken.

        Natürlich kann man über die robots.txt den Zugang von bestimmten Crawlern steuern. Aber soweit sich weiss, muss dieser Crawler die Datei auch lesen und sich an die Anweisung halten.

        • Die robots.txt wurde schon vor 15 Jahren nur von den Grossen respektiert.
          Der einzig zuverlässige Weg gegen Sitescraping ist mMn ein empfindliches rate limiting, das ’normales‘ Surfen noch erlaubt (aber 1 Seitenaufbau dauert halt 10+s), aber scraping zu einer zeitaufwändigen Sache macht.
          Eine weitere Massnahme könnte der Wegfall des ‚anonymen‘ Zugriffs sein – gerade bei reddit würde ich diesen Weg gehen (und dann Zugriffsstatistiken führen und „abusive accounts“ sperren).

    • Selbst wenn andere Suchmaschinen die robots.txt ignorieren könnte Reddit doch trozdem sagen das Sie dafür eine Lizenz benötigen? Ich weiß jetzt nicht wie die Rechtslage in den USA dazu aussieht.

      AI Scraper kann man höchsten über IP Listen und WAFs ausperren aber das wird wahrscheinlich nie 100% zuverlässig sein. Cloudflare bietet das bereits an.

  6. Herr Hauser says:

    https://www.reddit.com/robots.txt

    # Welcome to Reddit’s robots.txt
    # Reddit believes in an open internet, but not the misuse of public content.
    # See https://support.reddithelp.com/hc/en-us/articles/26410290525844-Public-Content-Policy Reddit’s Public Content Policy for access and use restrictions to Reddit content.
    # See https://www.reddit.com/r/reddit4researchers/ for details on how Reddit continues to support research and non-commercial use.
    # policy: https://support.reddithelp.com/hc/en-us/articles/26410290525844-Public-Content-Policy

    User-agent: *
    Disallow: /

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Es werden alle Kommentare moderiert. Lies auch bitte unsere Kommentarregeln:

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen. Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte - gerne auch mit Humor. In jedes Thema Politik einbringen ist nicht erwünscht.

Du willst nichts verpassen?

Du hast die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren.