OpenAI startet den Webcrawler GPTBot und Anweisungen, wie man ihn blockiert.

OpenAI startet GPTBot Webcrawler und Blockierungsanweisungen.

OpenAI hat einen Webcrawler gestartet, um künstliche Intelligenzmodelle wie GPT-4 zu verbessern.

Der GPTBot durchsucht das Internet, um die Fähigkeiten von KI zu trainieren und zu verbessern. Die Verwendung von GPTBot hat laut einem Blogbeitrag von OpenAI das Potenzial, bestehende KI-Modelle in Bezug auf Genauigkeit und Sicherheit zu verbessern.

“Mit dem GPTBot-Benutzeragent gecrawlte Webseiten können potenziell zur Verbesserung zukünftiger Modelle verwendet werden und werden gefiltert, um Quellen zu entfernen, die eine Paywall erfordern, bekanntermaßen personenbezogene Informationen (PII) sammeln oder Texte enthalten, die gegen unsere Richtlinien verstoßen”, heißt es in dem Beitrag.

Webseiten können jedoch den Zugriff des Webcrawlers einschränken und verhindern, dass GPTBot auf ihre Seiten zugreift, entweder teilweise oder vollständig. OpenAI gab bekannt, dass Website-Betreiber den Crawler blockieren können, indem sie seine IP-Adresse sperren oder die Robots.txt-Datei einer Website nutzen.

OpenAI ist in der Vergangenheit bereits wegen der Art und Weise, wie es Daten sammelt, sowie wegen Urheberrechtsverletzungen und Verletzungen der Privatsphäre in Schwierigkeiten geraten. Im vergangenen Juni wurde die KI-Plattform verklagt, weil sie “persönliche Daten gestohlen” hat, um ChatGPT zu trainieren.

Die Opt-out-Funktionen wurden erst kürzlich implementiert und ermöglichen es den Benutzern, mehr Kontrolle darüber zu haben, auf welche persönlichen Daten zugegriffen werden kann, wie zum Beispiel das Deaktivieren des Chatverlaufs.

ChatGPT 3.5 und 4 wurden mit Online-Daten und Texten trainiert, die bis September 2021 zurückreichen. Es gibt derzeit keine Möglichkeit, Inhalte aus diesem Datensatz zu entfernen.

Wie man verhindert, dass GPTBot den Inhalt Ihrer Website verwendet

Laut OpenAI können Sie GPTBot daran hindern, Ihren Website-Inhalt zu verwenden, indem Sie ihn zur Robots.txt Ihrer Website hinzufügen, die im Grunde eine Textdatei ist, die Webcrawlern anweist, auf welche Inhalte einer Website sie zugreifen können oder nicht.

Sie können auch anpassen, welche Teile von Webcrawlern verwendet werden dürfen, indem Sie bestimmte Seiten zulassen und andere verbieten.