Wie man OpenAI’s neuen KI-Trainings-Webcrawler daran hindert, Ihre Daten aufzunehmen

Verhindern von OpenAI's neuem KI-Trainings-Webcrawler bei der Aufnahme Ihrer Daten

OpenAI, der Schöpfer von ChatGPT, hat einen neuen Webcrawler namens GPTBot veröffentlicht und Anweisungen zur Blockierung bereitgestellt.

ChatGPT ist eines der leistungsfähigsten KI-Systeme, die jemals entwickelt wurden, obwohl kürzlich Berichte über seine nachlassende Intelligenz aufgetaucht sind. OpenAI, das Unternehmen hinter dem KI-Chatbot, setzt weiterhin seine großen Sprachmodelle (LLMs) wie GPT-3.5 und GPT-4 fort.

Außerdem: ChatGPT erhält diese Woche eine Vielzahl von Updates. Hier ist, was Sie wissen müssen

Webcrawler, die von Suchmaschinen wie Google und Bing verwendet werden, um Websites zu durchsuchen und Inhalte zu indexieren, werden auch von KI-Unternehmen verwendet, um LLMs zu trainieren. Diese Modelle lernen aus dem Inhalt von Websites und allen anderen Daten, die ihre Entwickler für das Training auswählen. Durch die Verwendung eines Webcrawlers wird dieser Prozess beschleunigt, indem den LLMs das Training mit massiven Datenmengen ermöglicht wird.

“Das Zulassen des Zugriffs von GPTBot auf Ihre Website kann dazu beitragen, dass KI-Modelle genauer werden und ihre allgemeinen Fähigkeiten und Sicherheit verbessern”, heißt es in der Dokumentation von GPTBot von OpenAI. Das Unternehmen gibt an, Webseiten auszufiltern, die einen Bezahlzugang erfordern, personenbezogene Informationen sammeln und Texte enthalten, die gegen die Richtlinien von OpenAI verstoßen.

Entwickler haben die Möglichkeit, den GPTBot daran zu hindern, auf ihre Websites zuzugreifen und ihre Informationen zur Schulung von KI-Systemen zu verwenden.

OpenAI erklärt, wie der Zugriff von GPTBot auf Ihre Website untersagt oder angepasst werden kann.

Um GPTBot den Zugriff auf eine Website vollständig zu blockieren, kann der Website-Besitzer das GPTBot-Token zur robots.txt der Website hinzufügen und “Disallow: /” angeben.

OpenAI ermöglicht es Benutzern auch, den Zugriff von GPTBot anzupassen, indem sie es nur auf bestimmte Teile ihrer Website zugreifen lassen. Um den Zugriff von GPTBot auf Teile einer Website zu blockieren, fügen Sie GPTBot zur robots.txt der Website hinzu und geben Sie “Allow: /verzeichnis-1/” und “Disallow: /verzeichnis-2/” an und passen Sie dies nach Bedarf an.

Außerdem: Nvidia optimiert seinen “Superchip” Grace-Hopper mit schnellerem Speicher für KI

OpenAI hatte zuvor nicht bekannt gegeben, dass Webcrawler zur Schulung von GPT-3.5, dem LLM hinter der kostenlosen Version von ChatGPT, oder GPT-4, seinem neuesten LLM, das ChatGPT Plus-Abonnenten zur Verfügung steht und Bing AI antreibt, verwendet wurden.

Obwohl unklar ist, ob GPTBot zur Schulung der derzeit verfügbaren LLMs von OpenAI verwendet wurde, könnte es sich bei dem Webcrawler um das Training von GPT-5 handeln, insbesondere da das Unternehmen im Juli einen Markenschutzantrag für den Namen gestellt hat. Obwohl OpenAI kein Veröffentlichungsdatum für GPT-5 bekannt gegeben hat, wird erwartet, dass das neue LLM leistungsfähiger und größer sein wird als GPT-4, das derzeit größte verfügbare LLM.

Außerdem: AI-Bots könnten bald Ihre neuen Kundendienstmitarbeiter werden

Seit der Einführung von ChatGPT wurde OpenAI mit mehreren Klagen konfrontiert, in denen behauptet wird, dass das KI-Tool Daten von Benutzern stiehlt, einschließlich einer Urheberrechtsverletzung, die das Unternehmen zum Ziel einer Untersuchung der FTC gemacht hat. Websites wie Stack Overflow, Reddit und Twitter haben angekündigt, KI-Unternehmen Gebühren für den Zugriff auf ihre Daten zu erheben.