Arnstadt Blog

Informationen, Neuigkeiten und Wissenswertes aus Arnstadt
Wie verhindere ich, dass meine Website in ChatGPT landet?

Wie verhindere ich, dass meine Website in ChatGPT landet?


Mein Blogbeitrag zum neuen Service

Ich habe ja sehr wahrscheinlich vor diese App mit einen KI-ChatBot zu versehen. Ich bin mir allerdings noch nicht ganz sicher, welche Technik ich dazu verwende. Aktuell präferiere ich eine Open Source Lösung, allerdings ist es auch möglich, dass ich dazu fast schon Oldscool »ChatGPT« vewende.

Im Rahmen meiner Stadt-App habe ich resümiert, dass das ganze Projekt nur Sinn macht, wenn:

  • Der Chatbot tatsächlich für Bewohner und Gäste nützlich ist
  • Nützlich ist er ausschließlich, wenn er absolut aktuelle Daten enthält
  • Diese Daten müssen teilweise (Bsp.: Veranstaltungen) öfters, regelmäßig aktualisiert werden

Ich habe bereits angefangen, mir einen Datenbank mit Daten anzulegen, die diesen Kriterien entsprechen. Allerdings habe ich hier, wie hier schon erläutert, aus Datenschutzgründen ein wenig mit meinem Gewissen zu kämpfen.

Wunderbarerweise kann jetzt jeder aktiv und sehr einfach verhindern, dass der Web-Crawler von OpenAI Daten von seiner Website sammelt, um das Training von GPT-Modellen zu unterstützen. Laut OpenAI können Website-Besitzer den GPTBot-Crawler direkt in der Robots.txt-Datei ihrer Website einschränken oder seine IP-Adresse blockieren, um den Zugriff auf die Website zu verhindern.

Ich persönlich halte das für -gelinde gesagt- nicht besonders sinnvoll, aber ich habe nicht über die Daten anderer zu entscheiden. Wer, warum und wieso nicht in diesen Index möchte, hat auch ein Recht und sollte die Möglichkeiten kennen.

OpenAI sagt dazu:

»Webseiten, die mit dem GPTBot-User-Agent gecrawlt werden, können möglicherweise zur Verbesserung zukünftiger Modelle verwendet werden und werden gefiltert, um Quellen zu entfernen, die einen Paywall-Zugang erfordern, von denen bekannt ist, dass sie persönlich identifizierbare Informationen sammeln oder Text enthalten, der gegen unsere Richtlinien verstößt«,

OpenAI sinngemäß in einem Blogpost.

»Darüber hinaus werden Webseiten, die mit dem GPTBot-User-Agent gecrawlt werden, gefiltert, um Quellen zu entfernen, die Text enthalten, der gegen unsere Richtlinien verstößt.«

Es hat sich gezeigt, dass

»die Erlaubnis von GPTBot, auf Ihre Website zuzugreifen, KI-Modellen helfen kann, genauer zu werden und ihre allgemeinen Fähigkeiten und Sicherheit zu verbessern.«

Dies gilt für Quellen, die die Voraussetzungen für einen Ausschluss nicht erfüllen.

Die Blockierung des GPTBot könnte der erste Schritt in Richtung OpenAI sein, ein System zu implementieren, das Internetnutzern die Möglichkeit gibt, ihre Daten nicht für das Training der riesigen Sprachmodelle zu verwenden. Diese Maßnahme folgt auf frühere Bemühungen, ein Label zu schaffen, das Material vom Training ausschließt, wie z.B. ein »NoAI«-Tag, das im vergangenen Jahr von DeviantArt entwickelt wurde. Es löscht nicht rückwirkend Material aus den Trainingsdaten von ChatGPT, das zuvor von einer Website entnommen wurde.

Was muss ich tun, damit meine Website nicht von OpenAI(ChatGPT) gescannt wird?

Verhindern Sie, dass GPTBot Ihre Website crawlt, indem Sie seinen Zugang blockieren: Sie haben die Möglichkeit, GPTBot zu blockieren, wenn Sie den Modellen von OpenAI keinen freien Zugang zu den Daten Ihrer Website gewähren wollen. Durch die Definition von »User-agent: GPTBot« haben Sie die Möglichkeit, entweder den Zugriff des Bots auf Ihre gesamte Website zu verhindern oder den Bot daran zu hindern, bestimmte Ordner oder Kategorien auf Ihrer Website zu sehen. Sie können GPTBot in ähnlicher Weise wie einen Google-Crawler verhindern, indem Sie ihn in Ihre robots.txt-Datei aufnehmen und ihm die folgenden Anweisungen geben.

User Agent
GPTBot ist der Web-Crawler von OpenAI und kann durch den folgenden User-Agent und String identifiziert werden

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

GPTBot verbieten
Um GPTBot den Zugriff auf Ihre Website zu verweigern, können Sie den GPTBot in die robots.txt Ihrer Website aufnehmen:

User-agent: GPTBot
Disallow: /

Anpassen des GPTBot-Zugriffs
Um GPTBot nur den Zugriff auf Teile Ihrer Website zu erlauben, können Sie das GPTBot-Token wie folgt in die robots.txt Ihrer Website einfügen:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Laut OpenAI wird Material, das hinter Paywalls versteckt ist, auf Seiten, die nach persönlichen Informationen fragen, oder das gegen die Inhaltsregeln von OpenAI verstößt, automatisch herausgefiltert. Die vollständigen Anweisungen finden Sie hier: https://platform.openai.com/docs/gptbot

Hilfe bei der Verbesserung von ChatGPT

Laut OpenAI könnten die vom GPTBot aufgerufenen Webseiten »potenziell zur Verbesserung zukünftiger GPT-Modelle verwendet werden«. Das Unternehmen sagt auch, dass es Seiten herausfiltert, die eine Bezahlschranke haben, von denen bekannt ist, dass sie personenbezogene Daten sammeln, oder die Sprache enthalten, »die gegen unsere Regeln verstößt.« Das Unternehmen behauptet weiterhin, dass diejenigen, die der Erfassung der Daten durch den Crawler zustimmen, dazu beitragen können, die allgemeine Genauigkeit und Qualität der KI-Modelle zu verbessern.

Kürzlich verpflichteten sich OpenAI und andere KI-Unternehmen gegenüber der amerikanischen Regierung, künftige KI-Inhalte mit Wasserzeichen zu versehen und die Technologie gründlich zu testen, bevor sie veröffentlicht wird. Wie sie zu diesem Zweck das Internet durchforsten, wurde nicht erwähnt, und es gab auch keine Hinweise auf die Internetinformationen, die ihnen beigebracht worden waren. Dank der Anforderungen an die robots.txt erhalten die Website-Administratoren nun wieder eine gewisse Kontrolle.

Die von OpenAI verfolgte Strategie ist nicht die erste, die darauf abzielt, den Produzenten von Inhalten die Freiheit zu geben, selbst zu entscheiden, ob sie am Training künstlicher Intelligenz teilnehmen wollen oder nicht. Die Online-Kunstgalerie DeviantArt hat bereits im November gezeigt, wie Nutzer einen entsprechenden Hinweis in ihre Werke einbauen können. Die Plattform hat eigens für diesen Zweck das Label »noai« eingeführt. DeviantArt konnte jedoch nicht beeinflussen, ob diejenigen, die KI-Technologie entwickeln, dies zur Kenntnis nehmen werden.

Was ist ChatGPT?

Die OpenAI-Website beschreibt ChatGPT als »eine künstliche Intelligenz, die darauf trainiert ist, bei einer Vielzahl von Aufgaben zu helfen«. ChatGPT bezieht sich auf ein Sprachmodell, das von der KI entwickelt wurde, um menschenähnliche Texte zu verfassen und Konversationen zu führen.

In der Praxis bedeutet dies, dass Sie Ihre Frage oder Anfrage zunächst in ein Textfeld eingeben müssen, bevor Sie sie dem Modell vorlegen. Die KI prüft dann diese Anfrage und reagiert entsprechend den ihr zur Verfügung stehenden Daten.

WIE KANN CHATGPT VERWENDET WERDEN?

  • Erstellen von schriftlichem Material, von Büchern bis hin zu Zeitungsartikeln.
  • Kürzung längerer Arbeiten
  • als Recherchewerkzeug auf Anfragen antworten.
  • Software erstellen und reparieren
  • Textbasierte und Aufbauspiele
  • als Tutor für Probleme mit oder Anfragen zu Aufgaben dienen
  • Ihre bevorstehende Reise zu organisieren.
  • die Erstellung von Software-Aktivierungsschlüsseln

Das »GPT« in ChatGPT bezieht sich auf das von der Anwendung gewählte Lernmodell. GPT steht für »Generative Pre-trained Transformer«, und GPT-3.5 ist heute die am häufigsten verwendete Version. Dies ist die GPT-Version, auf der die kostenlose Forschungsvorschauversion von ChatGPT basiert.

Es gibt auch ein neueres Modell, bekannt als GPT-4. Allerdings haben nur GPT-4 API-Benutzer und ChatGPT Plus-Mitglieder Zugang zu diesem Modell. Obwohl sich dies in Zukunft ändern könnte, sind kostenlose Nutzer derzeit auf GPT-3.5 beschränkt.

OpenAI hat ChatGPT im August 2023 aktualisiert und neue Funktionen hinzugefügt. Wenn Sie nun einen Chat beginnen, liefert der KI-Chatbot sofort Beispiele und schlägt Antworten vor. Wenn Sie ChatGPT Plus haben, verwendet es jetzt auch standardmäßig GPT-4, GPT-3.5 ist jedoch weiterhin eine Option. Außerdem können Plus-Mitglieder mehrere Dateien gleichzeitig hochladen, damit ChatGPT sie prüfen kann. Mit dem Upgrade wurden auch Tastaturkürzel verfügbar gemacht und das sofortige Ausloggen wurde abgeschafft.

Für große Sprachmodelle wie die GPT-Modelle von OpenAI und Bard von Google diente das Internet als wichtige Quelle für Trainingsdaten. OpenAI will jedoch nicht sagen, ob es seine Daten aus Blogbeiträgen, urheberrechtlich geschützten Werken oder bestimmten Bereichen des Internets bezogen hat. Darüber hinaus hat sich die Beschaffung von Daten für das KI-Training zu einem problematischen Thema entwickelt. Autoren und andere Kreative haben Klagen über die angeblich unberechtigte Nutzung ihrer Werke eingereicht, während Websites wie Reddit und Twitter gegen die kostenlose Nutzung der Beiträge ihrer Nutzer durch KI-Unternehmen vorgehen. In einer Reihe von Senatsanhörungen zum Thema KI-Governance im vergangenen Monat konzentrierten sich die Gesetzgeber auch auf Fragen des Datenschutzes und der Zustimmung.

Die Plattform hat dies gleichzeitig für den zeitgleich gestarteten Bildergenerator DreamUp erheblich erschwert und erst nach heftigen Reaktionen geändert. Danach wurde auf ein Opt-in-System umgestellt, bei dem sich nur noch diejenigen anmelden müssen, die ihre eigenen Werke als KI-Futter verwenden wollen. Wer den Zugriff auf OpenAIs GPTBot von einer Website aus verhindern will, muss nun die robots.txt ändern.

Ich bin jetzt jedenfalls um einiges beruhigter. Mit dieser simplen Methode kann jeder selbst seine Website schützen und ich kann langsam aber sicher mit dem Training beginnen.

Tom Scharlock

Tom Scharlock

Alle Beiträge von Tom Scharlock

Als Entwickler dieses Portals wünsche ich Ihnen viel Spaß beim Entdecken von interessanten Orten, Lokalitäten und Neuigkeiten in Arnstadt und im Arnstadt Blog. Sie sind Eigentümer? Gerne können Sie Ihren Eintrag übernehmen und ihn so aktuell halten. Wenn Sie als Gast in Arnstadt Urlaub machen, heiße ich Sie willkommen in unserer schönen Stadt.

auch sehr fein

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert