Sprachmodelle – Künstliche Intelligenz (KI) – Datenschutz

Was ist eigentlich was?

„KI-Sprachmodelle verarbeiten personenbezogene Daten! Die Behauptung, dass KI-Sprachmodelle nur anonyme Daten verarbeiten, ist ein großer Irrtum!“, so Michael Jacob am Rande der Tagung der Datenschutzkonferenz des Bundes und der Länder zum Europäischen Datenschutztag am letzten Montag in Berlin.

Aber der Reihe nach … Was ist eigentlich was?

Ein Sprachmodell ist grundsätzlich ein Computerprogramm, das natürliche Sprache versteht und erzeugt. Sprachmodelle werden heutzutage in vielen Bereichen eingesetzt, z.B. in der automatischen Übersetzung von Texten, der Spracherkennung, der Textgenerierung und der Chatbot-Entwicklung.

Sprachmodelle sind ein wichtiger Bestandteil der Künstlichen Intelligenz (KI). KI-Systeme können Sprachmodelle nutzen, um menschenähnliche Sprachfähigkeiten zu entwickeln, die es ihnen ermöglichen, natürliche Sprache zu verstehen und zu generieren. KI-Systeme, die auf Sprachmodellen basieren, können in vielen Anwendungsbereichen eingesetzt werden, wie zum Beispiel im Kundenservice, im Sprachunterricht und in der Textgenerierung. Diese Systeme können die Interaktion mit Nutzern menschenähnlich und effektiv gestalten, indem sie natürliche Sprache in Echtzeit verarbeiten und darauf reagieren.

ChatGPT ist ein Beispiel für ein sogenanntes „Generative Language Model“, das auf Basis von großen Textmengen wie beispielsweise Wikipedia-Artikeln trainiert wurde und daraufhin in der Lage ist, eigene Texte zu erzeugen.

Diese KI-Sprachmodelle rücken nun in den Fokus der Datenschutzaufsichtsbehörden. Sowohl auf europäischer als auch auf deutscher Ebene ist eine Task Force KI gebildet worden. Diese haben eine koordinierte Überprüfung der Anbieter von Sprachmodellen – wie z. B. ChatGPT – zum Ziel.

KI-Systeme haben häufig gemeinsam, dass die durch Trainingsalgorithmen erhobenen Daten generalisiert erhoben werden. KI-Systeme merken sich somit alle Informationen, die sie sammeln, und personenbezogene Daten sind in den gespeicherten Datenbeständen nur sehr schwer zu identifizieren. Sie werden aber bei Fragestellungen an die KI-Sprachmodelle als Antwort mit ausgegeben. Die mitunter vertretene Aussage, dass KI-Systeme nur anonyme Daten speichern, ist somit falsch.

Bei den diesjährigen Datenschutzinfotagen im Sommer 2024 beabsichtigt auch der Beauftragte für den Datenschutz der EKD (BfD EKD) das Thema KI-Systeme aus einer kirchlichen Perspektive erstmals in den Blick zu nehmen.

Bildquellen