Messung von Vertrauen Warum jedes KI-Modell eine FICO-Score benötigt

Trust Measurement Why Every AI Model Needs a FICO Score

Generative KI wird laut der Studie “State of IT 2023” von Salesforce in Kürze zum Mainstream werden, sagen 9 von 10 IT-Leitern.

Laut McKinsey haben 50% der Organisationen im Jahr 2022 KI eingesetzt. IDC prognostiziert, dass die weltweiten Ausgaben für KI allein im Jahr 2023 um erstaunliche 26,9% steigen werden. Eine kürzliche Umfrage unter Kundendienstmitarbeitern ergab, dass die Nutzung von KI zwischen 2020 und 2022 um 88% gestiegen ist. Forschungen zeigen, dass 86% der IT-Leiter davon überzeugt sind, dass generative KI in naher Zukunft eine bedeutende Rolle in ihrer Organisation spielen wird.

Auch: Zwei Drittel der Fachleute glauben, dass KI den Wert ihrer Fähigkeiten steigern wird

Und dennoch sind 64% der IT-Leiter besorgt über die Ethik der generativen KI und 62% sind besorgt über ihre Auswirkungen auf ihre Karrieren. In einer kürzlichen Umfrage unter IT-Leitern wurden Bedenken hinsichtlich generativer KI wie Sicherheitsrisiken (79%), Voreingenommenheit (73%) und CO2-Fußabdruck (71%) genannt. Ein weiterer Bericht ergab, dass 23% der Kunden KI nicht vertrauen und 56% neutral sind. Dieses Vertrauensdefizit kann sich je nachdem, wie Unternehmen KI-gesteuerte Dienste nutzen und bereitstellen, in beide Richtungen ändern.

Laut der neuesten Forschung von McKinsey könnte generative KI durchschnittlich 2,6 Billionen bis 4,4 Billionen US-Dollar pro Jahr zu den 63 von McKinsey analysierten Anwendungsfällen beitragen – im Vergleich dazu betrug das gesamte BIP des Vereinigten Königreichs im Jahr 2021 3,1 Billionen US-Dollar. Dies würde die Auswirkungen künstlicher Intelligenz insgesamt um 15 bis 40% erhöhen. Das größte Hindernis für das Wachstum und die Adoption von KI ist das Vertrauen. Der Fachkräftemangel und das Vertrauen sind die größten Hindernisse für die geschäftliche Nutzung von generativer KI.

Auch: Generative KI und das vierte Warum: Vertrauen zum Kunden aufbauen

Um eine bessere Perspektive darauf zu gewinnen, wie KI-Lösungsanbieter das Vertrauen aller Stakeholder gewinnen können – Mitarbeiter, Kunden, Partner und Gemeinschaften, denen sie dienen -, führte ich ein faszinierendes Gespräch mit Richie Etwaru, einem Experten für Datenschutz, erweiterte Analytik, KI und digitale Transformation. Etwaru, Mitbegründer und Chief Creative Officer von Mobeus, hat zahlreiche Patente, Bücher, TEDx-Talks und branchenweit erstmalige Innovationen zu verzeichnen.

Wie können wir Vertrauen in alle grundlegenden Modelle aufbauen, die für generative KI und darüber hinaus verwendet werden? Hier ist, was Etwaru vorschlägt.

Arthur C. Clarkes Aussage “Jede ausreichend fortschrittliche Technologie ist von Magie nicht zu unterscheiden”, niedergeschrieben in seinem Buch “Profiles of the Future: An Inquiry into the Limits of the Possible” von 1962, hat den Test der Zeit bestanden.

Spulen wir 60 Jahre vorwärts zum 20. November 2022: OpenAI enthüllte ChatGPT, ein technologisches Wunderwerk, das so fortschrittlich war, dass es die Grenzen zwischen Magie und Zauberei zu verwischen schien. Das war nicht nur Magie; es war unheimlich. Die Beziehung der Menschheit zur Magie ist eine des Gleichgewichts. Wir erfreuen uns an Magie, wenn sie faszinierend und ehrfurchtgebietend ist, aber wenn sie unsere Vorstellungskraft übersteigt und eine Grenze des Verständnisses überschreitet, wird sie einschüchternd. Der Moment, in dem Magie zu mächtig erscheint, zieht sie uns aus unserer Komfortzone und in eine verwirrende Dimension. Das Unbehagen rührt daher, dass wir auf Phänomene stoßen, die sich der logischen oder wissenschaftlichen Erklärung entziehen.

Auch: Die besten KI-Chatbots: ChatGPT und andere bemerkenswerte Alternativen Im technologischen Bereich bieten sowohl ChatGPT als auch seine Zeitgenossen – große Sprachmodelle, die für die Interaktion entwickelt wurden, sowie DALL-E mit der Fähigkeit, Text-zu-Medien zu generieren – etwas Unerwartetes. Sie präsentieren Fortschritte, die Clarke sich möglicherweise nicht vorgestellt hat, und erreichen eine Raffinesse, die über bloße “Magie” hinausgeht und instinktive Besorgnis hervorruft, weil sie Konzepte und Fähigkeiten einführen, die wir nur schwer erfassen können.

Die menschliche Psyche ist empfindlich. Wenn wir mit unerklärlichen Phänomenen konfrontiert werden, tendiert unsere angeborene Reaktion, geprägt durch die Evolution, oft zur Angst. Deshalb kann ein unbekanntes, winziges Wesen bedrohlicher sein als ein bekanntes, massives Tier. ChatGPT und seine Kollegen haben diese “über bloße Magie hinaus” -Barriere durchbrochen, und ihre beeindruckenden Fähigkeiten sorgen tatsächlich für Aufsehen.

KI macht uns nicht wegen ihrer Fähigkeiten Angst, sondern weil wir wenig Verständnis dafür haben, wie sie funktioniert und erreicht, was sie tut. Unser Mangel an Verständnis lässt uns alle zusätzlichen Dinge vorstellen, die KI “potenziell tun könnte”.

Außerdem: Wie man bessere ChatGPT-Anfragen für die besten generativen KI-Ergebnisse schreibt

In dem Artikel “Beruhigen Sie sich einfach über GPT-4” argumentiert Rodney Brooks, dass wir “Leistung nicht mit Kompetenz verwechseln sollten.” Brooks erklärt, dass wir nicht davon ausgehen sollten, dass ein KI-Modell auch Y tun kann, nur weil Menschen, die X tun können, normalerweise auch Y tun können. Unsere Angst rührt daher, dass wir grenzenlose KI-Fähigkeiten vorstellen, während wir tatsächlich die allgemeine Kompetenz von Systemen überschätzen, die in engen Anwendungen überraschend effektiv sind. Das Entmystifizieren der inneren Arbeitsweise von KI könnte die Angst davor erheblich reduzieren. Wenn wir KI von einer undurchsichtigen “Blackbox” zu einem transparenten “Glaswürfel” bewegen können, können wir neu kalibrieren, wie wir als Spezies die Technologie übernehmen. 

In seinem Vortrag “Beyond ChatGPT: Inside the Minds of Generative AI” erklärt Dr. Michael Wu, wie eine einfache Anfrage wie “Welche Farbe hat der Himmel?” tatsächlich funktioniert. Wu entmystifiziert generative Modelle und zeigt, dass ihre erstaunlichen Antworten mit “nur Mathematik” und Statistik erzeugt werden – nicht mit bewusster Intelligenz. Die Offenlegung der mathematischen Grundlagen hinter den KI-Antworten bestätigt für das Publikum, dass die Systeme keine Bewusstseinsfähigkeiten wie Menschen besitzen.

 Außerdem: Dieser AI-generierte Krypto-Rechnungsbetrug hätte mich fast erwischt, und ich bin ein Sicherheitsprofi Obwohl wir KI heute besser verstehen, ist der Weg immer noch lang. Im Juni sagte der CEO von AWS, Adam Selipsky, gegenüber CNBC, dass wir erst “drei Schritte gemacht haben und es ein 10.000-Meter-Rennen ist”. Mit dem Fortschreiten der KI werden Modelle über ihre aktuellen Fähigkeiten hinaus weiterentwickelt. Eine verbesserte Beherrschung von Daten, verbessertes Modellmanagement, eine größere Integration in das Ökosystem, Weiterbildung der Menschen und fortlaufende mathematische/statistische Innovation können die KI im Laufe der Zeit erheblich, wenn nicht sogar exponentiell verbessern. Während wir unsere Ängste vor vergangenen Technologien wie Elektrizität, Flugzeugen, Autos und dem Internet durch Regulierung beseitigt haben, können wir unsere Ängste vor KI wahrscheinlich nicht vollständig regulieren. Dies liegt daran, dass KI eine exponentielle Wirkung hat, während alles, was vor ihr kam, bestenfalls linear ist. Im Kern stammt unsere Angst daher, wie KI die Fähigkeit der Menschheit, als Spezies weiterzuleben, beeinflussen könnte. In einem Extremszenario ängstigen wir uns davor, dass KI zur Auslöschung der Menschheit führt. Das Ergebnis wird jedoch wahrscheinlich weniger binär sein als ein vollständiger Sieg oder eine Niederlage. Anstatt die Zukunft als einen Sieg oder Verlust der Existenz der Menschen darzustellen, müssen wir Wege finden, um dauerhaft und nachhaltig mit künstlicher Intelligenz zusammenzuleben.

Außerdem: Die 5 größten Risiken von generativer KI laut einem Experten

Mit dem Zusammenleben als Leitprinzip benötigen wir einen Mechanismus, um zu bewerten, wie gut ein KI-Modell mit diesem Ziel übereinstimmt. Wenn uns ein KI-System präsentiert wird, sollten wir sofort beurteilen können, ob es sich um “gute KI” handelt, die das Zusammenleben von Mensch und KI unterstützt und den menschlichen Bedürfnissen dient, oder ob es das Zusammenleben missachtet und nicht vertrauenswürdig ist. Wir benötigen eine Art leicht verständliches Bewertungssystem, das die Vertrauenswürdigkeit eines KI-Modells und seinen Nutzen für die Menschheit signalisiert.

Ohne einen solchen Mechanismus könnten wir immer misstrauischer gegenüber KI werden, was zu Misstrauen gegenüber jedem Unternehmen führen könnte, das sie einsetzt. Ein kohärenter Rahmen zur Beurteilung der Übereinstimmung von KI mit dem kooperativen Zusammenleben von Mensch und KI ist entscheidend, um das öffentliche Vertrauen in die Technologie aufzubauen und daraus Nutzen zu ziehen. Der AI Act der Europäischen Union hat erste Schritte zur Einführung eines KI-Bewertungssystems unternommen, indem er eine CE-Kennzeichnung und eine eindeutige Modellnummer für jedes KI-Modell vorschreibt, die auf Konformitätsbewertungsdaten zurückverfolgt werden können. Die Informationen, die dieser CE-Kennzeichnung zugrunde liegen, zeigen jedoch nur, wie ein Modell trainiert und erstellt wurde. Sie signalisieren nicht, ob das Modell vertrauenswürdig ist. Ein Modell kann den geltenden Vorschriften entsprechen, aber dennoch kein öffentliches Vertrauen gewinnen – was die Wahrnehmung von Verbrauchern, Unternehmen oder Ländern beeinflusst, die das Modell für Produkte und Dienstleistungen nutzen. Die bloße Erfüllung von Anforderungen bedeutet nicht, dass eine Übereinstimmung mit dem Zusammenleben besteht. Wir benötigen einen KI-Bewertungsrahmen, der über technische Metriken hinausgeht und explizit den Nutzen für den Menschen, die Transparenz und das Potenzial zum Zusammenleben bewertet.

 Außerdem: Ethik der KI: Vorteile und Risiken der künstlichen Intelligenz Unternehmen wie Google und OpenAI haben begonnen, “Modellkarten” zu verwenden, um Informationen über das Design, die Daten, das Training, die Leistung und die Einschränkungen ihrer Modelle zu sammeln und darzustellen. Zum Beispiel hat Googles MediaPipe BlazeFace KI-Modell eine Modellkarte, die die in einem Großteil von Google-Mitarbeitern verfassten Abschnitte, Daten und Formatierung vorschreibt. OpenAI hingegen hat eine “Systemkarte” für GTP-4, die die in einem Papier der Stanford University vorgeschriebenen Abschnitte, Daten und Formatierung hat.

Obwohl sowohl Modell-/Systemkarten als auch ein Schritt in die richtige Richtung sind, ist die Tatsache, dass sie jeweils einem unabhängigen Format und einer unabhängigen Informationsarchitektur folgen, nur eine der vielen Herausforderungen. Die Hauptherausforderung besteht darin, dass die meisten Verbraucher weder die Zeit, die Geduld noch die Fähigkeit haben, diese Modell-/Systemkarten zu lesen und zu verstehen. Daher sind die Karten zwar für die Öffentlichkeit zugänglich, aber für die Verbraucher weitgehend nutzlos. Zu lang zum Lesen und zu schwer zu verstehen.

Außerdem: Laut einer Studie von IBM müssen in den nächsten drei Jahren 40% der Arbeitnehmer aufgrund von KI umgeschult werden

Als Übung wollen wir einen einfachen und leicht verständlichen Score definieren, der die Ausrichtung eines KI-Modells auf die Erfüllung menschlicher Bedürfnisse und die Förderung des Zusammenlebens von Mensch und KI signalisiert. Um uns vorzustellen, wie ein Score die Vertrauenswürdigkeit eines Modells für das Zusammenleben anzeigen würde, stellen wir uns einen “Score für Mensch und KI-Zusammenleben” (auch HAICO genannt) vor. Wie könnte das funktionieren? Welche Daten zu jedem KI-Modell müssten gesammelt werden, wie oft und welche Formel würde verwendet werden, um den HAICO-Score zu berechnen? Das Framework müsste komplexe Informationen in einen leicht verständlichen Score umwandeln, der der Allgemeinheit die Ausrichtung eines Modells auf das Zusammenleben signalisiert.

Obwohl komplex, ist es nicht unmöglich, ein solches Bewertungsframework zum Leben zu erwecken. Stellen Sie sich vor, unser anschaulicher HAICO-Score besteht aus 50 Attributen eines KI-Modells, die in die fünf Schichten der Bedürfnispyramide nach Maslow gruppiert sind (Abbildung 1).

Abbildung 1: Ein Überblick über unseren anschaulichen HAICO-Score

Jedes der 50 Attribute würde etwas messen, das auf das Zusammenleben von Mensch und KI ausgerichtet ist. Die Daten für die Attribute würden aus der gesamten Modell-Pipeline gesammelt, angefangen bei der Transparenz der in den Chips verwendeten Silicon-Routinen über die Zustimmung und den Eigentumsanspruch der Trainingsdaten, das Modell-Design, die Inferenzleistung, das Nachtrainieren und die Neuaufteilung.

Beispiele für Modellattribute wären beispielsweise, ob das Modell robust, verfügbar, fair, die menschliche Autonomie respektierend, konsensorientiert, kontinuierlich lernend und einen Mehrwert für das menschliche Leben bietet. Jedes Attribut würde von 0-5 bewertet, und dann würde eine Formel sie zu einem Gesamthaico-Score von 0-100 für jedes Modell kombinieren (Abbildung 2).

Außerdem: Laut einem Ethiker für KI wird der heutige KI-Boom soziale Probleme verstärken, wenn wir nicht jetzt handeln

Das endgültige dreistufige HAICO-Bewertungssystem:

  • Nicht zusammenexistierend (0-59 Punkte): Nicht vertrauenswürdig, um menschlichen Bedürfnissen gerecht zu werden.
  • Zusammenexistierend (60-79 Punkte): Vertrauenswürdig, um menschlichen Bedürfnissen gerecht zu werden.
  • Sehr zusammenexistierend (80+ Punkte): Hoch vertrauenswürdig, um menschlichen Bedürfnissen gerecht zu werden.

Abbildung 2: Ein anschauliches KI-Modell mit Bewertungen von 0-5 für jedes der 50 Attribute, summiert auf jeder Ebene.

Dies veranschaulicht, wie mehrschichtige technische Details auf ein einfaches dreistufiges Modell der Zusammenexistenz und Vertrauenswürdigkeit abgebildet werden könnten. Das anschauliche HAICO-Framework bietet einen Ausgangspunkt. Um es zu einem effektiven öffentlich zugänglichen Framework zu entwickeln, wäre eine inklusive Entwicklung und kontinuierliche Verfeinerung erforderlich. Es zeigt jedoch die Machbarkeit eines nuancierten Mechanismus zur Bewertung des Zusammenlebens von Mensch und KI.

Unser anschaulicher HAICO-Bewertungsmechanismus ist noch lange nicht abgeschlossen; es gibt noch viel zu tun. Zum Beispiel könnte die Gewichtung jeder Ebene und der Bereich, der ein KI-Modell als nicht zusammenexistierend kategorisieren würde, für verschiedene Zielgruppen unterschiedlich sein. Die Formel zur Berechnung des HAICO-Scores könnte sich für KI-Modelle ändern, die für PG-13-Publikum eingestuft sind, im Vergleich zu Modellen, die für ein Rated-R-Publikum eingestuft sind. Diese Illustration zeigt, dass wir ein Bewertungssystem für KI-Modelle etablieren können, das eine einfache und zuverlässige Möglichkeit bietet festzustellen, ob den Modellen vertraut werden kann, ob sie sich auf das Zusammenleben von Mensch und KI ausrichten oder nicht (Abbildung 3).

Außerdem: Eine andere technologische Welle breitet sich schnell aus, noch vor KI

Wir müssen über die Debatte “Wer wird gewinnen” hinausgehen und einen Weg des Zusammenlebens einschlagen. KI ist gekommen, um zu bleiben, und wir auch. Die zukünftige Arbeit muss als gemeinschaftliche Zusammenarbeit erfolgen. Wenn dies nicht geschieht, wird das Fehlen eines Frameworks wie unseres anschaulichen HAICO-Scores zunehmend die Vertrauenswürdigkeit der Verbraucher, Unternehmen oder Länder in Frage stellen, die KI-Modelle zur Entwicklung von Produkten oder zur Erbringung von Dienstleistungen verwenden. Als Gesellschaft laufen wir Gefahr, das Vertrauen in KI und diejenigen, die sie nutzen, exponentiell zu verlieren und irgendwann eine Schwelle zu überschreiten, an der wir uns die Möglichkeit nehmen könnten, die Kraft dieser Technologie zur Verbesserung der menschlichen Bedingungen zu nutzen.

Abbildung 3: Die Verwendung einer Formel zur Berechnung der endgültigen HAICO-Score eines KI-Modells, das mit einem Score von 76 als COEXISTENT klassifiziert wird

Hier sind die guten Nachrichten: Neben den Teilnehmern im reifenden KI-Ökosystem – wie Hardware-Anbietern (NVIDIA, Intel, Apple, AMD, SambaNova), Clouds (AWS, Google, Azure, Oracle, Alibaba, Salesforce), Modellen, Märkten (Cohere, Hugging Face), Apps (OpenAI, Antrophic, Stability.ai) und Strategie- und Dienstleistungsunternehmen (Deloitte, Accenture, IBM, Cognizant und andere) – gibt es eine reifende Kohorte von “Modellmessungs”-Werkzeugen, die entstehen.

Zum Beispiel kann TensorFlow Data Validation helfen, die Eigenschaften des Datensatzes zu verstehen, Anomalien zu erkennen und die Unterschiede zwischen den zur Schulung eines Modells verwendeten Datensätzen zu vergleichen. CleverHans oder Adversarial Robustness Toolbox (ART) können verwendet werden, um adversarial Angriffe auf das Modell zu simulieren, wenn die Robustheit berechnet wird. Tools wie Googles Fairness Indicators, AI Fairness 360 von IBM oder Fairlearn können verwendet werden, um Verzerrungen in Machine-Learning-Modellen zu messen, zu visualisieren und zu mindern. Tools wie Googles TFX, Seldon oder Fiddler können verwendet werden, um die Leistung des Modells im Laufe der Zeit zu überwachen und Sie zu benachrichtigen, wenn es zu einer signifikanten Abweichung oder Verschlechterung kommt.

Außerdem: Massenadoption von generativen KI-Werkzeugen behindert einen sehr wichtigen Faktor, sagt das MIT

Die Teile fangen an, zusammenzupassen. Der Nordstern ist das Zusammenleben. Wir sind jetzt an dem Punkt, an dem wir gemeinsam einen Vertrauensscore für jedes KI-Modell festlegen können, der auf die Ausrichtung des Modells auf das Zusammenleben von Mensch und KI hinweist, ähnlich dem FICO-Score, den wir verwenden, um die Vertrauenswürdigkeit einer Person in finanzieller Hinsicht zu signalisieren. Der in diesem Artikel dargestellte illustrierende HAICO-Score ist ein Vorgeschmack, um die Diskussion zu beginnen. Es gibt keine bessere Zeit als jetzt.


Dieser Artikel wurde gemeinsam von Richie Etwaru, Mitbegründer von Mobeus, verfasst. Etwaru ist ein multidisziplinärer Manager, Serienunternehmer und globaler Vordenker. In Zusammenarbeit mit Vorständen und Aufsichtsräten hat er weltweite Transformationen im Finanzdienstleistungs- und Gesundheitswesen entworfen und geleitet. Etwaru hat die softwaregestützte räumliche Berechnung erfunden und die 31. Menschenrechtspionierarbeit geleistet. Er hat drei Bücher verfasst, drei TED-Talks gehalten und auf mehr als 100 Konferenzen gesprochen.