Meta’s Data2vec 2.0 Beim zweiten Mal geht es schneller
Meta's Data2vec 2.0 Beim zweiten Mal geht es schneller' can be condensed to 'Meta's Data2vec 2.0 geht es schneller'.

Meta’s Data2vec ist ein Beispiel für ein generalistisches neuronales Netzwerk, das denselben Code verwenden kann, um Datenbeispiele in verschiedenen Modalitäten zu verarbeiten – in diesem Fall Sprache, Text und Bilder – und Vorhersagen über diese Daten zu treffen.
Was tun Sie, wenn Sie Ihren Standpunkt in neuronalen Netzwerken bewiesen haben?
Schneller machen ist eine Antwort.
Am Dienstag stellte Meta, der Eigentümer von Facebook, Instagram und WhatsApp, Data2vec 2.0 vor, eine Überarbeitung eines neuralen Netzwerks, das zu Jahresbeginn eingeführt wurde und sich als Generalist verhält, indem es Aufgaben, die Text-, Bild- und Sprachdaten umfassen, mit dem gleichen grundlegenden Ansatz für alle drei durchführt.
In der zweiten Version haben die Wissenschaftler von Meta das Programm schneller gemacht und in einigen Fällen genauer auf Benchmark-Tests für maschinelles Lernen reagiert.
- Metas massives mehrsprachiges Übersetzungsopus stolpert immer noch ...
- Amazons Alexa-Wissenschaftler zeigen, dass größere KI nicht immer b...
- Das wahre Ziel der KI könnte nicht länger Intelligenz sein.
“Data2vec 2.0 zeigt, dass die Trainingsgeschwindigkeit des selbstüberwachten Lernens erheblich verbessert werden kann, ohne dass dies zu einer Verringerung der Genauigkeit der nachgelagerten Aufgaben führt”, schreiben die Autoren Alexei Baevski, Arun Babu, Wei-Ning Hsu und Michael Auli, vier der Autoren des ursprünglichen Data2vec-Papiers, in dieser neuen Arbeit, Effizientes selbstüberwachtes Lernen mit kontextualisierten Zielrepräsentationen für Vision, Sprache und Sprache, die auf arXiv veröffentlicht wurde.
Außerdem: Was ist ChatGPT und warum ist es wichtig?
Die besondere Leistung dieses zweiten Data2vec besteht darin, die Trainingszeit für Data2vec zu reduzieren. Das Training eines neuronalen Netzes wird in der Regel in Bezug auf “Epochen” gemessen, d.h. die Anzahl der Male, die dem neuronalen Netzwerk die Trainingsbeispiele gegeben werden. Es kann auch anhand der Wanduhrzeit gemessen werden, den tatsächlichen Stunden, Minuten und Tagen, die von Anfang bis Ende gezählt werden.
“Experimente zeigen, dass Data2vec 2.0 die gleiche Genauigkeit wie viele beliebte vorhandene Algorithmen bei 2-16x der Trainingsgeschwindigkeit erreichen kann”, schreiben sie.
Der Name Data2vec ist eine Anspielung auf ein Programm für “Einbetten” von Sprache, das 2013 bei Google entwickelt wurde und Word2vec genannt wird. Dieses Programm hat vorausgesagt, wie Wörter zusammen gruppiert sind, und Word2vec repräsentiert daher ein neuronales Netzwerk, das für einen bestimmten Datentyp entwickelt wurde, in diesem Fall Text.
Im Fall von Data2vec erweitern Baevski und Kollegen ein neuronales Netzwerk namens Transformer, das 2017 von Ashish Vaswani und Kollegen bei Google entwickelt wurde, und erweitern es, um es für mehrere Datentypen zu verwenden. Die gleiche Struktur des neuronalen Netzwerks kann alle drei – Bild, Sprache und Text – trainieren, ohne an die Besonderheiten eines dieser Datentypen angepasst zu werden, was es zu einem Generalistenprogramm macht.
Baevski und Kollegen erweitern den Transformer um das sogenannte “selbstüberwachte” Lernen. In einer selbstüberwachten Umgebung wird ein neuronales Netzwerk trainiert, indem es mehrere Stufen durchlaufen muss, deren Ergebnisse miteinander verglichen werden.
Zunächst komprimiert das Netzwerk eine Datenprobe, d.h. es erstellt eine Darstellung der Eingangsdaten. Dann hat eine zweite Version des Netzwerks einige dieser Eingangsdaten “maskiert”, d.h. nicht offengelegt. Es muss die Darstellung rekonstruieren, die das erste Netzwerk erstellt hat, was das zweite Netzwerk dazu zwingt, ein besseres Modell dafür aufzubauen, wie die Daten zusammenpassen, indem es im Wesentlichen die Lücken ausfüllt.
Außerdem: Das eigentliche Ziel von KI ist möglicherweise nicht mehr Intelligenz
Die beiden Netzwerke – das eine mit der komprimierten Darstellung der vollständigen, unmaskierten Eingangsdaten und das andere mit der unvollständigen Version, die es zu vervollständigen versucht – werden, ganz vernünftig, Lehrer und Schüler genannt. Das Schülernetzwerk versucht seine Vorstellung von den Daten zu entwickeln, indem es das wiederherstellt, was der Lehrer trotz der Maskierung bereits erreicht hat.
Vorgestellt
- Apple Mac Studio M2 Ultra-Test: Dies ist der neue Flaggschiff-Mac-Desktop
- 4 Dinge, die Claude AI kann, die ChatGPT nicht kann
- Ich teste Hunderte von Smartwatches, aber diese habe ich das ganze Jahr über am Handgelenk
- Die besten elektrischen Schraubendreher: Erledigen Sie DIY- und Reparaturaufgaben in der halben Zeit
Die Autoren haben diesmal zwei wesentliche Änderungen an Data2vec vorgenommen, um es schneller zu machen: die Verwendung von “Faltungen” und das “Amortisieren” der komprimierten Darstellungen des Lehrnetzwerks.
In Bezug auf den ersten Punkt verwendet das Schülernetzwerk, das die Darstellungen des Lehrers vorhersagen muss, nicht mehr den Teil des Transformers, der als Decoder bezeichnet wird, um dies zu tun.
Das ist der Standardansatz, um die komprimierten Darstellungen des Lehrnetzwerks gewissermaßen zu dekomprimieren. Stattdessen verwenden die Autoren sogenannte faltende neuronale Netzwerke, ein grundlegendes Werkzeug in neuronalen Netzen, um Datenmuster in komprimierter Form darzustellen. Dieses Werkzeug ist viel älter als der Transformer. Es ist ein gutes Beispiel dafür, wie ältere Technologie in der Programmierung weiterhin relevant sein kann.
“Anstelle eines auf dem Transformer basierenden Decoders verwenden wir einen kleineren faltenden Decoder, der einfacher und schneller zu trainieren ist”, schreiben sie.
Bei der zweiten Änderung erstellt das neue Data2vec anstelle einer wiederholten Erstellung einer komprimierten Darstellung im Lehrnetzwerk die Darstellung nur einmal. Anschließend wird sie als Ziel, das zu erraten ist, für jeden der maskierten Datenpunkte wiederverwendet.
Wie es die Autoren ausdrücken: “Um die Kosten der Lehrmodellberechnung zu amortisieren, verwenden wir die Lehrdarstellung für mehrere maskierte Versionen der Trainingseinheit erneut.
“Konkret betrachten wir M verschiedene maskierte Versionen der Trainingseinheit und berechnen den Verlust in Bezug auf dieselbe Zielrepräsentation.”
Die Architektur von Data2vec 2.0. Meta hat dieses Mal den zweiten Teil des Programms, der zuvor auf einem Transformer-basierten Decoder basierte, durch einen Decoder ersetzt, der auf faltenden neuronalen Netzen basiert, einer älteren Technologie. Außerdem wurde die komprimierte Darstellung des “Lehrer” Netzwerks als ein einzelnes Ziel für mehrere maskierte Instanzen der Daten des “Schüler” Netzwerks wiederverwendet.
In der Ergebnissektion des Papiers berichten Baevski und sein Team, wie sie sowohl die Trainingszeit verkürzt als auch die Genauigkeit in den drei Bereichen der Bilderkennung, Spracherkennung und natürlichen Sprachverarbeitung verbessert haben.
Bei der Bildverarbeitung verwendeten die Autoren Data2vec als Grundlage zur Feinabstimmung von “ViT”, dem “Vision Transformer”, einem neuronalen Netzwerk, das speziell für Aufgaben in der visuellen Wahrnehmung entwickelt wurde und im letzten Jahr von Alexey Dosovitskiy und seinen Kollegen bei Google vorgestellt wurde (PDF). Das Data2vec-Programm ist eine vortrainierte Grundlage, auf der ViT im Sinne der Literatur feinabgestimmt wird.
Verglichen mit den Ergebnissen von Januar hat das auf Data2vec basierende ViT erneut andere neuronale Netze, die als Grundlage für ViT verwendet wurden, in Bezug auf die Genauigkeit bei ImageNet, dem klassischen Test zur Zuordnung von Labels zu Bildern, übertroffen. Es hat auch die vorherige Version von Data2vec übertroffen.
Neben der Genauigkeit hat das neue Data2vec auch wesentlich weniger Trainingsepochen benötigt. Data2vec benötigte zuvor 800 Epochen; dieses Mal wurde dies auf 150 Epochen reduziert. Im Vergleich zu einem konkurrierenden selbstüberwachten Netzwerk, Masked Auto-Encoders (MAE), einer weiteren Erfindung von Meta (PDF), wurde das Training von 1600 Epochen auf 100 Epochen reduziert, während die Genauigkeit des neuen Data2vec MAE übertraf. Das schnellere Trainingsregime führte zu einer erheblichen Reduzierung der absoluten Trainingszeit, nur 66 Stunden für Data2vec 2.0 im Vergleich zu 113,6 Stunden für MAE.
Außerdem: Künstliche Intelligenz: 5 innovative Anwendungen, die alles verändern könnten
Bei der Spracherkennung geht es darum, die fehlenden Teile eines Audioausschnitts einer gesprochenen Phrase zu ergänzen. Das neue Data2vec trat gegen mehrere konkurrierende neuronale Netze für Spracherkennung an, darunter das Original Data2vec sowie Programme namens Wav2vec, HuBERT und WavLM. In keinem Fall hat Data2vec 2.0 diese Netzwerke geschlagen, aber es “erreicht eine höhere Genauigkeit als andere Modelle bei schnellerem Training”. Zum Beispiel erreicht Data2vec 2.0 nach 43 Stunden Training eine Genauigkeit, für die das Original Data2vec 57 Stunden benötigt.
In der dritten Arena, der natürlichen Sprachverarbeitung, wurde Data2vec 2.0 anhand einer Vielzahl von Herausforderungen getestet, die den General Language Understanding Evaluation Framework (GLUE) umfassen, der 2019 vom Courant Institute of Mathematical Sciences der NYU entwickelt wurde.
In einem Test muss das Netzwerk vorhersagen, ob ein Satz aus einem anderen folgt – logische Folgerung – während eine andere repräsentative Aufgabe das Netzwerk vor die Herausforderung stellt, eine Phrase grammatikalisch korrekt zu kennzeichnen oder nicht.
Data2vec 2.0 hat sich dabei gegenüber dem Original Data2vec und zwei auf dem Transformer basierenden Programmen, Googles BERT und einer überarbeiteten Version namens RoBERTa, die 2019 vom Paul Allen School of Computer Science an der University of Washington und Meta eingeführt wurde, hervorragend bei den GLUE-Ergebnissen geschlagen und ist schneller zu trainieren.
Der durchschnittliche Gesamtgenauigkeitswert über alle GLUE-Aufgaben für diese neue Version beträgt 82,6, nur knapp unter dem ursprünglichen Data2vec-Wert von 82,7, aber höher als BERT mit 81,2 und höher als RoBERTa mit 82,5. Allerdings benötigt Data2vec 2.0 nur 28,2 Stunden, um dieses Niveau zu erreichen, weniger als die Hälfte der 69 Stunden, die für das ursprüngliche Data2vec benötigt wurden, und viel weniger als die 50,5 Stunden, die für RoBERTa benötigt werden.
Zusätzlich: Diejenigen, die künstliche Intelligenz entwickeln, sind diejenigen, die KI am meisten benötigen
Baevski und sein Team schreiben, dass sie Data2vec in Zukunft auf andere Formen von Daten außer Sprache, Bild und Text erweitern werden und damit die Aussicht besteht, dass es noch mehr ein Generalist sein kann.
Eine Einschränkung scheint jedoch bestehen zu bleiben. Wie beim ursprünglichen Data2vec werden auch in der Version 2.0 die einzelnen Datentypen unterschiedlich behandelt, wenn sie zuerst in das Netzwerk während des Trainings eingegeben werden. Das bedeutet, dass Data2vec noch keinen vollständig generischen Weg gefunden hat, um mit den Datentypen umzugehen.
Bild, Sprache und Text werden alle durch Vorverarbeitung der Daten vorbereitet. Auf diese Weise stützt sich der multimodale Aspekt des Netzwerks immer noch auf Hinweise über die Daten, was das Team als “kleine modalitätsspezifische Eingabecodierer” bezeichnet.
Darüber hinaus werden die komprimierten Codierungen des Lehrernetzwerks separat für die drei Datentypen erstellt. Es besteht noch keine Möglichkeit, eine Art “Super-Codierung” zu erstellen, die alle Datentypen auf einmal in einer Darstellung kombiniert.
Und so bleibt, wie bei Data2vec 1.0, ein neuronales Netzwerk, das möglicherweise wirklich ein einheitliches Netzwerk für alle Beherrschung wäre, eine Technologie der Zukunft.
Wie beim ursprünglichen Data2vec hat Meta den Code auf GitHub veröffentlicht.