Meta startet AudioCraft, einen Open-Source KI-Musikgenerator

Meta startet AudioCraft, einen Open-Source KI-Musikgenerator.

Meta’s neuer KI-Musikgenerator ist das neueste in einer Reihe von KI-Produkten, die kürzlich von dem Technologieunternehmen veröffentlicht wurden.

Am Mittwoch kündigte Meta die Veröffentlichung von AudioCraft an, einer Open-Source-generativen KI, die Audio und Musik aus Textanweisungen erzeugt. AudioCraft hat drei Modelle: MusicGen für die Komposition von Musik, AudioGen für die Erzeugung von Soundeffekten und EnCodec, das KI zur Unterstützung bei der Audiokomprimierung verwendet, die das MP3-Format übertrifft.

Falls Sie sich über Urheberrechtsprobleme wundern, wurde MusicGen auf Meta-eigener und lizenzierter Musik trainiert.

Meta setzt sich aggressiv dafür ein, KI-gesteuerte Tools für die Massen zugänglich zu machen und tritt dabei in Konkurrenz zu OpenAI, Google und Microsoft. Im Juli veröffentlichte es sein Open-Source-Tool Llama 2, die neueste Version seines LLM (Large Language Model).

Im Gegensatz zu OpenAI’s GPT-4 und Google’s PaLM 2 ist Llama 2 Open-Source, was Meta bei Entwicklern und Ethikern, die an Transparenz bei der KI-Entwicklung glauben, Punkte einbringt. Es gibt auch Gerüchte, dass Meta KI-“Personas”, auch Chatbots genannt, für Instagram, Facebook und WhatsApp einführen wird.

AudioCraft wurde mit Musikern und Sounddesignern im Hinterkopf entwickelt, um “Inspiration zu liefern, Menschen dabei zu helfen, schnell Ideen zu entwickeln und ihre Kompositionen auf neue Weise zu bearbeiten”, so die Ankündigung.

Beispiele im Blogbeitrag umfassen Audio-Samples aus der Anweisung “Pfeifen bei Wind” und “Pop-Dance-Track mit eingängigen Melodien, tropischen Percussions und lebhaften Rhythmen, perfekt für den Strand”, die… tatsächlich wie diese Beschreibungen klingen.

Viele der jüngsten Entwicklungen im Bereich der generativen KI konzentrieren sich auf die Erzeugung von Texten und Bildern, was ein einfacherer Prozess ist.

Text-zu-Audio ist ein komplizierteres Unterfangen, das Meta anscheinend gemeistert hat. AudioCraft lernt Audio-Token aus Rohsignalen unter Verwendung seines proprietären EnCodec Neural Audio Codec und erstellt so einen neuen “Wortschatz” für das Modell.

Dann trainiert es Sprachmodelle über diesen Audio-Wortschatz, so dass das Modell die Verbindungen zwischen Audio und Text versteht. Da auch AudioCraft Open Source ist, ist der Code auf GitHub verfügbar, damit Benutzer ihn erkunden und selbst testen können.