Meta hat fünf wichtige neue KI-Modelle und Forschungsergebnisse vorgestellt, darunter multimodale Systeme, die sowohl Text als auch Bilder verarbeiten können, Sprachmodelle der nächsten Generation, Musikgenerierung, KI-Spracherkennung und Bemühungen zur Verbesserung der Vielfalt in KI-Systemen.
Die Veröffentlichungen stammen von Metas Fundamental AI Research (FAIR)-Team, das sich seit über einem Jahrzehnt auf die Weiterentwicklung der KI durch offene Forschung und Zusammenarbeit konzentriert. Da sich die KI schnell weiterentwickelt, ist Meta der Ansicht, dass die Zusammenarbeit mit der globalen Gemeinschaft von entscheidender Bedeutung ist.
„Indem wir diese Forschung öffentlich teilen, hoffen wir, Iterationen anzuregen und letztendlich dazu beizutragen, die KI auf verantwortungsvolle Weise voranzutreiben“, sagte Meta.
Chameleon: Multimodale Text- und Bildverarbeitung
Zu den Veröffentlichungen gehören Schlüsselkomponenten von Metas „Chameleon“-Modellen unter einer Forschungslizenz. Chameleon ist eine Familie multimodaler Modelle, die sowohl Text als auch Bilder gleichzeitig verstehen und generieren können – im Gegensatz zu den meisten großen Sprachmodellen, die normalerweise unimodal sind.
„So wie Menschen Wörter und Bilder gleichzeitig verarbeiten können, kann Chameleon sowohl Bilder als auch Texte gleichzeitig verarbeiten und bereitstellen“, erklärte Meta. „Chameleon kann jede beliebige Kombination aus Text und Bildern als Eingabe verwenden und auch jede beliebige Kombination aus Text und Bildern ausgeben.“
Potenzielle Anwendungsfälle sind praktisch unbegrenzt, von der Generierung kreativer Bildunterschriften bis hin zur Anregung neuer Szenen mit Text und Bildern.
Multi-Token-Vorhersage für schnelleres Sprachmodelltraining
Meta hat auch vorab trainierte Modelle für die Codevervollständigung veröffentlicht, die „Multi-Token-Vorhersage“ unter einer nichtkommerziellen Forschungslizenz verwenden. Traditionelles Sprachmodelltraining ist ineffizient, da nur das nächste Wort vorhergesagt wird. Multi-Token-Modelle können mehrere zukünftige Wörter gleichzeitig vorhersagen, um schneller zu trainieren.
„Obwohl [der Ein-Wort-]Ansatz einfach und skalierbar ist, ist er auch ineffizient. Er erfordert mehrere Größenordnungen mehr Text als Kinder brauchen, um den gleichen Grad an Sprachkompetenz zu erlernen“, sagte Meta.
JASCO: Verbessertes Text-zu-Musik-Modell
Auf der kreativen Seite ermöglicht Metas JASCO die Generierung von Musikclips aus Text und bietet gleichzeitig mehr Kontrolle, indem es Eingaben wie Akkorde und Beats akzeptiert.
„Während bestehende Text-zu-Musik-Modelle wie MusicGen bei der Musikgenerierung hauptsächlich auf Texteingaben angewiesen sind, kann unser neues Modell, JASCO, verschiedene Eingaben wie Akkorde oder Beats akzeptieren, um die Kontrolle über die generierten Musikausgaben zu verbessern“, erklärte Meta.
AudioSeal: Erkennen von KI-generierter Sprache
Meta behauptet, AudioSeal sei das erste Audio-Wasserzeichensystem, das KI-generierte Sprache erkennen soll. Es kann die von KI generierten spezifischen Segmente in größeren Audioclips bis zu 485-mal schneller als frühere Methoden lokalisieren.
„AudioSeal wird unter einer kommerziellen Lizenz veröffentlicht. Es ist nur eine von mehreren verantwortungsvollen Forschungslinien, die wir geteilt haben, um den Missbrauch generativer KI-Tools zu verhindern“, sagte Meta.
Verbesserung der Text-zu-Bild-Vielfalt
Eine weitere wichtige Veröffentlichung zielt darauf ab, die Vielfalt von Text-zu-Bild-Modellen zu verbessern, die oft geografische und kulturelle Voreingenommenheiten aufweisen können.
Meta entwickelte automatische Indikatoren zur Bewertung potenzieller geografischer Unterschiede und führte eine große Studie mit über 65.000 Anmerkungen durch, um zu verstehen, wie Menschen weltweit geografische Darstellungen wahrnehmen.
„Dies ermöglicht mehr Vielfalt und eine bessere Darstellung in KI-generierten Bildern“, sagte Meta. Der entsprechende Code und die Anmerkungen wurden veröffentlicht, um die Vielfalt in generativen Modellen zu verbessern.
Durch die öffentliche Weitergabe dieser bahnbrechenden Modelle hofft Meta, die Zusammenarbeit zu fördern und Innovationen innerhalb der KI-Community voranzutreiben.