SLMs vs. LLMs: Wie Microsoft die KI neu definiert

Diese Woche hat Microsoft Research die Veröffentlichung von Orca 2 bekannt gegeben, einem quelloffenen kleinen Sprachmodell (engl. Small Language Model, SLM), das die Denkfähigkeiten großer Sprachmodelle (engl. Large Language Models, LLMs) erreichen soll. Das Modell ist in zwei Größen erhältlich: 7 Milliarden oder 13 Milliarden Parameter.

Laut Microsoft übertrifft Orca 2 bestehende Modelle ähnlicher Größe und bietet ein vergleichbares oder besseres Leistungsniveau als 5 bis 10 Mal größere Modelle, insbesondere bei Aufgaben, die logisches Denken erfordern.

Das Release zeigt vor allem, dass die Fähigkeiten von SLMs wachsen. Mit weiterer Entwicklung könnten sie in bestimmten Szenarien eine kosteneffizientere Alternative zu großen Sprachmodellen wie GPT-4 und PaLm 2 darstellen.

Orca 2 wird vorgestellt

Microsoft entwickelte Orca durch Feinabstimmung der Llama 2-Basismodelle von Meta mit hochwertigen synthetischen Daten.

Das SLM wurde mit progressivem Lernen unter Verwendung von Daten aus einem neuen Datensatz mit 817K Trainingsinstanzen, dem FLAN-Datensatz und anderen Eingaben von Orca 1 trainiert.

Durch den Einsatz synthetischer Trainingsdaten konnten auf diese Weise die allgemeinen Argumentationsfähigkeiten des SLM verbessert werden.

„Unsere Forschung am Orca 2-Modell hat wichtige Erkenntnisse zur Erweiterung der Schlussfolgerungsfähigkeiten kleinerer Sprachmodelle erbracht. Durch strategisches Training dieser Modelle mit maßgeschneiderten synthetischen Daten haben wir Leistungsniveaus erreicht, die mit denen größerer Modelle konkurrieren oder diese sogar übertreffen, insbesondere bei Zero-Shot-Reasoning-Aufgaben“, heißt es in dem angekündigten Blogbeitrag.

Neudefinition von SLMs auf dem Markt für generative KI

Während die Popularität der generativen KI seit der Einführung von ChatGPT im November letzten Jahres deutlich zugenommen hat, sind die hohen Kosten für das Training eines LLM nach wie vor ein großes Problem.

Analysten schätzen, dass das Trainieren eines Sprachmodells wie GPT-3 über 4 $ Millionen kosten könnte.

Diese Ausgaben steigen weiter, da LLMs immer mehr Parameter erhalten, wobei GPT-3 Berichten zufolge 175 Milliarden Parameter hat. Nach Schätzungen soll GPT-4 sogar über eine Billion Parameter verfügen.

Infolgedessen müssen Unternehmen, die LLMs mit ausgefeilten Argumentationsfähigkeiten trainieren wollen, in mehr Computerressourcen investieren, um Schritt zu halten.

SLMs sind eine kostengünstige Alternative zu LLMs: Sie benötigen für ihren Betrieb weniger Rechenleistung.

Traditionell geht dies jedoch auf Kosten begrenzter Schlussfolgerungsfähigkeiten.

Im Forschungspapier Orca 2 von Microsoft wird darauf hingewiesen, dass das Unternehmen versucht, dieses Problem direkt anzugehen.

Dazu wird untersucht, wie verbesserte Trainingssignale die Denkfähigkeiten kleinerer LM optimieren können.

Die meisten SLMs wurden mit Techniken wie dem Nachahmungslernen entwickelt, um zu versuchen, die Ergebnisse von LLMs zu replizieren.

Dies hat zu einem begrenzten Erfolg geführt, da sie nicht über die allgemeinen Denk- und Verständnisfähigkeiten ihrer leistungsfähigeren Gegenstücke verfügten. Außerdem sind sie auf das Wissen beschränkt, das sie beim Vortraining erworben haben.

Microsoft hat auf diese Einschränkungen reagiert, indem es Orca 2 mehrere Argumentationstechniken beigebracht hat, wie z. B. Schritt-für-Schritt, Erinnern und dann Generieren, Erinnern-Begründen-Generieren und direkte Antwort, während es ihm die Freiheit gibt, die effektivste und effizienteste Lösung für jedes Problem zu bestimmen.

Wie schneidet Orca 2 im Vergleich ab?

Basierend auf ersten Tests von Microsoft hat Orca 2 einige vielversprechende Ergebnisse erzielt und andere Modelle wie Llama 2 Chat 13B, Llama 2 Chat 70B, WizardLM 13B und WizardLM 70B bei Benchmarks wie AGI, BBH, MMLU, ARC-E, ARC-C, RACE und GSM8K übertroffen oder eingeholt.

Mit diesen Benchmarks können verschiedene Fähigkeiten von Sprachmodellen bewertet werden, darunter Multitasking-Sprachverständnis, Beantwortung von Fragen, Leseverständnis und arithmetisches Denken.

Das vielleicht vielversprechendste Ergebnis der Studie war, dass Orca 2 13B im Durchschnitt alle LLMs außer Wizard 70B bei diesen Benchmarks übertraf.

„Der Erfolg von Orca 2 liegt in der Anwendung verschiedener Schlußfolgerungstechniken und der Identifizierung optimaler Lösungen für verschiedene Aufgaben“, heißt es in der Ankündigung im Blog.

Und weiter: „Das Potential des SLM für künftige Weiterentwicklungen ist offensichtlich, insbesondere in der verbesserten Spezialisierung der Schlußfolgerung, der Steuerung und der Sicherheit kleinerer Modelle.“

Fazit

Die Einführung von Orca 2 durch Microsoft und die begleitende Forschung haben gezeigt, dass SLMs mit dem richtigen Trainingsansatz eine wettbewerbsfähige Alternative zu größeren Modellen sein können.

Zwar sind noch weitere Forschungsarbeiten zur Verbesserung ihrer Fähigkeiten erforderlich, doch ist dies eindeutig ein großer Schritt nach vorn.

SLMs vs. LLMs: Wie Microsoft die KI neu definiert

Orca 2 wird vorgestellt

Neudefinition von SLMs auf dem Markt für generative KI

Wie schneidet Orca 2 im Vergleich ab?

Fazit

Tim Keary

Beliebtester Begriff

Skalierbarkeit

Wal (Krypto-Handel)

Volumen Trading

Tech Dictionary

Skalierbarkeit

Der Bitcoin-Preis knackt die 40.000-$-Marke: Welche Kryptowährung jetzt kaufen?

Wie KI-generierter Code eine neue Revolution bei Cloud-Anwendungen auslöst

30+ Statistiken zu ChatGPT: Trends, Anwendung und Prognosen

Bitcoin-Hausse 2024: Bereit für die Rallye?

Vermenschlichung der KI: Die Entwicklung des Anthropomorphismus im Technologiebereich

Top 10 Solana-Besitzer: Wer hält die meisten SOL? (2023)

Beliebte Kategorien
Alle anzeigen

Orca 2 wird vorgestellt

Neudefinition von SLMs auf dem Markt für generative KI

Wie schneidet Orca 2 im Vergleich ab?

Fazit

Verwandte Begriffe

Beliebtester Begriff <img width="25" height="24" src="https://www.techopedia.com/de/wp-content/themes/twentytwenty-child-multisites/images/zap.svg" alt="zap" class="zapimg">

In Verbindung stehende Artikel

Tech Dictionary

Beliebte News<img width="25" height="24" src="https://www.techopedia.com/de/wp-content/themes/twentytwenty-child-multisites/images/zap.svg">

Aktuelle News Mehr

Der Bitcoin-Preis knackt die 40.000-$-Marke: Welche Kryptowährung jetzt kaufen?

Wie KI-generierter Code eine neue Revolution bei Cloud-Anwendungen auslöst

30+ Statistiken zu ChatGPT: Trends, Anwendung und Prognosen

Bitcoin-Hausse 2024: Bereit für die Rallye?

Vermenschlichung der KI: Die Entwicklung des Anthropomorphismus im Technologiebereich

Top 10 Solana-Besitzer: Wer hält die meisten SOL? (2023)

Beliebte KategorienAlle anzeigen

Beliebtester Begriff

Beliebte News

Aktuelle News
Mehr

Beliebte Kategorien
Alle anzeigen