Small Language Model (SLM)

Was ist ein Small Language Model (SLM)?

Small Language Model (SLM), zu Deutsch „kleines Sprachmodell“, ist ein leichtgewichtiges Modell der generativen KI.

Die Bezeichnung „klein“ bezieht sich in diesem Zusammenhang auf die Größe des neuronalen Netzes des Modells, die Anzahl der Parameter, die das Modell zur Entscheidungsfindung verwendet, sowie die Datenmenge, auf der das Modell trainiert wird.

SLMs benötigen weniger Rechenleistung und Speicherplatz als große Sprachmodelle (engl. Large Language Models, LLMs). Daher eignen sie sich sowohl für lokale als auch für geräteinterne Implementierungen.

Small Language Model (SLM) einfach erklärt

Große Sprachmodelle wie ChatGPT und Google Bard sind ressourcenintensiv. Sie verfügen über komplexe Deep-Learning-Architekturen, benötigen umfangreiche Trainingsdaten, erfordern erhebliche Mengen an Speicherplatz und verbrauchen unglaublich viel Strom.

Bis vor kurzem stellten diese Ressourcenanforderungen eine Eintrittsbarriere dar und verschafften Big Tech einen großen Vorteil auf dem schnell wachsenden Markt für künstliche Intelligenz (KI).

Mit der Entwicklung von SLMs werden diese Hürden allmählich abgebaut, so dass Start-ups und andere kleine Unternehmen ihre eigenen Sprachmodelle erstellen und einführen können.

Vorteile und Grenzen

SLMs können mit relativ kleinen Datensätzen trainiert werden. Ihre einfacheren Architekturen sind besser erklärbar, und ihr geringer Platzbedarf ermöglicht den Einsatz auf mobilen Geräten.

Einer der Hauptvorteile von kleinen Sprachmodellen ist die Möglichkeit, SLMs so zu konzipieren, dass sie Daten lokal verarbeiten.

Diese Option ist besonders wichtig für Endgeräte des Internet der Dinge (IoT) und Unternehmen, die strenge Datenschutz– und Sicherheitsrichtlinien einhalten müssen.

Die Verwendung kleiner Sprachmodelle ist jedoch mit einem Nachteil verbunden. Da SLMs auf kleineren Datensätzen trainiert werden, ist ihre Wissensbasis begrenzter als die von LLMs.

Zudem weisen sie tendenziell ein engeres Verständnis von Sprache und Kontext auf, was im Vergleich zu größeren Modellen zu weniger genauen und/oder weniger detaillierten Antworten führen kann.

Aspekt	Kleine Sprachmodelle	Große Sprachmodelle
Größe	Können weniger als 15 Millionen Parameter haben.	Können Hunderte von Milliarden von Parametern haben.
Computertechnische Anforderungen	Können Prozessoren für mobile Geräte verwenden.	Können Hunderte von GPU-Prozessoren erfordern.
Leistung	Können einfache Aufgaben bewältigen.	Können komplexe, vielfältige Aufgaben bewältigen.
Einsatz	Leichtere Bereitstellung in Umgebungen mit eingeschränkten Ressourcen.	Für die Bereitstellung ist oft eine umfangreiche Infrastruktur erforderlich.
Training	Können eine Woche lang trainiert werden.	Training kann Monate dauern.

Kleine Sprachmodelle vs. spezialisierte Sprachmodelle

Das Akronym SLM kann verwirrend sein, da es sowohl für „kleines Sprachmodell“ als auch für „spezialisiertes Sprachmodell“ stehen kann.

Viele kleinere Sprachmodelle können außerdem als spezialisierte Sprachmodelle bezeichnet werden, was die Verwirrung noch verstärkt.

Spezialisierte Sprachmodelle werden eigens für bestimmte Bereiche oder Aufgaben trainiert oder fein abgestimmt. Diese Art von Modellen ist so konzipiert, dass sie in einem definierten Bereich – von juristischem Fachjargon bis hin zu medizinischen Diagnosen – gut funktionieren.

Damit es nicht zu Missverständnissen kommt, sollte man beachten, dass kleine Modelle durch Folgendes gekennzeichnet sind:

die Anzahl der verwendeten Parameter;
die Größe ihres Footprints;
die Menge der zum Trainieren benötigten Daten.

Spezialisierte Modelle zeichnen sich durch ihr Thema oder ihr Fachgebiet aus.

Nicht alle kleinen Sprachmodelle sind spezialisiert – und viele spezialisierte Modelle sind recht groß.

Beispiele

DistilBERT: DistilBERT ist eine kleinere, schnellere und leichtere Version von BERT, dem bahnbrechenden Modell für Verarbeitung natürlicher Sprache (NLP).

Orca 2: Microsoft entwickelte Orca 2 durch Feinabstimmung des Llama 2-Modells von Meta mit hochwertigen synthetischen Daten. Mit diesem Ansatz konnte Microsoft ein Leistungsniveau erreichen, das mit dem größerer Modelle konkurriert oder dieses sogar übertrifft, insbesondere bei Zero-Shot-Reasoning-Aufgaben.

Phi 2: Phi 2 von Microsoft ist ein Transformer-basiertes SLM, das sowohl bei Cloud- als auch bei Edge-Implementierungen effizient und vielseitig sein soll. Laut Microsoft zeigt Phi 2 modernste Leistung für mathematisches Denken, Common Sense, Sprachverständnis und logisches Schlussfolgern.

BERT Mini, Small, Medium und Tiny: Dabei handelt es sich um kleinere Versionen des BERT-Modells von Google, die je nach Ressourcenbeschränkung herunterskaliert werden. Sie bieten eine Reihe von Größen, vom Mini mit nur 4,4 Millionen Parametern bis zum Medium mit 41 Millionen Parametern.

GPT-Neo und GPT-J: Diese SLM-Modelle sind vereinfachte Versionen der GPT-Modelle von OpenAI.

MobileBERT: Wie der Name schon sagt, ist MobileBERT für mobile Geräte konzipiert.

t5-small: Das Modell des Text-zu-Text-Transformers (T5) von Google gibt es in verschiedenen Größen. t5-small wurde entwickelt, um ein ausgewogenes Verhältnis zwischen Leistung und Ressourcenverbrauch zu gewährleisten.

Beliebtester Begriff

Machine Learning

Generative Adversarial Network (GAN)

Was ist ein Generative Adversarial Network? Ein Generative Adversarial Network (GAN), dt. etwa „erzeugende gegnerische Netzwerke“, ist ein System des...

Vollständige Erklärung

Margaret RouseRedaktion

Machine Learning

Edutainment

Was ist Edutainment? Edutainment, das sich aus den Wörtern „Education" (Bildung) und „Entertainment" (Unterhaltung) stammt, ist ein didaktischer Ansatz, der...

Vollständige Erklärung