Das Rennen um die Entwicklung des nächsten LLM-Killers

Die Erfolgsstory von ChatGPT hat im Bereich der großen Sprachmodelle (engl. Large Language Models, LLMs) eine wahre Goldgrube geschaffen.

LLMs gibt es schon seit einiger Zeit, aber erst vor kurzem haben sie einen Punkt erreicht, an dem ihre Leistung durchaus wie die eines Menschen aussieht.

Die Folge ist große Begeisterung für eine Vielzahl von Anwendungen wie Chatbots, die Erstellung von Inhalten und persönliche virtuelle Assistenten, aber auch die weit verbreitete Sorge, dass in einer zunehmend digitalisierten Welt die Grenze zwischen menschlichem Engagement und dem von Robotern verwischt wird.

Nächste Welle von LLMs

Doch obwohl ChatGPT für Aufsehen sorgte und nach jüngsten Schätzungen rund 180 Millionen Nutzer hat, ist es bei weitem nicht das einzige LLM.

In Technologiekreisen führt Erfolg in der Regel zu Wettbewerb, und viele Großkonzerne sind sehr daran interessiert, KI zu einem alltäglichen und natürlichen Phänomen zu machen.

Hier sind also einige der vielversprechendsten Lösungen auf dem LLM-Markt.

BERT

BERT, auch bekannt als Bidirectional Encoder Representations from Transformer, ist der Sieger von Alphabet im Wettbewerb um die LLMs.

BERT soll sehr geschickt bei der Erstellung von „Einbettungen“ sein – den mathematischen Darstellungen, mit denen Modelle die Bedeutungen von Wörtern und ihre Beziehungen zueinander erfassen und interpretieren können.

Das heißt, es kann Text- oder Sprachdaten genau wiedergeben und ein tiefes Verständnis für die semantische Bedeutung selbst längerer Mitteilungen vermitteln.

Aus diesem Grund gilt BERT als ein führendes Unterstützungsmodell für die Verarbeitung natürlicher Sprache (NLP) und andere Formen des maschinellen Lernens (ML).

Für beide Techniken bedarf es KI zur Erfassung und zum Verständnis riesiger Datenbestände, insbesondere der unstrukturierten Daten in E-Mails, Chats und sonstigen Formen der menschlichen Interaktion.

Außerdem kann BERT Einbettungen aus Text und Zahlen z. B. in Form von Namen und Altersangaben erzeugen und Einbettungen mit verschiedenen anderen Merkmalen verknüpfen, um mehrdimensionale Dateneingaben zu erstellen, was den Trainingsprozess rationalisiert und die Flexibilität der Modelloperationen erhöht.

Tongyi Qianwen

In China hat die Alibaba Group unterdessen Tongyi Qianwen („Seeking Truth by Asking a Thousand Questions“) veröffentlicht, das einige Experten als die Antwort des Unternehmens auf ChatGPT bezeichnen.

Tongyi Qianwen basiert auf dem früheren Tongyi-Framework für vortrainierte KI und wird in eine Vielzahl von Alibaba-Geschäftsanwendungen integriert, darunter das Arbeitsplatz-Kommunikationstool DingTalk und der persönliche Assistent TGenie, sowie in diverse Consumer-Apps wie E-Commerce und Entertainment.

Eine Beta-API steht auch Entwicklern zur Verfügung, die maßgeschneiderte Apps für eine breite Palette von privaten und beruflichen Anwendungsfällen erstellen können.

Einer der faszinierendsten Aspekte von Tongyi Qianwen ist sein Potenzial für multimodale Funktionen, die eine fortschrittliche Bildinterpretation, Text-zu-Bild- und sogar Text-zu-Video-Konvertierung ermöglichen sollen.

Nach Angaben von Unternehmenssprechern von Alibaba soll dies zusammen mit der Hyperscale-Cloud-Infrastruktur des Konzerns eine neue Ära der KI-Entwicklung einläuten.

NeMo-LLM

Was die schiere Leistung angeht, scheint die NeMo-Plattform von Nvidia jedoch der Platzhirsch zu sein.

Mit der Fähigkeit, bis zu 500 Milliarden anpassbare Parameter während des Trainingsprozesses zu verwalten, verfügt sie über eine enorme Kapazität zur Erstellung präziser Vorhersagen oder zur korrekten Produktion der gewünschten Ausgabe mit minimalem Prompting.

Dadurch sollten die Benutzer ihre Modelle so steuern können, dass sie Aufgaben von der Textzusammenfassung und Paraphrasierung bis hin zum vollständigen Erzählen von Geschichten mit minimalen Kenntnissen des Modelltrainings oder der Computertechnologie im Allgemeinen erfüllen.

Mit der Erhöhung der Parameterkapazität in den Multi-Billionen-Bereich will Nvidia das NeMO-Framework bereits auf die nächste Stufe heben.

Das System kann schnell und effizient nach optimalen Trainings- und Inferenzparametern über mehrere verteilte GTP-Cluster hinweg suchen, indem es Tools wie automatisierte verteilte Datenverarbeitung und Hyperparameter-Tools einsetzt.

Außerdem wird es eine starke Trainingseffizienz und eine breite Anpassung durch Techniken wie Tensor-, Daten-, Pipeline- und Sequenzparallelität sowie selektive aktive Neuberechnungen zur Verringerung des Speicherverbrauchs unterstützen.

LLaMA

Bei der Entwicklung von LLM-Modellen ist größer jedoch nicht immer besser, vor allem, wenn man nicht über die Ressourcen für Hyperscale-Architekturen verfügt. Meta hat eine kleinere Lösung namens LLaMA (Large Language Model Meta AI) eingeführt, die maximal 65 Milliarden Parameter umfasst.

Damit soll eine kostengünstige Entwicklungsumgebung mit geringem Umfang geschaffen werden, in der mehr Forscher ihre Ideen vor der Einführung in Produktionsumgebungen testen können.

Diese kleineren trainierten Modelle stützen sich stärker auf Tokens – im Wesentlichen Wortteile. Diese sind leichter zu trainieren und feinabzustimmen als umfangreichere Lösungen.

So können Entwickler funktionstüchtige Modelle für bestimmte Anwendungsfälle erstellen und dann den Code zwischen Projekten austauschen, um ihre Widerstandsfähigkeit gegenüber Verzerrungen, Toxizität, Halluzinationen und anderen unerwünschten Faktoren bei LLMs zu verbessern.

Derzeit stellt Meta lediglich nicht-kommerzielle Lizenzen für LLaMA aus, um der Forschergemeinschaft die Möglichkeit zu geben, Richtlinien für eine verantwortungsvolle Nutzung in allen Bereichen zu entwickeln.

Fazit

Große Sprachmodelle werden in der Welt der künstlichen Intelligenz wahrscheinlich vorerst die meiste Aufmerksamkeit auf sich ziehen. Schließlich weisen sie die menschenähnlichsten Eigenschaften auf, was sie am intelligentesten erscheinen lässt.

Nun geht es darum, Fähigkeiten zu entwickeln, die über das reine Schreiben und Sprechen hinausgehen, um sie für unser privates und berufliches Leben wirklich praktisch zu machen.

Das ist eine große Aufgabe, wenn man bedenkt, wie viele kognitive Schritte allein für die Entscheidung, was wir anziehen oder was wir frühstücken wollen, erforderlich sind.

Aller Wahrscheinlichkeit nach werden wir nur durch die Integration von LLMs mit anderen Formen der KI, wie maschinellem Lernen, neuronalen Netzwerken und Deep Learning, einen Punkt erreichen, an dem die Technologie wahrhaft transformativ wird.