Wie gaat de volgende top-LLM ontwikkelen?

Betrouwbaarheid
In het kort

Het succes van ChatGPT heeft geleid tot een toename van het aantal taalmodellen. Hier zijn vier grote LLM's om in de gaten te houden.

Het succes van ChatGPT heeft geleid tot een goudkoorts op het gebied van large language models (LLM’s), een vorm van kunstmatige intelligentie (AI) die statistische modellen en snelle analyses gebruikt om natuurlijk klinkende tekst en spraak te creëren.

LLM’s bestaan al een tijdje, maar hebben pas onlangs een punt bereikt waarop hun output volkomen menselijk lijkt. Dit heeft geresulteerd in een groot enthousiasme voor een reeks toepassingen, zoals chatbots, contentcreatie en persoonlijke virtuele assistenten, maar ook in een wijdverbreide bezorgdheid dat hierdoor de grens tussen menselijke betrokkenheid en robotbetrokkenheid vervaagt in een steeds meer gedigitaliseerde wereld.

Volgende golf van LLM’s: Bouwen op succes

Maar hoewel ChatGPT eerder dit jaar voor opschudding zorgde, met volgens recente schattingen zo’n 180 miljoen gebruikers, is het zeker niet de enige LLM in omloop. In technologiekringen leidt succes vaak tot concurrentie, en veel welgestelde bedrijven zijn er zeer in geïnteresseerd om AI zo normaal en natuurlijk mogelijk te laten lijken.

Hier zijn dan enkele van de meer veelbelovende LLM-oplossingen die binnenkort bij een onderneming bij u in de buurt kunnen verschijnen.

BERT

BERT, ook bekend als Bidirectionele Encoder Representations van Transformer, is de kampioen van Alphabet in de LLM-oorlogen. Er wordt gezegd dat BERT zeer bedreven is in het creëren van ‘embeddings’ – de wiskundige representaties waarmee modellen de betekenis van woorden en hun relaties met elkaar kunnen vastleggen en interpreteren. Dit betekent dat het tekst- of gesproken gegevens nauwkeurig kan doorgeven en een diep inzicht kan bieden in de semantische betekenis van zelfs langdurige communicatie.

Om deze reden wordt BERT gezien als een toonaangevend ondersteuningsmodel voor natuurlijke taalverwerking (NLP) en andere vormen van machine learning (ML).

Voor beide technieken is AI nodig om enorme hoeveelheden gegevens op te nemen en te begrijpen, met name de ongestructureerde gegevens die voorkomen in e-mails, chatgesprekken en andere vormen van menselijke interactie.

BERT kan ook embeddings maken van tekst en cijfers om bijvoorbeeld namen en leeftijden te integreren, en het kan embedden samenvoegen met verschillende andere functies om multidimensionale gegevensinvoer te creëren – dit alles stroomlijnt het trainingsproces en brengt meer flexibiliteit in de werking van het model.

Tongyi Qianwen

In China heeft Alibaba Group ondertussen Tongyi Qianwen (“De waarheid zoeken door duizend vragen te stellen”) uitgebracht, dat door sommige specialisten wordt omschreven als het antwoord van het bedrijf op ChatGPT.

Gebaseerd op het eerdere Tongyi-voorgetrainde AI-framework, wordt Tongyi Qianwen geïntegreerd in een breed scala aan bedrijfsapplicaties van Alibaba, waaronder de DingTalk-communicatietool op de werkplek en de persoonlijke assistent TGenie, evenals tal van consumententoepassingen zoals e-commerce en entertainment. Er is ook een bèta-API beschikbaar voor ontwikkelaars om aangepaste applicaties te bouwen voor een breed scala aan persoonlijke en professionele gebruiksscenario’s.

Een van de meer intrigerende aspecten van Tongyi Qianwen is het potentieel voor multimodale functionaliteit, dat naar verwachting zal leiden tot geavanceerde beeldinterpretatie, tekst-naar-beeld- en zelfs tekst-naar-video-conversie. Volgens functionarissen van Alibaba zal dit, samen met de hyperscale cloudinfrastructuur van het bedrijf, naar verwachting een nieuw tijdperk in de AI-ontwikkeling inluiden.

NeMo LLM

In termen van pure kracht lijkt de beste echter het NeMo-platform van Nvidia te zijn. Met de mogelijkheid om tijdens het trainingsproces tot 500 miljard aanpasbare parameters te beheren, heeft het een enorme capaciteit om nauwkeurige voorspellingen te doen of de gewenste output correct te produceren met minimale aanwijzingen.

Op deze manier moeten gebruikers hun modellen kunnen sturen om taken uit te voeren variërend van het samenvatten en parafraseren van teksten tot het vertellen van volledige verhalen, met minimale expertise in modeltraining of computertechnologie in het algemeen.

Nvidia wil het NeMO-framework nu al naar een hoger niveau tillen door de parametercapaciteit te vergroten tot in het bereik van meerdere biljoenen. Het systeem kan snel en efficiënt zoeken naar optimale trainings- en inferentieparameters over meerdere gedistribueerde GTP-clusters met behulp van tools zoals geautomatiseerde gedistribueerde gegevensverwerking en hyperparametertools.

Het ondersteunt ook een hoge trainingsefficiëntie en brede aanpassing met behulp van technieken als tensor, data, pijplijn- en sequentieparallellisme, evenals selectieve actieve herberekening om het geheugenverbruik te verminderen.

LLaMA

Groter is echter niet altijd beter bij het ontwikkelen van LLM-modellen, vooral als u niet over de middelen beschikt voor grootschalige architecturen. Meta heeft een kleinere oplossing geïntroduceerd genaamd LLaMA (Large Language Model Meta AI) die ongeveer 65 miljard parameters bevat. Het idee is om een goedkope, kleinschalige ontwikkelomgeving te bieden, waardoor meer onderzoekers hun ideeën kunnen testen voordat ze deze in productieomgevingen vrijgeven.

Deze kleinere getrainde modellen zijn sterker afhankelijk van tokens – in wezen stukjes woorden – die gemakkelijker te trainen en te verfijnen zijn dan uitgebreidere oplossingen.

Hierdoor kunnen ontwikkelaars werkbare modellen maken voor gerichte gebruiksscenario’s en vervolgens code tussen projecten delen om hun veerkracht tegen vooroordelen, toxiciteit, hallucinaties en andere negatieve input te verbeteren waar alle LLM’s last van hebben. Momenteel geeft Meta alleen niet-commerciële licenties uit voor LLaMA om de onderzoeksgemeenschap de kans te geven richtlijnen te ontwikkelen voor verantwoord gebruik in alle omgevingen.

Conclusie

Grote taalmodellen zullen voorlopig waarschijnlijk het leeuwendeel van de aandacht trekken op het gebied van AI. Zij zijn tenslotte degenen die de meest ‘mensachtige’ kenmerken vertonen, waardoor ze het meest intelligent lijken.

De uitdaging op dit punt is om vaardigheden te ontwikkelen die verder gaan dan alleen schrijven en praten, om ze echt nuttig te maken in ons persoonlijke en professionele leven. Dit is een hele opgave, gezien de talloze cognitieve stappen die nodig zijn om te beslissen welke kleding je moet dragen of wat je als ontbijt wilt nemen.

Naar alle waarschijnlijkheid zullen we alleen door LLM’s te integreren met andere vormen van AI, zoals machine learning, neurale netwerken en deep learning, een punt bereiken waarop de technologie echt transformatief wordt.

Gerelateerde begrippen

Gerelateerde artikelen

Arthur Cole
Editor
Arthur Cole
Redacteur

Arthur Cole is een freelance technologiejournalist die al meer dan 20 jaar verslag doet van ontwikkelingen op het gebied van IT en ondernemingen. Hij levert bijdragen aan een groot aantal toonaangevende technologiewebsites, waaronder IT Business Edge, Enterprise Networking Planet, Point B and Beyond en meerdere leveranciersdiensten.