De Amerikaanse techwereld is deze week opgestaan en heeft kennis genomen van een AI-model van een Chinees bedrijf dat state-of-the-art prestaties kon leveren zonder dure computerchips. Dat bedrijf is DeepSeek, en zijn model R1 heeft het potentieel om de manier waarop we chatbots gebruiken te veranderen.
Het R1-model is een redeneermodel dat kan wedijveren met ChatGPT en andere virale chatbots. Het kost weinig om te draaien en is open source.
Wat is Deepseek?
Deepseek is een Chinese start-up die deze week de aandacht van de AI-wereld trok met een state-of-the-art redeneermodel dat schokkend goedkoop is om te gebruiken. Het R1-model van het bedrijf werkt naar verluidt voor een fractie van de kosten van vergelijkbare modellen van concurrenten. Het vereist ook veel minder computerkracht. Het bedrijf heeft zijn AI-assistent-app al ChatGPT zien inhalen in de Amerikaanse App Store-hitlijsten, honderden open-source-derivaten voortgebracht en is aan boord van Microsoft-, AWS- en Nvidia AI-platforms.
Het bedrijf wordt gecrediteerd voor het benutten van reinforcement learning (RL) om zijn nieuwe modellen te ontwikkelen. RL is een trainingsmethode die trial-and-error gebruikt om een model te trainen door acties uit te voeren in een gesimuleerde omgeving en feedback te ontvangen in de vorm van beloningen of straffen. Het model leert vervolgens om zijn gedrag te optimaliseren door de resultaten van elke actie te analyseren om zijn prestaties te verbeteren. Het team bouwde vervolgens een systeem waarmee het model alleen die delen van het algoritme kan 'wekken' die het meest relevant zijn voor een bepaalde prompt, waardoor zijn rekenbehoeften aanzienlijk worden verminderd.
Deze doorbraak wordt breed geprezen als het Sputnik-moment van AI. Het dwingt Silicon Valley-giganten om hun strategieën te heroverwegen en de kosten en energiebehoeften van hun eigen algoritmen eens nader te bekijken. Het heeft zelfs een domino-effect op andere sectoren, met de aandelenkoersen van bedrijven die componenten maken die worden gebruikt voor het runnen van AI-systemen. Dit omvat Nvidia, wiens GPU-chips worden gebruikt om de meeste AI-aangedreven apps ter wereld te draaien, evenals bedrijven als Vistra en Constellation die de datacenters bouwen die de meeste AI-modellen aandrijven.
Is Deepseek goed?
Ondanks de enorme hype rondom Deepseek, is er weinig dat het onderscheidt van andere AI-modellen. Het kan natuurlijke taal begrijpen en output genereren op basis van gebruikersinvoer, net als elk ander model dat tegenwoordig wordt gebruikt. Wat voor ophef heeft gezorgd, is dat het veel goedkoper is ontwikkeld en betere prestaties levert dan zijn concurrenten. Dat is een groot voordeel voor bedrijven die hun AI-mogelijkheden moeten opschalen, zoals Nvidia.
Het R1-model van DeepSeek is een redeneermodel, wat betekent dat het prompts opsplitst in kleinere stukken en meerdere benaderingen overweegt voordat het een respons genereert. Het heeft ook een unieke workflow die het gebruikt om de efficiëntie te verbeteren. Het Mixture of Experts (MoE)-model heeft 256 "experts" die elk gespecialiseerd zijn in verschillende aspecten van de respons. Bijvoorbeeld, de ene expert kan logica behandelen, terwijl een ander zich richt op muziek of visuele beschrijvingswoorden, en weer een ander is misschien het beste in eigennamen of getallen.
MoE heeft ook een poortsysteem dat de juiste experts voor elke query selecteert op basis van de context. Dit zorgt ervoor dat een enkele expert niet overbelast raakt met taken. Het biedt ook robuustere prestaties door te voorkomen dat er te veel wordt vertrouwd op specifieke experts, wat kan leiden tot "model drift".
Het andere grote verschil tussen Deepseek en zijn Amerikaanse rivalen is dat het een grotendeels open model is, waardoor ontwikkelaars ermee kunnen knutselen en het in verschillende workflows kunnen implementeren. Dit is een groot ding in de AI-wereld, omdat het mensen in staat stelt om geavanceerde modellen te gebruiken zonder te betalen voor een propriëtaire oplossing.
Tot slot is het bedrijf ook transparant over zijn kosten en trainingsdata. Het beweert het model te hebben getraind voor slechts $ 5,6 miljoen. Dit is veel lager dan de miljarden die andere AI-bedrijven hebben uitgegeven aan het ontwikkelen van hun eigen modellen.
Niet iedereen is er echter van overtuigd dat het model echt zo efficiënt is als geadverteerd. Sommige Amerikaanse AI-onderzoekers hebben twijfels geuit over de bewering dat DeepSeek een goedkoper en effectiever alternatief is voor zijn concurrenten. Anderen hebben erop gewezen dat het nog steeds externe synthetische data van modellen als GPT-4o nodig heeft om te trainen, wat rekenkundig duur kan zijn. Deze externe datageneratie zou de kostenbesparingen die Deepseek beweert te hebben bereikt met zijn slanke modelarchitectuur, teniet kunnen doen.
Wat zijn de voordelen van Deepseek?
Een belangrijk voordeel van Deepseek is dat het open source is, waardoor gebruikers het model kunnen analyseren en aanpassen aan hun eigen behoeften. Daarnaast kan het model lokaal op het apparaat van de gebruiker worden gebruikt, waardoor privacyrisico's worden geminimaliseerd en wordt voorkomen dat gevoelige informatie aan een groot technologiebedrijf wordt toevertrouwd.
Deepseek gebruikt Reinforcement Learning (RL) om zijn logic engine te trainen, een type machine learning dat een beloningssysteem omvat dat het model aanmoedigt om zijn eigen oplossingen voor probleemoplossingsscenario's te verkennen en te verfijnen. Deze aanpak stelt het model in staat om van zijn eigen fouten te leren en in de loop van de tijd te verbeteren, waardoor het een robuustere oplossing is dan GPT-4o of Claude 3.6 Sonnet.
Wat DeepSeek onderscheidt van andere redeneermodellen is het vermogen om holistische antwoorden te genereren die rekening houden met alle aspecten van een vraag. Dit wordt bereikt door het gebruik van een speciaal token in de output van het model, think>, dat het model aanzet om na te denken over hoe de vraag het beste kan worden beantwoord. De content die volgt op het think>-token is vaak als een lange gedachtestroom, wat kan helpen verklaren hoe het model tot zijn uiteindelijke antwoord is gekomen.
Een ander voordeel van Deepseek is de mogelijkheid om complexe vragen te behandelen, zoals vragen gerelateerd aan wiskunde of programmeren. Dit is een significante verbetering ten opzichte van andere modellen, waaronder Qwen en Claude 3.6 Sonnet, die dit soort vragen niet kunnen behandelen. Bovendien is Deepseek in staat om antwoorden te geven in meerdere talen, wat niet mogelijk is met andere generatieve AI-modellen.
Het model heeft echter enkele opmerkelijke nadelen. Het is bijvoorbeeld geneigd om onsamenhangende antwoorden te produceren en kan vastlopen in oneindige lussen tijdens lokaal redeneren, wat de bruikbaarheid ervan voor sommige use cases beperkt. Bovendien kan de afhankelijkheid van het model van reinforcement learning ervoor zorgen dat het vooroordelen vertoont, zoals het censureren van gevoelige onderwerpen of het prioriteren van pro-Chinese verhalen.
Ten slotte kan het model behoorlijk resource-intensief zijn om te bedienen, vooral wat betreft de training en parameterruimte. Dit maakt het minder geschikt voor edge-apparaten. Om deze reden is het belangrijk om rekening te houden met de hardwarevereisten van uw toepassing bij het kiezen van een model.
Wat zijn de nadelen van Deepseek?
DeepSeek R1 heeft schokgolven veroorzaakt in de AI-wereld. Het is geprezen als het eerste model dat redeneermogelijkheden levert die vergelijkbaar zijn met O1, maar dan voor een fractie van de kosten, en is voor iedereen gratis beschikbaar via een chatbotinterface. Het is ook beschikbaar om te downloaden en lokaal uit te voeren voor gebruikers met de juiste hardware, waardoor privacyrisico's worden geminimaliseerd omdat gevoelige gegevens niet via internet hoeven te worden verzonden.
Het is ongelooflijk krachtig en snel. Het kan tekst maken, complexe vragen beantwoorden, coderen en wiskundige en wetenschappelijke analysetaken uitvoeren. Het blinkt ook uit in het oplossen van problemen waarvoor een combinatie van verschillende vaardigheden nodig is, zoals het debuggen van software of het schrijven van een essay. Dit maakt het ideaal voor het automatiseren van repetitieve ontwikkelings- en data-analyseworkflows.
Naast de prestaties heeft het een aantal andere voordelen die het onderscheiden van de concurrentie. Het is open source, wat betekent dat ontwikkelaars en bedrijven het kunnen aanpassen aan hun behoeften zonder dure API-kosten te betalen. Dit geeft hen meer controle over hun AI-systemen en minimaliseert het risico op vendor lock-in.
Een ander voordeel is de schaalbaarheid. In tegenstelling tot andere modellen kan Deepseek R1 meerdere invoerstromen tegelijk verwerken door meerdere experts tegelijk te activeren. Dit wordt mogelijk gemaakt door de MoE-architectuur, die gebruikmaakt van een load-balancing loss om het werk gelijkmatig te verdelen tussen de experts. Dit vermindert de behoefte aan een groot aantal parameters, wat belangrijk is bij het trainen van het model.
Een nadeel van Deepseek is dat het informatie verzamelt over de hardware, het besturingssysteem en toetsaanslagpatronen van de gebruiker. Dit is nodig om het model een nauwkeurig antwoord te kunnen geven, maar sommige gebruikers kunnen zich hier ongemakkelijk bij voelen. Het bedrijf zegt dat het deze informatie alleen zal delen met zijn partners en met "derden die nodig zijn om de veiligheid, beveiliging en stabiliteit van het model te verbeteren." Sommige gebruikers hebben echter hun bezorgdheid hierover geuit en stellen dat het gebruikt zou kunnen worden om hen te bespioneren of hun persoonlijke informatie te verkopen.