Testar de "smartaste i världen" Grok3

AIPU WATON GROUP (1)

Introduktion

Tror du att Grok3 kommer att bli "slutpunkten" för förtränade modeller?

Elon Musk och xAI-teamet lanserade officiellt den senaste versionen av Grok, Grok3, under en livesändning. Innan detta evenemang höjde en betydande mängd relaterad information, i kombination med Musks dygnet runt-reklam, de globala förväntningarna på Grok3 till exempellösa nivåer. För bara en vecka sedan uttalade Musk självsäkert under en livesändning när han kommenterade DeepSeek R1: "xAI är på väg att lansera en bättre AI-modell." Utifrån de data som presenterades live har Grok3 enligt uppgift överträffat alla nuvarande mainstream-modeller i riktmärken för matematik, naturvetenskap och programmering, och Musk hävdade till och med att Grok3 kommer att användas för beräkningsuppgifter relaterade till SpaceX:s Mars-uppdrag och förutspådde "genombrott på Nobelprisnivå inom tre år." Detta är dock för närvarande bara Musks påståenden. Efter lanseringen testade jag den senaste betaversionen av Grok3 och ställde den klassiska trickfrågan för stora modeller: "Vilken är större, 9.11 eller 9.9?" Tyvärr, utan några kvalifikationer eller markeringar, kunde den så kallade smartaste Grok3 fortfarande inte svara korrekt på denna fråga. Grok3 misslyckades med att korrekt identifiera frågans innebörd.

 

Detta test drog snabbt till sig avsevärd uppmärksamhet från många vänner, och av en slump har olika liknande tester utomlands visat att Grok3 kämpar med grundläggande fysik-/matematikfrågor som "Vilken boll faller först från det lutande tornet i Pisa?" Därför har den humoristiskt stämplats som "ett geni som inte vill svara på enkla frågor".

640

Grok3 är bra, men det är inte bättre än R1 eller o1-Pro.

Grok3 upplevde "misslyckanden" på många allmänna kunskapstester i praktiken. Under xAI-lanseringsevenemanget demonstrerade Musk hur man använder Grok3 för att analysera karaktärsklasser och effekter från spelet Path of Exile 2, som han påstod sig spela ofta, men de flesta svaren som Grok3 gav var felaktiga. Musk märkte inte detta uppenbara problem under livesändningen.

 

Detta misstag gav inte bara ytterligare bevis för utländska nätanvändare att håna Musk för att han "hittade en ersättning" inom spel, utan väckte också betydande oro kring Grok3:s tillförlitlighet i praktiska tillämpningar. För ett sådant "geni", oavsett dess faktiska kapacitet, är dess tillförlitlighet i extremt komplexa tillämpningsscenarier, såsom Marsutforskningsuppgifter, fortfarande tveksam.

 

För närvarande pekar många testare som fick tillgång till Grok3 för några veckor sedan, och de som testade modellens funktioner i några timmar igår, alla på en gemensam slutsats: "Grok3 är bra, men det är inte bättre än R1 eller o1-Pro."

640 (1)

Ett kritiskt perspektiv på "Att störa Nvidia"

I den officiellt presenterade PowerPoint-presentationen under lanseringen visades Grok3 ligga "långt före" i chatbotarenan, men detta använde sig skickligt av grafiska tekniker: den vertikala axeln på topplistan listade endast resultat i poängintervallet 1400-1300, vilket gör att den ursprungliga skillnaden på 1 % i testresultaten framstår som exceptionellt signifikant i denna presentation.

640

I faktiska modellresultat ligger Grok3 bara 1–2 % före DeepSeek R1 och GPT-4.0, vilket motsvarar många användares erfarenheter i praktiska tester som inte fann någon märkbar skillnad. Grok3 överträffar bara sina efterföljare med 1–2 %.

640

Även om Grok3 har fått högre poäng än alla modeller som för närvarande testats offentligt, tar många inte detta på allvar: trots allt har xAI tidigare kritiserats för "poängmanipulation" under Grok2-eran. I takt med att topplistan straffade svarslängdsstilen minskade poängen kraftigt, vilket ledde till att branschkännare ofta kritiserade fenomenet "hög poäng men låg förmåga".

 

Vare sig det handlar om "manipulation" av topplistor eller designtrick i illustrationer, avslöjar de xAI och Musks besatthet av idén att "leda i branschen" inom modellkapacitet. Musk fick betala ett högt pris för dessa marginaler: under lanseringen skröt han om att ha använt 200 000 H100 GPU:er (och hävdade "över 100 000" under livestreamen) och uppnått en total träningstid på 200 miljoner timmar. Detta fick vissa att tro att det representerar ytterligare en betydande välsignelse för GPU-industrin och att betrakta DeepSeeks inverkan på sektorn som "dum". Det är värt att notera att vissa tror att ren beräkningskraft kommer att vara framtiden för modellträning.

 

Vissa nätanvändare jämförde dock förbrukningen av 2000 H800 GPU:er under två månader för att producera DeepSeek V3, och beräknade att Grok3:s faktiska träningsströmförbrukning är 263 gånger högre än V3:s. Skillnaden mellan DeepSeek V3, som fick 1402 poäng, och Grok3 är strax under 100 poäng. Efter publiceringen av dessa data insåg många snabbt att bakom Grok3:s titel som "världens starkaste" ligger en tydlig marginalnyttaeffekt – logiken att större modeller genererar starkare prestanda har börjat visa minskande avkastning.

640 (2)

Även med "hög poäng men låg förmåga" hade Grok2 stora mängder högkvalitativ förstapartsdata från X (Twitter)-plattformen för att stödja användningen. Men i träningen av Grok3 stötte xAI naturligtvis på det "tak" som OpenAI för närvarande står inför – bristen på premiumträningsdata avslöjar snabbt den marginella nyttan av modellens funktioner.

 

Utvecklarna av Grok3 och Musk är sannolikt de första som förstår och identifierar dessa fakta på djupet, vilket är anledningen till att Musk ständigt har nämnt på sociala medier att den version som användarna upplever nu "fortfarande bara är betaversionen" och att "den fullständiga versionen kommer att släppas under de kommande månaderna". Musk har tagit på sig rollen som Grok3s produktchef och föreslår att användare ger feedback på olika problem som uppstått i kommentarsfältet. Han kan vara den mest följade produktchefen på jorden.

 

Ändå, inom en dag, väckte Grok3:s prestanda utan tvekan oro hos dem som hoppades kunna förlita sig på "massiv beräkningsmuskel" för att träna starkare stora modeller: baserat på offentligt tillgänglig Microsoft-information har OpenAI:s GPT-4 en parameterstorlek på 1,8 biljoner parametrar, över tio gånger så stor som GPT-3. Rykten tyder på att parameterstorleken för GPT-4.5 kan vara ännu större.

 

I takt med att modellparameterstorlekarna skjuter i höjden skjuter även utbildningskostnaderna i höjden. Med Grok3:s närvaro måste utmanare som GPT-4.5 och andra som vill fortsätta att "bränna pengar" för att uppnå bättre modellprestanda genom parameterstorlek beakta det tak som nu tydligt syns och fundera över hur man ska övervinna det. I detta ögonblick hade Ilya Sutskever, tidigare chefsforskare på OpenAI, tidigare sagt i december förra året: "Den förberedande utbildning vi är bekanta med kommer att ta slut", vilket har återuppstått i diskussioner, vilket lett till ansträngningar för att hitta den rätta vägen för att träna stora modeller.

640 (3)

Ilyas synpunkt har slagit larm i branschen. Han förutsåg med rätta den förestående uttömningen av tillgängliga nya data, vilket skulle leda till en situation där prestandan inte kan fortsätta förbättras genom datainsamling, och liknade det vid uttömningen av fossila bränslen. Han påpekade att "precis som olja är mänskligt genererat innehåll på internet en begränsad resurs". I Sutskevers förutsägelser kommer nästa generations modeller, efter förberedelserna inför utbildningen, att ha "sann autonomi" och resonemangsförmåga "liknande den mänskliga hjärnans".

 

Till skillnad från dagens förtränade modeller som främst förlitar sig på innehållsmatchning (baserat på det tidigare inlärda modellens innehåll), kommer framtida AI-system att kunna lära sig och etablera metoder för att lösa problem på ett sätt som liknar den mänskliga hjärnans "tänkande". En människa kan uppnå grundläggande färdigheter i ett ämne med endast grundläggande facklitteratur, medan en stor AI-modell kräver miljontals datapunkter för att uppnå den mest grundläggande effektiviteten på ingångsnivå. Även när formuleringen ändras något kanske dessa grundläggande frågor inte förstås korrekt, vilket illustrerar att modellen inte verkligen har förbättrats i intelligens: de grundläggande men olösliga frågorna som nämns i början av artikeln representerar ett tydligt exempel på detta fenomen.

微信图片_20240614024031.jpg1

Slutsats

Men bortom brutal kraft, om Grok3 verkligen lyckas avslöja för branschen att "förtränade modeller närmar sig sitt slut", skulle det få betydande konsekvenser för fältet.

Kanske efter att frenesin kring Grok3 gradvis avtagit kommer vi att bevittna fler fall som Fei-Fei Lis exempel på att "fina högpresterande modeller på en specifik datauppsättning för bara 50 dollar", och slutligen upptäcka den sanna vägen till AGI.

Hitta ELV-kabellösning

Kontrollkablar

För BMS, BUS, industri och instrumentkabel.

Strukturerat kabelsystem

Nätverk och data, fiberoptisk kabel, patchkabel, moduler, frontplatta

Översikt över utställningar och evenemang 2024

16-18 april 2024 Mellanöstern-Energi i Dubai

16-18 april 2024 Securika i Moskva

9 maj 2024 LANSERING AV NYA PRODUKTER OCH TEKNOLOGIER i Shanghai

22-25 oktober 2024 SECURITY CHINA i Peking

19-20 november 2024 CONNECTED WORLD KSA


Publiceringstid: 19 februari 2025