Testa ”smartaste i världen” grok3

AIPU WATON GROUP (1)

Introduktion

Tror du att GROK3 kommer att vara "slutpunkten" för förutbildade modeller?

Elon Musk och XAI -teamet lanserade officiellt den senaste versionen av Grok, Grok3, under en livestream. Före detta evenemang höjde en betydande mängd relaterad information, i kombination med Musks marknadsföring av 24/7, globala förväntningar på GROK3 till enastående nivåer. För bara en vecka sedan, sade Musk med säkerhet under en livestream medan han kommenterade Deepseek R1, "XAI är på väg att lansera en bättre AI -modell." Från de presenterade uppgifterna har GROK3 enligt uppgift överträffat alla nuvarande mainstream -modeller i riktmärken för matematik, vetenskap och programmering, med Musk till och med hävdar att GROK3 kommer att användas för beräkningsuppgifter relaterade till SpaceX: s Mars -uppdrag och förutsäger "Breakthroughs på NoBel -priset inom tre år." Detta är dock för närvarande bara Musks påståenden. Efter lanseringen testade jag den senaste betaversionen av GROK3 och ställde den klassiska trickfrågan för stora modeller: "Vilket är större, 9.11 eller 9.9?" Tyvärr, utan några kval eller markeringar, kunde den så kallade smartaste GROK3 fortfarande inte svara på denna fråga korrekt. GROK3 kunde inte identifiera betydelsen av frågan exakt.

 

Detta test väckte snabbt stor uppmärksamhet från många vänner, och tillfället har olika liknande tester utomlands visat GROK3 som kämpar med grundläggande fysik/matematikfrågor som "Vilken boll faller först från det lutande tornet i Pisa?" Således har det humoristiskt märkt som "ett geni som inte vill svara på enkla frågor."

640

GROK3 är bra, men det är inte bättre än R1 eller O1-Pro.

GROK3 upplevde "misslyckanden" på många vanliga kunskapstester i praktiken. Under XAI -lanseringsevenemanget demonstrerade Musk med att använda GROK3 för att analysera karaktärsklasserna och effekterna från spelvägen för exil 2, som han hävdade att spela ofta, men de flesta av svaren från GROK3 var felaktiga. Musk under livestream märkte inte denna uppenbara fråga.

 

Detta misstag gav inte bara ytterligare bevis för utländska netizens för att håna mysk för att "hitta en ersättare" i spel utan väckte också betydande oro för GROK3: s tillförlitlighet i praktiska tillämpningar. För ett sådant "geni", oavsett dess faktiska kapacitet, förblir dess tillförlitlighet i extremt komplexa applikationsscenarier, såsom Mars -utforskningsuppgifter, i tvivel.

 

För närvarande pekar många testare som fick tillgång till GROK3 veckor sedan, och de som just testade modellfunktionerna i några timmar igår, alla på en gemensam slutsats: "GROK3 är bra, men det är inte bättre än R1 eller O1-Pro."

640 (1)

Ett kritiskt perspektiv på "Stör NVIDIA"

I den officiellt presenterade PPT under utgivningen visade sig GROK3 vara "långt framåt" i Chatbot Arena, men denna smart använda grafiska tekniker: den vertikala axeln på topplistan listade endast resultat i poängen 1400-1300, vilket gjorde den ursprungliga 1% -skillnaden i testresultaten verkar exceptionellt betydande i denna presentation.

640

I faktiska modellresultat är GROK3 bara 1-2% före Deepseek R1 och GPT-4.0, vilket motsvarar många användares upplevelser i praktiska tester som fann "ingen märkbar skillnad." GROK3 överskrider endast sina efterträdare med 1%-2%.

640

Även om GROK3 har fått högre poäng än alla för närvarande offentligt testade modeller, tar många inte detta på allvar: Trots allt har XAI tidigare kritiserats för "poängmanipulation" i GROK2 -eran. När topplistan straffade svarslängdstilen minskade poängen kraftigt, vilket ledde till att industrins insiders ofta kritiserar fenomenet "hög poäng men låg förmåga."

 

Oavsett om de genom topplistan "manipulation" eller design tricks i illustrationer, avslöjar de XAI och Musks besatthet av uppfattningen att "leda förpackningen" i modellfunktioner. Musk betalade ett brant pris för dessa marginaler: under lanseringen skröt han av att använda 200 000 H100 GPU: er (hävdade "över 100 000" under liveströmmen) och uppnådde en total träningstid på 200 miljoner timmar. Detta fick vissa att tro att det representerar en annan betydande välsignelse för GPU -industrin och att överväga Deepseeks påverkan på sektorn som "dumt." Noterbart tror vissa att Sheer Computational Power kommer att vara framtiden för modellträning.

 

Vissa netizens jämförde emellertid konsumtionen 2000 H800 GPU under två månader för att producera Deepseek V3, och beräkningen att GROK3: s faktiska utbildningskraftsförbrukning är 263 gånger den för V3. Klyftan mellan Deepseek V3, som fick 1402 poäng, och GROK3 är knappt 100 poäng. Efter utgivningen av dessa data insåg många snabbt att bakom GROK3: s titel som den "världens starkaste" ligger en tydlig marginell verktygseffekt - logiken för större modeller som genererar starkare prestanda har börjat visa minskande avkastning.

640 (2)

Även med "hög poäng men låg förmåga", hade GROK2 stora mängder av högkvalitativa första partidata från X (Twitter) -plattformen för att stödja användning. I utbildningen av GROK3 stötte emellertid XAI naturligtvis "taket" som OpenAI för närvarande står inför - bristen på premiumträningsdata avslöjar snabbt den marginella användbarheten för modellens kapacitet.

 

Utvecklarna av GROK3 och Musk är troligen de första som förstår och identifierar dessa fakta djupt, varför Musk har ständigt nämnt på sociala medier att versionsanvändarna upplever nu är "fortfarande bara beta" och att "hela versionen kommer att släppas under de kommande månaderna." Musk har tagit på sig rollen som GROK3: s produktchef, vilket tyder på att användare ger feedback på olika frågor som uppstår i kommentarerna.

 

Men inom en dag höjde GROK3: s prestanda utan tvekan larm för dem som hoppas kunna förlita sig på "massiv beräkningsmuskel" för att träna starkare stora modeller: baserat på offentligt tillgängligt Microsoft-information har OpenAI: s GPT-4 en parameterstorlek på 1,8 biljoner parametrar, över tio gånger den av GPT-3. Rykten tyder på att parameterstorleken för GPT-4,5 kan vara ännu större.

 

När modellparameterstorlekarna ökar är träningskostnaderna också skyrocket. Med GROK3: s närvaro måste utmanare som GPT-4,5 och andra som vill fortsätta ”bränna pengar” för att uppnå bättre modellprestanda genom parameterstorleken ta hänsyn till taket som nu är tydligt i sikte och överväga hur man kan övervinna det. Just nu hade Ilya Sutskever, före detta chefforskare vid OpenAI, tidigare sagt i december förra året, "Förutbildningen som vi är bekanta med kommer att ta slut", som har återuppstått i diskussioner, vilket fick ansträngningar att hitta den verkliga vägen för att träna stora modeller.

640 (3)

Ilyas synvinkel har låtit larmet i branschen. Han förutsåg exakt den överhängande utmattningen av tillgängliga nya data, vilket leder till en situation där prestanda inte kan fortsätta att förbättras genom dataförvärv, vilket liknar den med utmattning av fossila bränslen. Han indikerade att "som olja är mänskligt genererat innehåll på internet en begränsad resurs." I Sutskevers förutsägelser kommer nästa generation av modeller, efter-predträning, att ha "sann autonomi" och resonemangsförmågor "som liknar den mänskliga hjärnan."

 

Till skillnad från dagens förutbildade modeller som främst förlitar sig på innehållsmatchning (baserat på det tidigare lärda modellinnehållet) kommer framtida AI-system att kunna lära sig och etablera metoder för att lösa problem på ett sätt som är liknande "tänkande" av den mänskliga hjärnan. En människa kan uppnå grundläggande kunskaper i ett ämne med bara grundläggande professionell litteratur, medan en AI-stor modell kräver miljontals datapunkter för att uppnå bara den mest grundläggande effektnivån. Även när formuleringen ändras något kanske dessa grundläggande frågor inte förstås korrekt, och illustrerar att modellen inte verkligen har förbättrats i intelligens: de grundläggande men olösliga frågorna som nämns i början av artikeln representerar ett tydligt exempel på detta fenomen.

微信图片 _20240614024031.jpg1

Slutsats

Men utöver brute force, om GROK3 verkligen lyckas avslöja för branschen att "förutbildade modeller närmar sig deras slut", skulle det ha betydande konsekvenser för fältet.

Kanske efter att frenesiet omgivande GROK3 gradvis har sjunkit, kommer vi att bevittna fler fall som Fei-Fei Li: s exempel på att "stämma högpresterande modeller på ett specifikt datasätt för bara $ 50," i slutändan upptäcker den verkliga vägen till AGI.

Hitta ELV -kabellösning

Kontrollkablar

För BMS, buss, industri, instrumenteringskabel.

Strukturerat kabelsystem

Nätverk och data, fiberoptisk kabel, patch sladd, moduler, frontplatta

2024 Utställningar och händelser Review

16-18, 2024 Mellanöstern i Dubai

16-18, 2024 Securika i Moskva

Maj.9, 2024 Nya produkter och teknologier Lanseringsevenemang i Shanghai

22 oktober-25: e, 2024 Säkerhetskina i Peking

19-20, 2024 Connected World KSA


Posttid: feb-19-2025