DeepSeek: Den omvälvande revolutionen inom AI-landskapet

AIPU WATON GROUP

Introduktion

Pågående oro bland konkurrerande stora modeller, molnleverantörer som konkurrerar om marknadsandelar och hårt arbetande chiptillverkare – DeepSeek-effekten kvarstår.

När vårfestivalen närmar sig sitt slut är spänningen kring DeepSeek fortsatt stark. Den senaste högtiden belyste en betydande känsla av konkurrens inom teknikbranschen, med många som diskuterar och analyserar denna "mal". Silicon Valley upplever en exempellös kris: förespråkare för öppen källkod uttrycker sina åsikter igen, och till och med OpenAI omvärderar huruvida deras strategi med sluten källkod var det bästa valet. Det nya paradigmet med lägre beräkningskostnader har utlöst en kedjereaktion bland chipjättar som Nvidia, vilket har lett till rekordhöga marknadsvärdesförluster på en enda dag i den amerikanska aktiemarknadens historia, medan myndigheter undersöker efterlevnaden hos de chip som används av DeepSeek. Mitt blandade recensioner av DeepSeek utomlands upplever den en extraordinär tillväxt inhemskt. Efter lanseringen av R1-modellen har den tillhörande appen sett en ökning av trafiken, vilket indikerar att tillväxten inom applikationssektorer kommer att driva det övergripande AI-ekosystemet framåt. Den positiva aspekten är att DeepSeek kommer att bredda applikationsmöjligheterna, vilket tyder på att det inte kommer att bli lika dyrt att förlita sig på ChatGPT i framtiden. Denna förändring har återspeglats i OpenAI:s senaste aktiviteter, inklusive tillhandahållandet av en resonemangsmodell kallad o3-mini till gratisanvändare som svar på DeepSeek R1, samt efterföljande uppgraderingar som gjorde tankekedjan bakom o3-mini offentlig. Många utländska användare uttryckte tacksamhet till DeepSeek för dessa utvecklingar, även om denna tankekedja fungerar som en sammanfattning.

Optimistiskt sett är det uppenbart att DeepSeek förenar inhemska aktörer. Med sitt fokus på att minska utbildningskostnaderna ansluter sig olika uppströms chiptillverkare, mellanliggande molnleverantörer och ett flertal startups aktivt till ekosystemet, vilket förbättrar kostnadseffektiviteten för att använda DeepSeek-modellen. Enligt DeepSeeks artiklar kräver den fullständiga utbildningen av V3-modellen endast 2,788 miljoner H800 GPU-timmar, och utbildningsprocessen är mycket stabil. MoE-arkitekturen (Mixture of Experts) är avgörande för att minska kostnaderna före utbildning med en faktor tio jämfört med Llama 3 med 405 miljarder parametrar. För närvarande är V3 den första offentligt erkända modellen som visar så hög gleshet i MoE. Dessutom fungerar MLA (Multi Layer Attention) synergistiskt, särskilt inom resonemangsfrågor. "Ju glesare MoE, desto större batchstorlek behövs under resonemanget för att fullt ut utnyttja beräkningskraften, där storleken på KVCache är den viktigaste begränsande faktorn; MLA minskar KVCache-storleken avsevärt", noterade en forskare från Chuanjing Technology i en analys för AI Technology Review. Sammantaget ligger DeepSeeks framgång i kombinationen av olika tekniker, inte bara en enda. Branschkännare berömmer DeepSeek-teamets tekniska förmåga och noterar deras spetskompetens inom parallell utbildning och operatörsoptimering, och deras banbrytande resultat genom att förfina varje detalj. DeepSeeks öppen källkodsstrategi driver ytterligare den övergripande utvecklingen av stora modeller, och det förväntas att om liknande modeller expanderar till bilder, videor med mera, kommer detta avsevärt att stimulera efterfrågan inom hela branschen.

Möjligheter för tredjeparts resonemangstjänster

Data indikerar att DeepSeek sedan lanseringen har samlat på sig 22,15 miljoner dagliga aktiva användare (DAU) på bara 21 dagar, vilket motsvarar 41,6 % av ChatGPT:s användarbas och överstiger 16,95 miljoner dagliga aktiva användare av Doubao. Appen blir därmed den snabbast växande globala applikationen och toppar Apple App Store i 157 länder/regioner. Men medan användarna strömmade till i massor har cyberhackare obevekligt attackerat DeepSeek-appen, vilket orsakar betydande belastning på dess servrar. Branschanalytiker tror att detta delvis beror på att DeepSeek använder kort för träning, samtidigt som de saknar tillräcklig beräkningskraft för att resonera. En branschkännare informerade AI Technology Review: "De frekventa serverproblemen kan enkelt lösas genom att ta ut avgifter eller finansiera köp av fler maskiner; i slutändan beror det på DeepSeeks beslut." Detta innebär en avvägning mellan att fokusera på teknik kontra produktifiering. DeepSeek har till stor del förlitat sig på kvantkvantisering för självförsörjning, efter att ha fått lite extern finansiering, vilket resulterat i relativt lågt kassaflödestryck och en renare teknologisk miljö. Mot bakgrund av de ovannämnda problemen uppmanar vissa användare DeepSeek på sociala medier att höja användningsgränserna eller introducera betalda funktioner för att förbättra användarkomforten. Dessutom har utvecklare börjat använda det officiella API:et eller tredjeparts-API:er för optimering. DeepSeeks öppna plattform meddelade dock nyligen: "Nuvarande serverresurser är knappa och API-tjänstpåfyllningar har avbrutits."

 

Detta öppnar utan tvekan fler möjligheter för tredjepartsleverantörer inom AI-infrastruktursektorn. Nyligen har ett flertal inhemska och internationella molnjättar lanserat DeepSeeks modell-API:er – utländska jättarna Microsoft och Amazon var bland de första att ansluta sig i slutet av januari. Den inhemska ledaren, Huawei Cloud, tog det första steget och släppte resonemangstjänsterna DeepSeek R1 och V3 i samarbete med Silicon-baserade Flow den 1 februari. Rapporter från AI Technology Review indikerar att Silicon-baserade Flows tjänster har sett en tillströmning av användare, vilket i praktiken har "kraschat" plattformen. De tre stora teknikföretagen – BAT (Baidu, Alibaba, Tencent) och ByteDance – utfärdade också lågpriserbjudanden med begränsad tid från och med den 3 februari, vilket påminner om förra årets priskrig för molnleverantörer som utlöstes av DeepSeeks V2-modelllansering, där DeepSeek började kallas "prisslaktaren". Molnleverantörernas frenetiska agerande återspeglar de tidigare starka banden mellan Microsoft Azure och OpenAI, där Microsoft 2019 gjorde en betydande investering på 1 miljard dollar i OpenAI och skördade frukterna efter ChatGPT:s lansering 2023. Denna nära relation började dock slitas ut efter att Meta lanserade Llama med öppen källkod, vilket gjorde det möjligt för andra leverantörer utanför Microsoft Azure-ekosystemet att konkurrera med deras stora modeller. I det här fallet har DeepSeek inte bara överträffat ChatGPT vad gäller produktvärme utan har också introducerat modeller med öppen källkod efter o1-lanseringen, liknande entusiasmen kring Llamas återupplivande av GPT-3.

 

I verkligheten positionerar sig molnleverantörer också som trafikportar för AI-applikationer, vilket innebär att fördjupade band med utvecklare leder till förebyggande fördelar. Rapporter visar att Baidu Smart Cloud hade över 15 000 kunder som använde DeepSeek-modellen via Qianfan-plattformen på modellens lanseringsdag. Dessutom erbjuder flera mindre företag lösningar, inklusive Silicon-based Flow, Luchen Technology, Chuanjing Technology och olika AI-infrastrukturleverantörer som har lanserat stöd för DeepSeek-modeller. AI Technology Review har lärt sig att nuvarande optimeringsmöjligheter för lokaliserade distributioner av DeepSeek huvudsakligen finns inom två områden: det ena är att optimera för MoE-modellens gleshetsegenskaper med hjälp av en blandad resonemangsmetod för att distribuera MoE-modellen med 671 miljarder parametrar lokalt samtidigt som man använder hybrid GPU/CPU-inferens. Dessutom är optimeringen av MLA avgörande. DeepSeeks två modeller står dock fortfarande inför vissa utmaningar när det gäller distributionsoptimering. "På grund av modellens storlek och många parametrar är optimering verkligen komplex, särskilt för lokala implementeringar där det kommer att vara utmanande att uppnå en optimal balans mellan prestanda och kostnad", konstaterade en forskare från Chuanjing Technology. Det största hindret ligger i att övervinna begränsningar i minneskapacitet. "Vi använder en heterogen samarbetsmetod för att fullt ut utnyttja processorer och andra beräkningsresurser, och placerar endast de icke-delade delarna av den glesa MoE-matrisen på CPU/DRAM för bearbetning med hjälp av högpresterande CPU-operatorer, medan de täta delarna stannar kvar på GPU:n", förklarade han vidare. Rapporter tyder på att Chuanjings ramverk med öppen källkod, KTransformers, huvudsakligen injicerar olika strategier och operatorer i den ursprungliga Transformers-implementeringen genom en mall, vilket avsevärt förbättrar inferenshastigheten med hjälp av metoder som CUDAGraph. DeepSeek har skapat möjligheter för dessa startups, eftersom tillväxtfördelarna blir uppenbara; många företag har rapporterat märkbar kundtillväxt efter lanseringen av DeepSeek API och fått förfrågningar från tidigare kunder som letar efter optimeringar. Branschkännare har noterat: "Tidigare var relativt etablerade kundgrupper ofta låsta till standardiserade tjänster från större företag, starkt bundna av deras kostnadsfördelar på grund av skala. Men efter att ha slutfört driftsättningen av DeepSeek-R1/V3 före vårfestivalen fick vi plötsligt samarbetsförfrågningar från flera välkända kunder, och även tidigare vilande kunder initierade kontakt för att introducera våra DeepSeek-tjänster." För närvarande verkar det som att DeepSeek gör modellinferensprestanda allt viktigare, och med ett bredare införande av stora modeller kommer detta att fortsätta att påverka utvecklingen inom AI-infrastrukturbranschen avsevärt. Om en modell på DeepSeek-nivå kunde driftsättas lokalt till en låg kostnad, skulle det i hög grad hjälpa myndigheter och företag i digital transformation. Utmaningar kvarstår dock, eftersom vissa kunder kan ha höga förväntningar på stora modellfunktioner, vilket gör det tydligare att det blir avgörande att balansera prestanda och kostnad vid praktisk driftsättning. 

För att utvärdera om DeepSeek är bättre än ChatGPT är det viktigt att förstå deras viktigaste skillnader, styrkor och användningsområden. Här är en omfattande jämförelse:

Funktion/aspekt DeepSeek ChatGPT
Äganderätt Utvecklad av ett kinesiskt företag Utvecklad av OpenAI
Källmodell Öppen källkod Egenutvecklad
Kosta Gratis att använda; billigare API-åtkomstalternativ Prenumerations- eller betalningsbaserad prissättning
Anpassning Mycket anpassningsbar, vilket gör att användare kan justera och bygga vidare på den Begränsad anpassning tillgänglig
Prestanda i specifika uppgifter Utmärker sig inom vissa områden som dataanalys och informationsinhämtning Mångsidig med starka resultat inom kreativt skrivande och konversationsuppgifter
Språkstöd Starkt fokus på kinesiskt språk och kultur Brett språkstöd men USA-centrerat
Utbildningskostnad Lägre utbildningskostnader, optimerade för effektivitet Högre utbildningskostnader, vilket kräver betydande beräkningsresurser
Svarsvariation Kan erbjuda olika svar, möjligen påverkade av geopolitiska sammanhang Konsekventa svar baserade på träningsdata
Målgrupp Riktar sig till utvecklare och forskare som vill ha flexibilitet Riktar sig till vanliga användare som söker konversationsmöjligheter
Användningsfall Effektivare för kodgenerering och snabba uppgifter Perfekt för att generera text, besvara frågor och föra dialog

Ett kritiskt perspektiv på "Att störa Nvidia"

För närvarande anpassar sig, förutom Huawei, även flera inhemska chiptillverkare som Moore Threads, Muxi, Biran Technology och Tianxu Zhixin till DeepSeeks två modeller. En chiptillverkare berättade för AI Technology Review: "DeepSeeks struktur visar innovation, men det är fortfarande en juristexamen. Vår anpassning till DeepSeek är främst inriktad på resonemangsapplikationer, vilket gör den tekniska implementeringen ganska enkel och snabb." MoE-metoden kräver dock högre krav när det gäller lagring och distribution, i kombination med att säkerställa kompatibilitet vid driftsättning med inhemska chip, vilket presenterar många tekniska utmaningar som behöver lösas under anpassningen. "För närvarande matchar den inhemska beräkningskraften inte Nvidia i användbarhet och stabilitet, vilket kräver originalfabriksmedverkan för installation av programvarumiljö, felsökning och grundläggande prestandaoptimering", sa en branschpraktiker baserat på praktisk erfarenhet. Samtidigt, "På grund av den stora parameterskalan för DeepSeek R1 kräver den inhemska beräkningskraften fler noder för parallellisering. Dessutom ligger de inhemska hårdvaruspecifikationerna fortfarande något efter; till exempel kan Huawei 910B för närvarande inte stödja FP8-inferensen som introducerades av DeepSeek." En av höjdpunkterna med DeepSeek V3-modellen är introduktionen av ett FP8-ramverk för blandad precisionsträning, vilket har validerats effektivt på en extremt stor modell, vilket markerar en betydande prestation. Tidigare har stora aktörer som Microsoft och Nvidia föreslagit liknande arbete, men tvivel kvarstår inom branschen gällande genomförbarheten. Det är underförstått att FP8:s främsta fördel jämfört med INT8 är att kvantisering efter träning kan uppnå nästan förlustfri precision samtidigt som inferenshastigheten avsevärt förbättras. Jämfört med FP16 kan FP8 uppnå upp till dubbel acceleration på Nvidias H20 och över 1,5 gånger acceleration på H100. Det är värt att notera att i takt med att diskussionerna kring trenden med inhemsk beräkningskraft plus inhemska modeller tar fart, blir spekulationer om huruvida Nvidia skulle kunna störas och om CUDA-vallgraven skulle kunna kringgås allt vanligare. Ett obestridligt faktum är att DeepSeek verkligen har orsakat en betydande minskning av Nvidias marknadsvärde, men denna förändring väcker frågor om Nvidias integritet för avancerad beräkningskraft. Tidigare accepterade narrativ om kapitaldriven beräkningsackumulering utmanas, men det är fortfarande svårt för Nvidia att helt ersättas i träningsscenarier. Analys av DeepSeeks djupa användning av CUDA visar att flexibilitet – som att använda SM för kommunikation eller direkt manipulera nätverkskort – inte är genomförbart för vanliga GPU:er. Branschsynpunkter betonar att Nvidias vallgrav omfattar hela CUDA-ekosystemet snarare än bara CUDA självt, och PTX-instruktionerna (Parallel Thread Execution) som DeepSeek använder är fortfarande en del av CUDA-ekosystemet. "På kort sikt kan Nvidias beräkningskraft inte kringgås – detta är särskilt tydligt vid träning; dock kommer det att vara relativt lättare att använda inhemska kort för resonemang, så framstegen kommer sannolikt att gå snabbare. Anpassningen av inhemska kort fokuserar främst på inferens; ingen har ännu lyckats träna en modell av DeepSeeks prestanda på inhemska kort i stor skala", anmärkte en branschanalytiker till AI Technology Review. Sammantaget är omständigheterna, ur ett inferensperspektiv, uppmuntrande för inhemska stora modellchip. Möjligheterna för inhemska chiptillverkare inom inferensområdet är mer uppenbara på grund av utbildningens alltför höga krav, vilket hindrar inträde. Analytiker menar att det räcker med att bara utnyttja inhemska inferenskort; om nödvändigt är det möjligt att förvärva en ytterligare maskin, medan utbildningsmodeller innebär unika utmaningar – att hantera ett ökat antal maskiner kan bli betungande, och högre felfrekvenser kan påverka utbildningsresultaten negativt. Utbildning har också specifika krav på klusterskala, medan kraven på kluster för inferens inte är lika stränga, vilket underlättar GPU-kraven. För närvarande överträffar inte prestandan hos Nvidias enda H20-kort Huaweis eller Cambrians; dess styrka ligger i klusterbildning. Baserat på den övergripande effekten på marknaden för beräkningskraft noterade grundaren av Luchen Technology, You Yang, i en intervju med AI Technology Review: "DeepSeek kan tillfälligt undergräva etableringen och uthyrningen av ultrastora utbildningsberäkningskluster. På lång sikt, genom att avsevärt minska kostnaderna i samband med utbildning, resonemang och applikationer för stora modeller, kommer marknadsefterfrågan sannolikt att öka. Efterföljande iterationer av AI baserat på detta kommer därför att kontinuerligt driva en ihållande efterfrågan på marknaden för beräkningskraft." Dessutom är "DeepSeeks ökade efterfrågan på resonemangs- och finjusteringstjänster mer kompatibel med det inhemska beräkningslandskapet, där den lokala kapaciteten är relativt svag, vilket bidrar till att minska slöseri från lediga resurser efter klusterupprättandet. Detta skapar livskraftiga möjligheter för tillverkare på olika nivåer av det inhemska beräkningsekosystemet." Luchen Technology har samarbetat med Huawei Cloud för att lansera DeepSeek R1-serien av resonemangs-API:er och molnavbildningstjänster baserade på inhemsk beräkningskraft. You Yang uttryckte optimism inför framtiden: "DeepSeek ingjuter förtroende för inhemskt producerade lösningar, vilket uppmuntrar till större entusiasm och investeringar i inhemsk beräkningskapacitet framöver."

微信图片_20240614024031.jpg1

Slutsats

Huruvida DeepSeek är "bättre" än ChatGPT beror på användarens specifika behov och mål. För uppgifter som kräver flexibilitet, låg kostnad och anpassningsmöjligheter kan DeepSeek vara överlägset. För kreativt skrivande, allmänna frågor och användarvänliga konversationsgränssnitt kan ChatGPT ta ledningen. Varje verktyg tjänar olika syften, så valet beror i hög grad på det sammanhang i vilket de används.

Hitta ELV-kabellösning

Kontrollkablar

För BMS, BUS, industri och instrumentkabel.

Strukturerat kabelsystem

Nätverk och data, fiberoptisk kabel, patchkabel, moduler, frontplatta

Översikt över utställningar och evenemang 2024

16-18 april 2024 Mellanöstern-Energi i Dubai

16-18 april 2024 Securika i Moskva

9 maj 2024 LANSERING AV NYA PRODUKTER OCH TEKNOLOGIER i Shanghai

22-25 oktober 2024 SECURITY CHINA i Peking

19-20 november 2024 CONNECTED WORLD KSA


Publiceringstid: 10 februari 2025