Čínsky AI startup DeepSeek šokoval svet v januári s AI modelom nazvaným R1, ktorý konkuroval najlepším rozsiahlym jazykovým modelom (LLM) od OpenAI a Anthropic. Model bol vytvorený za zlomok nákladov v porovnaní s konkurenciou, s použitím oveľa menšieho počtu Nvidia čipov a bol uvoľnený zadarmo. Teraz, len dva týždne po tom, čo OpenAI predstavila svoj najnovší model, GPT-5, DeepSeek prichádza s aktualizáciou svojho vlajkového modelu V3, ktorý podľa odborníkov dosahuje rovnaké výsledky ako GPT-5 v niektorých oblastiach a je strategicky nacenený tak, aby ho podkopal.
Nový model V3.1 od DeepSeek bol potichu vydaný v správe jednej z jeho skupín na WeChat, čínskej univerzálnej komunikačnej a sociálnej aplikácii, ako aj na platforme Hugging Face. Jeho príchod sa dotýka niekoľkých najvýznamnejších AI tém súčasnosti. DeepSeek je kľúčovou súčasťou rozsiahlejšieho čínskeho úsilia o vývoj, nasadenie a kontrolu pokročilých AI systémov bez toho, aby sa spoliehal na zahraničné technológie. Nový model V3 od DeepSeek je špeciálne vyladený tak, aby dobre fungoval na čínskych čipoch.
Hoci americké spoločnosti váhajú s prijatím modelov DeepSeek, v Číne a čoraz viac aj v iných častiach sveta sa rozsiahlo používajú. Dokonca aj niektoré americké firmy postavili aplikácie na modeli R1 od DeepSeek, ktorý je zameraný na odvodzovanie. Súčasne výskumníci varujú, že výstupy modelov sa často pridržiavajú naratívov schválených Čínskou komunistickou stranou, čo vyvoláva otázky o ich neutralite a dôveryhodnosti.
Čínske AI úsilie presahuje DeepSeek: jej priemysel zahŕňa aj modely ako Qwen od Alibaby, Kimi od Moonshot AI a Ernie od Baidu. Nové vydanie DeepSeek, ktoré prichádza krátko po GPT-5 od OpenAI – ktorého uvedenie nesplnilo vysoké očakávania priemyslu – zdôrazňuje odhodlanie Pekingu držať krok s poprednými americkými laboratóriami, alebo ich dokonca predbehnúť.
Úsilie spoločnosti DeepSeek určite drží americké laboratóriá v strehu. Generálny riaditeľ OpenAI, Sam Altman, počas nedávnej večere s novinármi uviedol, že rastúca konkurencia zo strany čínskych open-source modelov, vrátane DeepSeek, ovplyvnila rozhodnutie jeho spoločnosti vydať svoje vlastné open-weight modely.
„Bolo jasné, že ak to neurobíme my, svet bude postavený väčšinou na čínskych open-source modeloch,“ povedal Altman. „Bol to faktor v našom rozhodnutí, určite. Nebol jediný, ale veľmi to zavážilo.“
Okrem toho, USA udelili spoločnostiam Nvidia a AMD licencie na vývoz AI čipov špecifických pre Čínu – vrátane Nvidia H20 – ale len ak súhlasia s odovzdaním 15% príjmov z týchto predajov Washingtonu. Peking rýchlo reagoval snahou obmedziť nákupy čipov Nvidia po tom, čo ministerka obchodu Howard Lutnick povedala, že im nepredávajú to najlepšie, ani to druhé najlepšie, dokonca ani to tretie najlepšie.
Optimalizáciou DeepSeek pre čínske čipy spoločnosť signalizuje odolnosť voči americkým exportným kontrolám a snahu o zníženie závislosti na Nvidii. DeepSeek vo svojom príspevku na WeChat uviedol, že nový formát modelu je optimalizovaný pre „čoskoro vydané domáce čipy novej generácie“.
Altman varoval, že USA môžu podceňovať komplexnosť a závažnosť čínskeho pokroku v AI – a povedal, že samotné exportné kontroly pravdepodobne nie sú spoľahlivým riešením.
Technicky je na novom modeli DeepSeek pozoruhodné to, ako bol postavený, s niekoľkými vylepšeniami, ktoré by boli pre spotrebiteľov neviditeľné. Ale pre vývojárov robia tieto inovácie V3.1 lacnejším na prevádzku a univerzálnejším ako mnohé uzavreté a drahšie konkurenčné modely.
V3.1 je napríklad rozsiahly – 685 miliárd parametrov, čo je na úrovni mnohých špičkových modelov. Jeho dizajn „mixture-of-experts“ znamená, že pri odpovedi na akýkoľvek dotaz sa aktivuje iba zlomok modelu, čím sa znižujú náklady na výpočty pre vývojárov. A na rozdiel od skorších modelov DeepSeek, ktoré rozdeľovali úlohy, ktoré sa dali okamžite zodpovedať na základe predtrénovania modelu, od tých, ktoré vyžadovali postupné odvodzovanie, V3.1 kombinuje rýchle odpovede a odvodzovanie v jednom systéme.
GPT-5, ako aj najnovšie modely od Anthropic a Google, majú podobnú schopnosť. Ale len málo open-weight modelov to doteraz dokázalo. Hybridná architektúra V3.1 je „zďaleka najväčšia vlastnosť“, povedal Ben Dickson, technologický analytik a zakladateľ blogu TechTalks.
Iní poukazujú na to, že hoci je tento model DeepSeek menší skok ako model R1 spoločnosti – ktorý bol model odvodzovania destilovaný z pôvodného V3, ktorý šokoval svet v januári, nový V3.1 je stále pozoruhodný. Je dosť pôsobivé, že pokračujú v neradiálnych vylepšeniach, povedal William Falcon, zakladateľ a generálny riaditeľ vývojárskej platformy Lightning AI. Dodal však, že by očakával, že OpenAI zareaguje, ak jeho vlastný open-source model začne významne zaostávať, zdôraznil, že model DeepSeek sa vývojárom ťažšie dostáva do produkcie, zatiaľ čo verzia OpenAI sa dá pomerne ľahko nasadiť.
Pre všetky technické detaily však najnovšie vydanie DeepSeek zdôrazňuje skutočnosť, že AI sa čoraz viac považuje za súčasť tlejúcej technologickej studenej vojny medzi USA a Čínou. S ohľadom na to, ak čínske spoločnosti dokážu vybudovať lepšie AI modely za zlomok nákladov, americkí konkurenti majú dôvod obávať sa, že zostanú vpredu.
Sharon Goldman