Očakáva sa, že OpenAI čoskoro vydá model Sora 2 AI pre video. Sora 2 bude čeliť silnej konkurencii od modelu Veo 3 od spoločnosti Google. Veo 3 už ponúka funkcie, ktoré Sora nemá, a OpenAI bude musieť vylepšiť to, čo Sora dokáže, aj to, ako ľahko sa používa, aby prilákala potenciálnych zákazníkov.
Zdá sa, že OpenAI finalizuje plány na vydanie Sora 2, ďalšej iterácie svojho modelu prevodu textu na video, na základe odkazov nájdených na serveroch OpenAI.
Nič nebolo oficiálne potvrdené, ale existujú náznaky, že Sora 2 bude rozsiahly upgrade zameraný priamo na AI video model Veo 3 od spoločnosti Google. Nie je to len pretekanie sa v generovaní krajších pixelov; ide o zvuk a zážitok z produkcie toho, čo si používateľ predstavuje pri písaní výzvy.
Sora od OpenAI zapôsobila na mnohých, keď debutovala so svojimi vysoko kvalitnými obrázkami. Išlo však o nemé filmy. Ale keď tento rok debutoval Veo 3, predviedol krátke klipy s nahratým a synchronizovaným prehovorom a okolitým zvukom. Nielenže ste mohli sledovať, ako muž nalieva kávu spomalene, ale mohli ste tiež počuť jemné špliechanie tekutiny, cinkanie keramiky a dokonca aj bzukot jedálne okolo digitálnej postavy.
Aby Sora 2 vynikla ako viac než len horšia možnosť k Veo 3, bude musieť OpenAI zistiť, ako vpliesť uveriteľné hlasy, zvukové efekty a okolité zvuky do ešte lepších verzií svojich vizuálov. Dostať zvuk správne, najmä synchronizáciu pier, je zložité. Väčšina AI video modelov vám dokáže ukázať tvár, ktorá hovorí slová. Kúzelný trik je, aby to vyzeralo, že tie slová skutočne pochádzajú z tejto tváre.
Nejde o to, že Veo 3 je dokonalý v priraďovaní zvuku k obrazu, ale existujú príklady videí s prekvapivo tesnou koordináciou zvuku a úst, hudbou na pozadí, ktorá zodpovedá nálade, a efektmi, ktoré zodpovedajú zámeru videa.
Je pravda, že maximum osem sekúnd na video obmedzuje rozsah úspechu alebo neúspechu, ale vernosť scéne je nevyhnutná pred zvážením trvania. A je ťažké poprieť, že dokáže vytvárať videá, ktoré vyzerajú aj znejú ako skutočné mačky skáčuce z vysokých skokanských mostíkov do bazéna. Aj keď Sora 2 dokáže predĺžiť na 30 sekúnd alebo viac so stálou kvalitou, je ľahké si predstaviť, že priláka používateľov, ktorí hľadajú viac priestoru na vytváranie AI videí.
Sora 2 a jej filmová misia.
Sora od OpenAI dokáže spracovať až 20 sekúnd alebo viac kvalitného videa. A keďže je zabudovaná do rozhrania ChatGPT, môžete z nej urobiť súčasť väčšieho projektu. Táto flexibilita je významná pre pomoc Sore vyniknúť, ale absencia zvuku je pozoruhodná. Aby Sora 2 priamo konkurovala Veo 3, bude musieť nájsť svoj hlas. Nielen nájsť ho, ale aj ho plynulo vpliesť do videí, ktoré produkuje. Sora 2 môže mať skvelý zvuk, ale ak nemôže prekonať plynulý spôsob, akým sa zvuk Veo 3 spája s jeho vizuálmi, nemusí to byť dôležité.
Zároveň, ak bude Sora 2 príliš dobrá, môže to spôsobiť vlastné problémy. S každou novou generáciou AI video modelov existuje väčšie znepokojenie nad stieraním hranice s realitou. Sora aj Veo 3 nedovoľujú výzvy zahŕňajúce skutočných ľudí, násilie alebo obsah chránený autorským právom. Ale pridanie zvuku ponúka úplne nový rozmer kontroly nad pôvodom a používaním realistických hlasov.
Ďalšou veľkou otázkou je cena. Spoločnosť Google má Veo 3 za platobnou stenou Gemini Advanced a skutočne sa musíte prihlásiť na odber AI Ultra na úrovni 250 dolárov mesačne, ak chcete používať Veo 3 neustále. OpenAI môže podobným spôsobom zviazať prístup k Sora 2 do úrovní ChatGPT Plus a Pro, ale ak môže ponúknuť viac lacnejšej úrovni, pravdepodobne rýchlo rozšíri svoju používateľskú základňu.
Pre priemerného človeka nástroj AI pre video, ku ktorému sa obráti, bude závisieť od tejto ceny, ako aj od jednoduchosti použitia, rovnako ako od funkcií a kvality videa. OpenAI musí urobiť veľa, ak má byť Sora 2 viac než len tichý výkyv v AI pretekoch, ale vyzerá to tak, že čoskoro zistíme, ako dobre dokáže konkurovať.
erichs211@gmail.com (Eric Hal Schwartz)