為Sora氪金200美元后,AI創(chuàng)作者們后悔嗎?
“還記得2024年2月16日,大過年的,大家興奮得一夜沒睡,被Sora放出來的Demo震驚?煲荒赀^去了,奧爾特曼終于放出了Sora,眼前一黑的是,訂閱可以無限生成1080p視頻的pro模式高達(dá)200刀!”AIGC創(chuàng)作者陳微感慨。
陳微(@尾鰭Vicky)畢業(yè)于北京電影學(xué)院,是一名青年導(dǎo)演兼編劇,同時也是AIGC創(chuàng)作領(lǐng)域的KOL,與多個視頻生成平臺都有合作。12月10日,Sora發(fā)布的第一時間陳微就“殺”進(jìn)了網(wǎng)址注冊,盡管價格昂貴,但畢竟Sora是第一個放出產(chǎn)品樣片的DiT產(chǎn)品,“硬著頭皮都在下單”。
在剛放出網(wǎng)址的那晚,Sora訪問量暴增,官方在10日凌晨停止注冊,而在臨關(guān)閉之前,與陳微一樣成功注冊的還有AI Talk主理人、AIGC創(chuàng)作者汗青和AI博主@秋芝2046,這些創(chuàng)作者群體是未來視頻生成的主流客戶。為Sora“氪”近1500元,能出什么樣的效果,錢花得值不值?
在經(jīng)歷了將近一年DiT技術(shù)井噴式爆發(fā)之后,創(chuàng)作者們對Sora的期待值已經(jīng)沒有那么高,國內(nèi)的可靈、即夢、海螺以及國外的Runway、Luma等各種DiT架構(gòu)的視頻模型效果已經(jīng)不差。盡管如此,Sora也未達(dá)到很多人的預(yù)期,雖然產(chǎn)品體驗上有亮點,但底層能力和同類產(chǎn)品沒有拉開差距,肢體消失、東西亂飛的畫面仍然存在,也和所有的AI視頻一樣需要“抽卡”。
上海交通大學(xué)電子系教授、博導(dǎo)倪冰冰也體驗了Sora,他對第一財經(jīng)表示,團(tuán)隊從幾個維度對Sora以及幾個頭部的國產(chǎn)視頻生成工具進(jìn)行對比,發(fā)現(xiàn)這次的Sora版本并不表現(xiàn)得比國產(chǎn)模型好,甚至在一些方面如一致性上,顯著不如國產(chǎn)模型。
視頻生成賽道還在繼續(xù)卷,一年里國內(nèi)外已經(jīng)發(fā)布了數(shù)十個產(chǎn)品,在年末這一趨勢仍未停止,谷歌剛剛迭代推出了Veo2,不少人覺得在物理規(guī)律的模擬上比Sora更好。但未來誰能留在牌桌,現(xiàn)在還無法下定論。
起大早趕晚集
年初Sora推出時大家驚呼“現(xiàn)實不存在了”,年末,“難產(chǎn)”10個月的Sora終于正式向用戶開放。開放初期不少關(guān)鍵詞還是 “王者歸來”,但隨著更多用戶氪金體驗后,評價很快反轉(zhuǎn),失望、不及預(yù)期是更多人的反饋。
“那天晚上發(fā)布之后,部分媒體是為了趕早,加上當(dāng)時很卡頓,沒有真正測試它的效果。第二天我們真正去測試的人刷完了積分,體驗了每個功能點后,我們認(rèn)為它生成失敗率很高,并沒有之前預(yù)期的驚艷!标愇Ⅲw驗后認(rèn)為,Sora的故事板功能和文生視頻確實很好,然而,其圖生視頻和整體模型并未達(dá)到預(yù)期,“畢竟國內(nèi)這類AI視頻模型平臺大家都已經(jīng)用了這么久了”。
視頻生成模型往往需要生成多次才能得到一個可用的片段,業(yè)內(nèi)將此稱之為“抽卡”。 陳微發(fā)現(xiàn),Sora的抽卡頻次仍然很高,“我的Demo中可以看到它無法區(qū)分物理方向,例如讓一只狐貍向前行走,它會向后跑,女孩子頭發(fā)飄動的物理識別不佳”。
秋芝對記者表示,年初出來時Sora帶來的震撼幾乎是全民知曉的,放出的素材也是之前沒有見過的,OpenAI將大家的期待值拉得非常高,但發(fā)布后卻發(fā)現(xiàn),底層模型能力并未拉開差距,此前提出的世界模型、真正理解物理規(guī)律等方面的能力都還沒有。
“Sora的不及預(yù)期是可以預(yù)見的!蹦矨I公司產(chǎn)品經(jīng)理布萊恩表示,Sora的問題在于,文生視頻能理解的概念有限,整體出片率低,復(fù)雜場景生成的東西基本用不了,而圖生視頻會嚴(yán)重偏離原始圖片的風(fēng)格,場景之間連貫性不足。商業(yè)化是所有產(chǎn)品都需要考量的因素,布萊恩認(rèn)為,Sora目前的文生視頻也還不具備商業(yè)化的條件。
Sora之所以引來使用者如此多的吐槽,更大原因是其“錯誤的時間,并不領(lǐng)先的效果”,Sora推遲發(fā)布的這10個月,國內(nèi)外一批視頻大模型相繼跟隨DiT架構(gòu)路線發(fā)布新產(chǎn)品,甚至經(jīng)歷了多輪快速迭代,而此時趕了個晚集的Sora,并沒有取得領(lǐng)先。
今年AI圈的視頻生成大戰(zhàn)從Sora開始,4月國內(nèi)生數(shù)科技發(fā)布視頻大模型Vidu,6月快手發(fā)布視頻生成模型可靈,Luma AI發(fā)布Dream Machine,Runway在7月宣布Gen-3 Alpha向所有用戶開放,同月愛詩科技發(fā)布PixVerse V2,隨后智譜正式發(fā)布清影視頻……短短一年行業(yè)目睹了幾十款視頻生成模型的問世。
在眾多競爭者中,目前國內(nèi)創(chuàng)作者用得較多的頭部產(chǎn)品包括字節(jié)跳動的即夢、快手的可靈、Minimax的海螺,在國外則有Runway、Luma等。
倪冰冰是國內(nèi)最早開展視覺內(nèi)容智能生成研究的學(xué)者之一。他告訴記者,團(tuán)隊從細(xì)節(jié)保留、物理規(guī)律遵守、語義正確性、轉(zhuǎn)場一致性等幾個維度對Sora以及幾個頭部的國產(chǎn)視頻生成工具進(jìn)行對比,得出的結(jié)論是在這些維度上,這次的Sora版本并不表現(xiàn)得比國產(chǎn)模型好,甚至在一些方面比如一致性上,比國產(chǎn)模型顯著不如。
“當(dāng)下國內(nèi)的AI視頻產(chǎn)品追得很緊、也很卷,大家已經(jīng)看過太多好的效果了,隨手應(yīng)付的4秒時代已經(jīng)回不去了。”陳微表示,除了模型能力,用戶也很在乎抽卡率、交互、套餐性價比等等,Sora目前不管從哪個角度來對比,都沒有足夠優(yōu)勢。她對記者表示,如果純粹只是為了做AI視頻,200美元別買,20美元也不太有必要買。
智譜CEO張鵬在一場論壇上評估Sora時指出,Sora的效果離自己的預(yù)期有一點偏差。如果看技術(shù)指標(biāo),國內(nèi)有的視頻生成模型不比Sora差。但視頻模型的比拼不是簡單地對比參數(shù),而是如何產(chǎn)生實際的應(yīng)用、產(chǎn)生生產(chǎn)力。張鵬認(rèn)為,Sora這次發(fā)布把很大的精力放在了產(chǎn)品而非模型上,比如視頻編輯能力、工作流,這是面向用戶需求的轉(zhuǎn)變。
此次Sora展示了一些新功能,包括用戶普遍反饋好用的故事板功能,可以用文字、圖片、視頻更精準(zhǔn)地控制同段時間內(nèi)的鏡頭運動,以及可以用recut(重新剪輯)功能修整視頻重新擴(kuò)展生成,Remix工具可以替換、刪除或重新設(shè)計視頻中的元素,Loop工具則可以生成無縫銜接的重復(fù)視頻等等。
這些新功能讓Sora生成的視頻方向更加可控。不過,陳微認(rèn)為,在圖生模型能力這么差的前提下,這些功能對她來說“都是白搭”。她提到,目前大家的工作流仍然是依靠圖生視頻,因為商業(yè)化必須畫面可控、穩(wěn)定和一致,Sora費勁心思將功能和交互設(shè)計得很有新意,但核心的圖生模型能力這么差是很大一個問題。
200美元值不值
“腸子都悔青了,還我200刀。”有用戶體驗Sora后在社交媒體反饋?紤]到Sora并沒有大幅領(lǐng)先競品,有從業(yè)者認(rèn)為,這個價格設(shè)計過于昂貴了。
“如果不是剛需,月費近1500元確實有些昂貴!标愇⒈硎荆袠I(yè)其他同類競品的價格也并不便宜,作為商業(yè)化團(tuán)隊是能負(fù)擔(dān)這一支出的。此外,200美元是一個ChatGPT Pro會員入場券,除了能無限生成視頻外,還能無限制體驗OpenAI推出的GPT-4o和o1、新推出的通話功能等。
“作為AI重度使用者的創(chuàng)作者來說,200美元是劃算的!鼻镏ヒ舱J(rèn)為。
此次Sora并沒有單獨作為產(chǎn)品定價,OpenAI給出的方案是,Sora Turbo將免費提供給ChatGPT Plus和Pro用戶,每月20美元(約合人民幣145元)的Plus用戶,每月最多可以生成50個480P分辨率的優(yōu)先視頻;Pro訂閱者則最多可生成500個1080p的優(yōu)先視頻,此外慢速視頻無限量生成,可下載無水印版視頻,對應(yīng)每月費用為200美元(約合1450元)。
不過,創(chuàng)作者告訴記者,500個優(yōu)先視頻是保守估計,由于Sora采用的是積分制定價策略,需要耗費的積分因分辨率和持續(xù)時間而異,如果都是生成較高質(zhì)量的情況下,大概只能生成幾十條視頻。不過,在優(yōu)先視頻用完之后,創(chuàng)作者普遍認(rèn)為,慢速視頻目前也并不慢,2-3分鐘即可生成結(jié)果,影響并不大。
陳微經(jīng)歷了近兩年視頻模型的發(fā)展,她對價格已經(jīng)有了預(yù)期,例如,國外頭部視頻模型Runway的無限訂閱一個月費用是95美元(約692人民幣),國內(nèi)視頻模型海螺的無限生成高級會員價格是每月666元,快手的可靈最高檔會員是666元,包含800個視頻生成,沒有無限生成的套餐。
陳微此前從事的是傳統(tǒng)影視,“以前拍攝時制作費很高,例如租攝影機(jī)的費用、人員工資以及場景費等,制作視頻動輒花費幾千甚至上萬元。”她認(rèn)為,對于非專業(yè)用戶而言,只是為新鮮購買完之后就會感覺價格偏貴,但對于從事專業(yè)視頻制作的人來說,從各個平臺購買會員也是正常費用支出,制作商業(yè)作品都會承擔(dān)相應(yīng)的費用。
AI Talk是國內(nèi)第一批使用AI制作視頻的公司,背后的主理人汗青畢業(yè)于清華美院,在互聯(lián)網(wǎng)大廠經(jīng)歷了跌宕起伏的十年后,他選擇加入這一輪AI創(chuàng)業(yè)潮流,從事AI數(shù)字藝術(shù)創(chuàng)作。
談及Sora的價格,汗青對記者表示,作為一個有相對健康現(xiàn)金流的團(tuán)隊,對這些商品的價格并不敏感,“只要有一個商業(yè)合作,成本就能覆蓋住,最終依靠AI工具賺取的肯定不止200美元。它會成為我的成本,比我招一位員工的價格便宜很多!
在Sora開放第一天,汗青就充值了Pro會員,在充分體驗后他認(rèn)為,Sora確實有做得很糟糕的地方,但是同時他也看到了模型的潛力。在他用Sora完成的一支視頻中,有兩段畫面讓他印象深刻。
“其中一部分是獨角獸展翅往上飛的那一段,還有一個小朋友坐在購物車?yán)锿斑M(jìn)的特寫畫面,跑了20秒人物表情都很真實!痹谶@兩段畫面里,汗青看到了Sora模型更大的潛力,他認(rèn)為,如果能夠有更多時間優(yōu)化一些點,Sora的模型或許會有更大提升。
盡管OpenAI這家公司最近所做的一系列事情都不靠譜,但汗青認(rèn)為,它在技術(shù)上的累積確實不能小覷。另一點是美學(xué)問題,Sora文生視頻的畫面質(zhì)量在美學(xué)上是較為突出的,如果對畫面美感要求較高,“開卡”的成功率會遠(yuǎn)大于其他模型,這是汗青目前體驗到的Sora的優(yōu)勢。
一片吐槽之聲中,Sora也并不是沒有優(yōu)點,在此次推出的眾多產(chǎn)品功能中,創(chuàng)作者們不少都提到了recut(重新剪輯)功能和故事板功能在行業(yè)里的創(chuàng)新。
重新剪輯并非是以往影視創(chuàng)作中的后期剪輯,“以一段7秒的視頻為例,Sora可以刪除視頻中的第1秒和第5秒,僅保留中間的4秒,并進(jìn)行一個平滑的延展視頻!焙骨啾硎,實際應(yīng)用非常方便,能解決本來需要圖生視頻做視頻連接的問題。
秋芝在Sora出來的那一晚上就用完了快速視頻的積分,充分測試后她認(rèn)為,在本身的模型上沒有太多突出的點,但意外的點是產(chǎn)品和功能做得較多。秋芝認(rèn)為,最大的亮點是故事板,這在其他同類競品上暫時沒有,是一種完全創(chuàng)新的模式。
以往一個視頻模型生成5-10秒鏡頭,只能用提示詞來“假裝”控制鏡頭運動,但Sora的故事板功能可以精確到創(chuàng)作者需要控制的秒數(shù)。以一段10秒的視頻為例,創(chuàng)作者可以精確到第2秒、第4秒和第6秒要出現(xiàn)什么畫面,并填寫需要的提示詞,由此創(chuàng)作者可以在10秒內(nèi)控制這個視頻大致走向。
陳微介紹,對于傳統(tǒng)電影而言,最重要的兩點一是畫面中演員的表演,其次就是場面調(diào)度,即鏡頭如何變化!叭绻茉10秒內(nèi)的每個點都寫清楚我需要什么畫面和鏡頭運動,這一故事板就在某種程度上實現(xiàn)了傳統(tǒng)電影制作中的場面調(diào)度功能,實現(xiàn)場景的可控。”
但遺憾的是,陳微提到,Sora目前只擅長通過文生視頻完成,而圖生視頻效果差強人意,且用戶給出的提示詞,模型不一定會完全遵守。
汗青認(rèn)為,Sora還值得肯定的一點是生成速度,即便優(yōu)先積分用完,Sora目前的慢速無限視頻生成的時間也并不算慢,“一條約15秒的視頻,大約一兩分鐘!睂τ诤骨噙@樣的商業(yè)創(chuàng)作者來說,這是一個值得付費的點,國內(nèi)部分平臺最高出現(xiàn)過需要等待超過20分鐘的情況。
“一般用戶可能不會介意快慢的事情,但我們的主要工作是不斷開卡,因此我非常介意開卡的效率。你不能讓我等待太久,時間成本較高,其次,創(chuàng)作想法會被消耗,靈感轉(zhuǎn)瞬即逝。”汗青說。
還未拉開差距
在眾多視頻模型中,創(chuàng)作者們未來會選擇哪些軟件?這一問題,大家目前都還無法回答,海內(nèi)外的頭部模型產(chǎn)品,創(chuàng)作者們都同時在接觸和嘗試,目前誰也無法確定幾十家模型大廠,最終哪個能取得勝利。
在創(chuàng)作者經(jīng)常使用的頭部產(chǎn)品中,陳微發(fā)現(xiàn),部分產(chǎn)品在某些細(xì)節(jié)上能表現(xiàn)得較好,但作為使用者而言,他們無法拉開本質(zhì)的差距,“原因在于他們使用的底層模型都是DiT或類DiT技術(shù),而細(xì)微差別可以通過抽卡來解決”。
目前國內(nèi)外更新的AI視頻模型大部分使用的都是DiT架構(gòu),核心問題在于,這一架構(gòu)下AI無法真正識別物理空間,會導(dǎo)致運動效果有誤差。陳微認(rèn)為,DiT架構(gòu)可能會比早期第一代視頻模型的運動效果更好,但實際上仍無法理解物理規(guī)律,圈內(nèi)經(jīng)常討論,如果AI視頻需要進(jìn)一步發(fā)展,可能還需要新的技術(shù)突破。
倪冰冰告訴第一財經(jīng)記者,目前基于DiT的方案,通過Scaling law(尺度定律)的思路去提升生成視頻的質(zhì)量,天花板是很明顯的。因為視頻空間維度太高,無法做到我們所期望的那種高精度、準(zhǔn)確性,也無法精確操控生成過程。
“解決這個問題的辦法還是要建立一個對視頻中所有對象實例及其屬性解耦的內(nèi)容表征方式,這也可以認(rèn)為是世界模型框架下的一種實現(xiàn)。在這種非像素的新表達(dá)下,可以訓(xùn)練高效的與對象和屬性對齊的生成式計算網(wǎng)絡(luò),才能從本質(zhì)上解決精度、可操控性和物理規(guī)律正確性的問題!蹦弑岬,自己的團(tuán)隊一直在做新的表征和計算形式。
在年中Minimax推出海螺視頻時,創(chuàng)始人閆俊杰曾對記者表示,做視頻模型“這件事還挺難的”。視頻的工作復(fù)雜度比做文本更難,因為視頻的上下文文本天然很長,一個5秒的視頻就有幾M。
“挑戰(zhàn)在于,之前基于文本建的這套底層基礎(chǔ)設(shè)施怎么來處理數(shù)據(jù),怎么來清洗數(shù)據(jù),以及怎么來標(biāo)注。”閆俊杰認(rèn)為,基礎(chǔ)設(shè)施需要升級,其次就是耐心,視頻開源內(nèi)容沒那么多,需要付出的耐心更大。
過去一年對于AI視頻生成來說是一個歷史性的時刻,但未來,視頻模型廠家需要解決的問題還有很多。行業(yè)判斷,視頻生成還處于一個早期階段,類比大語言模型,視頻生成還處在GPT-3左右的時代。
在未來,哪些廠商能堅持下來,用什么樣的技術(shù)生態(tài)走到最后?誰都不知道。
汗青的一個判斷是,未來的模型市場或許會是百花齊放的,并不會像互聯(lián)網(wǎng)大戰(zhàn)那樣,只有少數(shù)一兩家能夠留下。他發(fā)現(xiàn),每家模型的“性格”是不同的,就像不同的人有內(nèi)向、外向,有的可以多講一些,有些人講太多不好,模型也是一樣。
“如果我需要高寫實、高動態(tài)時可靈是一個優(yōu)勢,但當(dāng)我們制作采訪視頻時,不希望機(jī)位動作過大,這時它的高動態(tài)效果反而是負(fù)擔(dān)!焙骨嗾J(rèn)為,不同模型有它所擅長的東西,未來可能創(chuàng)作者不是要甩掉哪一家,而是如何與這些模型共同相處。
作者:劉曉潔
本網(wǎng)站所刊載信息,不代表中新經(jīng)緯觀點。 刊用本網(wǎng)站稿件,務(wù)經(jīng)書面授權(quán)。
未經(jīng)授權(quán)禁止轉(zhuǎn)載、摘編、復(fù)制及建立鏡像,違者將依法追究法律責(zé)任。
[京B2-20230170] [京ICP備17012796號-1]
違法和不良信息舉報電話:18513525309 報料郵箱(可文字、音視頻):zhongxinjingwei@chinanews.com.cn
Copyright ©2017-2024 jwview.com. All Rights Reserved
北京中新經(jīng)聞信息科技有限公司