語言就是現實!20個預言剖析OpenAI的Sora

2024-02-16 20:00 admin


作者|付夢珍

凌晨,OpenAI 介紹了其在 AI 視頻領域的新技術進展:我們打造了一種名爲Sora的文本到視頻模型。Sora能夠生成長達一分鐘的視頻,同時保持視覺質量和對用戶提示的遵循。

簡單來說,Sora可以根據簡單的提示和靜態圖像,生成包含多個角色的視頻畫面。此外,Sora還可以自己“腦補”、“擴展”現有視頻片段。

用詞語總結Sora,那就是:“60s超長長度”“單視頻多角度鏡頭”“充滿情感的角色”“高度擬真的細節”和“世界模型”。

這項技術一經發布,立刻引爆大衆,令無數人發出感嘆:

“OpenAI第三個大招——向所有影視公司拋出二向箔”

“徹底端掉視頻行業飯碗!OpenAI首個AI視頻模型炸裂登場”

“60秒一鏡到底驚人,世界模型真來了?”

“太炸了!OpenAI深夜發布,文字直接生成視頻!網友:我要失業了”

“OpenAI再次舉起屠刀,Sora血洗行業”

OpenAI 在官方網站特別指出,所有的視頻都是由 Sora 直接生成的,沒有做過後期調整。

OpenAI指出,Sora與 GPT 模型類似,也使用了diffusion transformer架構,是一種擴散型變換器模型。OpenAI將視頻和圖像的數據表示爲patch,類似GPT中的token。技術上,Sora生成的視頻中,主體可以在三維視頻中進行連續運動。

當無數人都在等待OpenAI 公測的時候,Sam Altman已經自己玩嗨了。

他發推瘋狂安利的同時,還親自下場爲網友生成視頻:你們隨意來prompt,我一一輸出。

展开全文

這時,Sam Altman的身份是剪輯師?攝影師?演員?還是導演?

去年,娛樂資本論在採訪AI創業者時,有人提出AI視頻將在今年迎來大爆發,前途不可限量。

沒想到,時間來得如此之快。

那么,Sora將會爲世界帶來哪些改變?

01 一段文字就能生成短片,視頻內容將會大規模爆發,原有的崗位結構將會發生變化,例如攝影師、剪輯將不再存在,編劇可以直接生成電影;

02 講故事的能力會越來越重要;

03 如果你不會講故事,那么從古書、小說中爬取故事的能力也會很重要,人類歷史上的大量文字內容,將會以視頻內容的形式再現;

04 Sora生成的內容,將會最先在短視頻領域爆火。因爲這個行業對技術的要求低,且Sora可以相對低成本地產出大量具備獵奇性的內容;

05 特效行業的諸多鏡頭可以直接使用AI生成;

06 以後拍戲不需要這么多演員了;

07 遊戲、動畫行業的制作成本將會被大大降低,建模過程可以直接省略了;

08 以後自己寫劇本、自己生成視頻,再加上人機交互的機器,《頭號玩家》的劇情會加速到來;

09 人人都有機會成爲AI導演;

10 Sora將會加速數字人、自動駕駛、智慧成本、元宇宙等行業的發展,降低了數字資產的成本;

11 AI視頻賽道將會迎來新的競爭點。此前被衆人看好的Pika、Runway需要重新思考發展方向;

12 當視頻被生成以後,世界是真實的可能性越來越微乎其微。繼電話、數字人詐騙後,新的詐騙手段也會層出不窮;

13 客觀來看,Sora的視頻現在還存在着不連貫幀數、卡幀、斷幀等問題,准確性不足等問題,但這些都會隨着技術的進步而解決。

VOL.1

世界模型意味着什么?

維特根斯坦在《邏輯哲學論》裏說,句子是實在的圖像語言,意思是句子、語言可以影射世界的真實狀態,語言就是我們的世界模型。

而現在,Sora已經通過大量的數據,能夠理解物理世界的運動規律,學會了關於3D幾何形狀和一致性的知識,通過運動、反射等方式,創建了一個包含物理規則、與真實世界接近的虛擬世界。

某種程度上來說,Sora已經可以像人一樣,對世界有了全面准確地認知。

例如,Sora在生成“色彩繽紛的魚類和海洋生物充斥的,由紙藝精心構建的珊瑚礁世界”爲主題的視頻中,可以自己通過運鏡拍攝,展現內容。

項目研究員Bill Peebles指出,“視頻中實際上發生了多次鏡頭轉換——這些鏡頭並非後期拼接而成,而是模型一氣呵成地生成的。我們並沒有特別指令它這么做,它卻能自動完成。”

VOL.2

Sora的成果

提示詞:一位時尚女性走在充滿溫暖霓虹燈和動畫城市標牌的東京街道上。她穿着黑色皮夾克、紅色長裙和黑色靴子,拎着黑色錢包。她戴着太陽鏡,塗着紅色口紅。她走路自信又隨意。街道潮溼且反光,在彩色燈光的照射下形成鏡面效果。許多行人走來走去。

一鏡到底的60秒視頻裏,主體人物和背景都十分穩定,且全景、特寫、鏡頭推拉搖移都有,有着復雜的攝影機運動。細節上水中的倒影也在變化。主體人物走動的時候,背景的招牌也在不斷發生變化。有氛圍,風格絢麗,堪比電影大片的質感。以後導演做創投的時候可以直接用AI生成短片,無需花高價拍攝了。

提示詞:一個美麗的剪影動畫展示了一只狼對着月亮嚎叫,感到孤獨,直到它找到狼群。

整個視頻通過藍色的背影和狼的剪影,極好地展現出了狼的孤獨,劇情上從一匹狼到多匹狼過渡自然,鏡頭語言上全景和中景、特寫交替切換。Sora不僅懂拍攝,還可以識別人類的情緒。

提示詞:與中國龍一起慶祝中國農歷新年的視頻。

龍的形象十分真實且符合節日氛圍,人群也很有春節的氛圍。

提示詞:一位24歲女子在魔法時刻站在馬拉喀什,眨眼的特寫鏡頭,70毫米拍攝的電影膠片,景深,生動的色彩,電影。

視頻中,人物的皮膚細節、睫毛都是十分逼真,和真人實拍幾乎沒有差別。

VOL.3

結語

Sora技術報告詳細內容可以看技術文檔:

https://openai.com/research/video-generation-models-as-world-simulators

OpenAI也宣布,將在今天晚些時候,更新技術論文。不過根據Openai之前的發布風格,當真正有用的東西出來的時候,他們只會公开有限的東西,就像GPT4本身到現在也沒有發布詳細的技術參數。

或許,當Sora最終跟大家見面,就是在GPT5和ChatGPT相結合發布的時候。先不用說那時會有多炸裂的改進,就算跟現在Pika或Gen-2相近的視頻生成功能,可以在ChatGPT不額外花錢使用,那也將會給用戶帶來很大的改變。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

標題:語言就是現實!20個預言剖析OpenAI的Sora

地址:https://www.sgitmedia.com/article/23501.html

相關閱讀: