OpenAI Sora問世:輸入關鍵字生成長達60秒影片與3D動畫

輸入關鍵字創建動態場景

OpenAI正在教授AI理解和模擬運動中的物理世界,目標是訓練模型來幫助人們解決需要現實世界互動的問題。
隆重介紹 Sora,輸入關鍵字轉視訊模型。 Sora 可以產生長達一分鐘的視頻,同時保持視覺品質並遵守用戶的提示。

提示詞:一位時尚女性走在充滿溫暖霓虹燈和動畫城市標誌的東京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子,拎著黑色皮夾。她戴著太陽眼鏡,塗著紅色口紅。她走路自信又隨興。街道潮濕且反光,在彩色燈光的照射下形成鏡面效果。許多行人走來走去。

如今,Sora模型目前可用於紅隊演練(Red teamers)以評估關鍵領域的危害風險。同時提供視覺藝術家、設計師和電影製作人使用,來獲取專業人士的回饋進行模型的校正,補足AI影像生成的缺點。

我們很早就分享了我們的研究進展,以便開始與 OpenAI 以外的人員合作並獲取回饋,讓大眾了解即將出現的人工智慧功能。

提示詞:鏡頭圍繞著一大堆老式電視旋轉,所有電視都顯示不同的節目- 20 世紀50 年代的科幻電影、恐怖電影、新聞、靜態、1970 年代的情景喜劇等,背景設置在紐約一家大型博物館畫廊內。

Sora 能夠產生具有多個角色、特定類型的運動以及主體和背景的準確細節的複雜場景。該模型不僅了解使用者在提示中提出的要求,還了解這些東西在物理世界中的存在方式。

提示詞:鏡頭跟隨一輛帶有黑色車頂行李架的白色老式SUV,它在陡峭的山坡上一條被松樹環繞的陡峭土路上加速行駛,輪胎揚起灰塵,陽光照射在SUV上行駛土路,給整個場景投射出溫暖的光芒。土路緩緩蜿蜒延伸至遠方,看不到其他汽車或車輛。道路兩旁都是紅杉樹,零星散落一片片綠意。從後面看,這輛車輕鬆地沿著曲線行駛,看起來就像是在崎嶇的地形上行駛。土路周圍是陡峭的丘陵和山脈,上面是清澈的藍天和縷縷雲彩。

該模型對語言有深入的理解,使其能夠準確地解釋提示並產生引人注目的字符來表達充滿活力的情感。 Sora 還可以在單一生成的影片中創建多個鏡頭,準確地保留角色和視覺風格。

當前的模型存在弱點,它可能難以準確模擬複雜場景的物理原理,並且可能無法理解因果關係的具體實例。例如,一個人可能咬了一口餅乾,但之後餅乾可能沒有咬痕。

該模型還可能混淆提示的空間細節,例如混淆左右,並且可能難以精確描述隨著時間推移發生的事件,例如遵循特定的相機軌跡。

提示詞:列印一個人跑步的場景,35 毫米電影膠片。

提示詞:動物或人可能會自發性出現,尤其是在包含許多實體的場景中。

安全性

在將Sora納入OpenAI產品之前,我們將採取幾項重要的安全步驟。我們正在與紅隊成員(虛假信息、仇恨內容和偏見等領域的專家)合作,將對該模型進行對抗性測試。

此外,我們正在開發工具來幫助檢測具有誤導性的內容,例如一個可以識別Sora生成視頻的檢測分類器。如果我們將該模型部署到OpenAI產品中,我們計劃在未來包含C2PA元數據。

除了開發新技術以準備部署外,我們還利用了我們為使用DALL·E 3的產品建立的現有安全方法,這些方法也適用於Sora。

例如,一旦納入OpenAI產品,我們的文本分類器將檢查並拒絕違反我們使用政策的文本輸入提示,例如那些要求極端暴力、性內容、仇恨圖像、名人肖像或他人知識產權的提示。我們還開發了強大的圖像分類器,用於審查生成的每個視頻幀,以確保其符合我們的使用政策,然後再顯示給用戶。

我們將與世界各地的政策制定者、教育工作者和藝術家進行交流,以了解他們的關切並找出這項新技術的正面應用案例。儘管進行了大量的研究和測試,但我們無法預測人們將如何以及將如何濫用我們的技術。這就是為什麼我們認為從實際使用中學習是創建和逐步釋放越來越安全的AI系統的關鍵組成部分。

提示詞:一隻可愛的快樂水獺穿著黃色救生衣自信地站在衝浪板上,沿著鬱鬱蔥蔥的熱帶島嶼附近碧綠的熱帶水域騎行,3D 數位渲染藝術風格。

研究技術

Sora 是一個擴散模型,它通過從一個看起來像靜態雜訊的視頻開始,逐步通過在許多步驟中去除噪音來生成影片。

Sora 能夠一次性生成整個影片,或者延長生成的影片以使其更長。通過讓模型一次性考慮多個幀,我們解決了一個具有挑戰的問題,即確保暫時離開主題,也保持不變。

與 GPT 模型類似,Sora 使用了一種變壓器架構,實現了優越的擴展性能。

我們將影片和圖像表示為稱為片段的較小數據單元集合,每個片段都類似於 GPT 中的一個令牌。通過統一數據表示方式,相較之前,我們可以在更廣泛的視覺數據上訓練擴散變壓器,跨越不同的持續時間、解析度和寬高比。

Sora 建立在 DALL·E 和 GPT 模型的過去研究基礎上。它使用了 DALL·E 3 中的重述技術,該技術涉及為視覺訓練數據生成高度描述性的標題。因此,該模型能夠更忠實地遵循使用者的文字指令生成影片。

除了能夠僅通過文字指令生成影片外,該模型還能夠使用現有的靜止圖像生成影片,準確地並且注重細節地為圖像的內容添加動畫。該模型還可以使用現有的視頻延長視頻或填補丟失的幀。

Sora 是能夠理解模擬現實世界的模型基礎,我們認為這將是實現AGI的重要里程碑。



關於Cinema 4D
Cinema 4D是專業的3D建模,動畫,模擬和渲染軟件解決方案。它的快速,強大,靈活和穩定的工具集使3D工作流程對於設計,運動圖形,VFX,AR / MR / VR,遊戲開發和所有類型的可視化專業人員而言更加易於訪問和高效。無論是單獨工作還是團隊合作,Cinema 4D都能產生驚人的效果。Cinema 4D的穩定性是不在話下的。我們的質量檢查和Beta測試人員會在發布所有新功能之前徹底檢查其所有功能。我們定期發布的免費服務包進一步優化了Cinema 4D,使我們能夠快速響應操作系統和驅動程序的變化!

關於MAXON
Maxon是專業3D建模、繪畫、動畫和渲染解決方案的開發商。2020年1月份,Maxon和Red Giant完成了兩家公司的合併。合併後公司屢獲殊榮的Cinema 4D、Redshift 3D和Red Giant產品已被廣泛使用,以幫助創建和渲染一切,從頂級故事片、電視節目和廣告中的驚人視覺效果,以及用於AAA遊戲的尖端遊戲電影甚至醫學插圖、建築和工業設計應用。可從網站及其全球分銷網絡直接獲得Maxon產品。Maxon是Nemetschek集團的一部分。 此處包含的所有商標均為其各自所有者的財產。


★台灣用戶若想訂閱Cinema 4D,請洽宙盟資訊(02)2659-2525
MAXON Cinema 4D 台灣區獨家總代理
宙盟資訊:02-2659-2525
業務團隊:sales@syzygia.com.tw
客服團隊:support@syzygia.com.tw



回最新消息