近日,美國開放人工智能研究中心(OpenAI)推出的視頻生成模型Sora震驚了IT圈。
Sora目前展示出的功能十分強大,能夠根據(jù)用戶輸入的關鍵詞生成長達“60S”的視頻且視頻質量非常高。
1、Sora生成的視頻具有多樣化表現(xiàn)
(1)在原始視頻圖像數(shù)據(jù)直接訓練:過去,圖像和視頻生成需要將視頻調整標準要求,但Sora打破了這一常規(guī),可以直接在原始數(shù)據(jù)上進行訓練。
(2)采樣更靈活:Sora具備更靈活的采樣能力,無論是寬屏1920x1080p視頻、垂直1080x1920視頻,還是介于兩者之間的任何尺寸視頻,都能輕松應對,這意味著Sora可以為各種視頻生成要求匹配更恰當?shù)膬热荨?/span>
(3)改進構圖與框架:將Sora與一個將所有訓練視頻裁剪為方形的模型版本進行了比較。結果發(fā)現(xiàn),在正方形裁剪上訓練的模型有時會生成僅部分顯示主題的視頻。而Sora則能呈現(xiàn)出更加貼合的幀,充分展現(xiàn)了其在視頻生成領域的優(yōu)異性能。
(4)Sora具有圖像和視頻的多樣化提示,可以接受圖像或視頻等多樣形式的輸入。
2、Sora深化語言理解
研究員利用GPT技術將簡短的用戶提示轉換為更長的詳細轉譯, 并將其發(fā)送至模型,這一應用使得Sora能夠精準地按照關鍵詞生成高質量的視頻。
3、Sora具有新的模擬能力
在大規(guī)模訓練過程中,研究員發(fā)現(xiàn)Sora能夠模擬現(xiàn)實世界中的人物、動物和環(huán)境等方面,并且這些并沒有依賴于任何明確的3D建模、物體識別等歸納偏差,而是純粹通過模型的尺度擴展而自然展示的。
Sora的出現(xiàn),預示著一個全新的視覺敘事時代的到來,能夠依據(jù)關鍵詞,將人們的想象力轉化為動態(tài)畫面,而這種生成技術一旦得到場景化應用,將對各行各業(yè)帶來顛覆式的發(fā)展。
但Sora的行業(yè)發(fā)展之路無論從自身所需資源還是社會接受度都還需要度過一段艱難的時間。數(shù)據(jù)、算法和算力作為人工智能三素,也整體制約人工智能技術的發(fā)展。
算力作為人工智能技術發(fā)展的底層源動力,對大模型的訓練和推理至關重要,而服務器則是算力的底層載體。
針對大模型訓練,安擎基于“訓練服務器+推理服務器+存儲服務器”,推出“大模型算存解決方案”。
·EG8628G4·
安擎EG8628G4是一款面向云計算、大數(shù)據(jù)、AI等應用場景的高性能服務器,支持第四代英特爾?可擴展處理器。采用NVIDIA NVlink 互聯(lián)技術,在6U空間內支持最新計算模塊,單機AI性能達到16 PFlops,具有高擴展和高可用性。
·EG540S-G30·
安擎EG540S-G30是一款4U雙路存儲產品,支持Icelake全系列擴展處理器,整機可支持52個硬盤存儲槽位,單機可提供1PB的存儲空間。
安擎作為專業(yè)的AI服務器提供商,深耕AI服務器研產銷多年,具有五大系列產品(訓練服務器、推理服務器、邊緣服務器、存儲服務器、通用服務器),并擁有完備的供應鏈體系。
返回列表