美女裸体无遮挡黄污网站_亚洲精品成人无码中文毛片不卡_中文字幕制服狠久久日韩二区_91精品国产一区二区三区四区在线_国产夫妻自拍小视频_无码中文人妻在线一区二区三区

索尼黑科技專欄——AI聲音分離技術(shù)_專業(yè)音頻新聞_音響網(wǎng)新聞

發(fā)布日期:2021-08-09 11:15:50   瀏覽量 :1343
發(fā)布日期:2021-08-09 11:15:50  
1343

建立在堅實技術(shù)基礎(chǔ)上的創(chuàng)意娛樂公司

索尼,始終以“人”為本,在前沿技術(shù)領(lǐng)域不斷探索進(jìn)取。后疫情時代,索尼黑科技正式確立了3R戰(zhàn)略(真實(Reality)、實時(Real-time)和遠(yuǎn)程(Remote),致力于為內(nèi)容創(chuàng)作賦能,共同開創(chuàng)前所未有的娛樂表達(dá)方式。

“索尼黑科技”專欄將定期為您介紹最具代表性的索尼技術(shù)創(chuàng)新成果,探索如何“用創(chuàng)意和科技的力量感動世界”。本期將為您帶來的是——AI聲音分離技術(shù)

從混合音源中分離出單個聲音

聲音分離技術(shù)憑借AI實現(xiàn)巨大飛躍

聲音分離是一種技術(shù),它可以從混合的音源中提取出單個的聲音。這原本被認(rèn)為是一件非常困難的事,但在2013年,我們引入了索尼的AI技術(shù),在這一領(lǐng)域更進(jìn)一步。例如,在復(fù)原經(jīng)典電影、消除智能手機的噪音、實現(xiàn)音樂流媒體服務(wù)的實時卡拉OK功能等方面已經(jīng)取得了成果,我們期待未來它能應(yīng)用到更多領(lǐng)域。

受訪人資料

機器對人類能力的再現(xiàn)

Q AI聲音分離是一種什么樣的技術(shù)?

光藤祐基:AI聲音分離是一種技術(shù),它可以從音頻數(shù)據(jù)中去除不必要的噪音,只提取人聲或其他特定樂器的聲音。當(dāng)人類在聆聽一場多種聲音混合在一起的表演時,可以分辨出各個樂器,或者在進(jìn)行對話時,即使被一大群人包圍,我們也能自然而然地專注于一個聲音。這些都是人類獨有的能力,而直到近來,計算機要做到這一點都還是極其困難的。有人將這項任務(wù)描述為混合兩種果汁,之后提取其中一種。但是在過去的幾年里,由于AI新方法的引入,這項技術(shù)有了極大的提升。

尤里奇:以前,人們試圖在分離中加入大量的專業(yè)知識,例如關(guān)于混合過程的知識。此外,人們更喜歡簡單的模型,因為它們可以從理論上研究它們。現(xiàn)在這種情況已經(jīng)改變了,因為使用AI從數(shù)據(jù)中學(xué)習(xí)分離體系要好得多。聲音分離應(yīng)用于《阿拉伯的勞倫斯》的三個例子,展示了我們?nèi)绾翁崛υ捯约案鞣N模擬聲音的方法。

Q 在這個技術(shù)上,AI如何被使用?

光藤祐基:我們的聲音分離是由AI來進(jìn)行的,可以由人來教計算機完成這個任務(wù)。例如,一把吉他有一個特定的聲音或頻率,這一點可被神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到。無論混合了多少種聲音,我們的AI系統(tǒng)都能夠識別這些特征。這就像我們可以發(fā)現(xiàn)一個蘋果,因為我們之前見過很多蘋果。AI在聲音分離的應(yīng)用方式而言,無論是機械上還是概念上都大同小異。

尤里奇:神經(jīng)網(wǎng)絡(luò)在所謂的訓(xùn)練中學(xué)習(xí)識別音頻特征。在這個訓(xùn)練中,神經(jīng)網(wǎng)絡(luò)會看到很多音樂--比我們一生中聽到的音樂還要多--以及我們應(yīng)該提取的目標(biāo)聲音。這些信息足以讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)聲音分離。

讓時間倒流并重新混音錄制

Q AI聲音分離技術(shù)有什么特別之處?
光藤祐基:我們認(rèn)為這是為數(shù)不多的可以讓時間倒流的技術(shù)。例如,你可以把過去必須要將各部分錄在一起的一段錄音,拿來專門提取人聲來重新混音,或者把所有的樂器的聲音分開來重新組合成一個新的格式。

Q 我們聽說這項技術(shù)也同樣應(yīng)用在電影中。

尤里奇:為了給看電影的人提供一個身臨其境的聲場,需要從多個不同的角度傳遞聲音,重現(xiàn)一個3D音頻空間。然而,經(jīng)典電影的對白和音效都在同一個音軌上,所以我們能提取的聲音和聲場的沉浸感都是有限的。于是我們開始思考是否可以將這項技術(shù)延伸到電影中,在學(xué)習(xí)了音效(擬聲)庫之后,我們的AI系統(tǒng)能夠成功地從母版中提取出單個音效。在上面的視頻中也可以看到,在美國上映的《阿拉伯的勞倫斯》和《甘地》的4K超高清版本中,索尼影視娛樂公司的調(diào)音師用這項技術(shù)提取出聲音,用杜比全景聲進(jìn)行重制,創(chuàng)造了一個沉浸式的聲場。

上圖說明了擬聲聲音分離過程及其在電影混音中的應(yīng)用

4K超高清版的《阿拉伯的勞倫斯》和《甘地》錄制在哥倫比亞經(jīng)典系列第一卷中

將聲音分離的價值帶給更多的人

Q 這項技術(shù)似乎也可以用在其他各種領(lǐng)域。
光藤祐基:這項技術(shù)也有望應(yīng)用于電影以外的場景,比如清理通過麥克風(fēng)記錄的人類聲音。例如,索尼的自主型娛樂機器人 "小狗 "aibo可以對人類的聲音做出回應(yīng)并進(jìn)行交流,但如果aibo只是簡單地收集周圍的聲音,其自身的機械聲或風(fēng)噪等噪音也會被接收到。通過使用AI聲音分離技術(shù),可以只提取人類的聲音,去除其他所有的背景音,以提高其語音識別能力。同樣,通過在Xperia智能手機上打電話時僅清理人聲,我們就不用再擔(dān)心聊天時的風(fēng)噪。最近的另一個例子是,它被用于一款音樂流媒體應(yīng)用程序的 "卡拉OK模式"。通過使用聲音分離技術(shù),可以將原唱的聲音從流媒體音樂中實時移除(成為伴奏),并將用戶的演唱與音源混合,從而實現(xiàn)類似卡拉OK的體驗。

Q 該技術(shù)未來的可能性和前景如何?
光藤祐基:我們希望我們的技術(shù)能夠像一臺時光機一樣,讓過去和現(xiàn)在的藝術(shù)家能夠跨時空合作。索尼PCL和索尼音樂解決方案剛剛開始使用我們的技術(shù)對外提供服務(wù),所以肯定會有更多的應(yīng)用。我非常期待未來的前景。

尤里奇:從技術(shù)角度來看,我們將看到向廣泛音源分離的過渡,在這種情況下,不僅音源的數(shù)量是未知的,而且音源的類型也是不明確的。人們認(rèn)識到這是一個具有挑戰(zhàn)性但有趣的情景,它將促成更多的商業(yè)應(yīng)用案例。

報道媒體:建立在堅實技術(shù)基礎(chǔ)上的創(chuàng)意娛樂公司索尼,始終以“人”為本,在前沿技術(shù)領(lǐng)域不斷探索進(jìn)取。后疫情時代,索尼黑科技正式確立了3R戰(zhàn)略(真實(Reality)、實時(Real-time)和遠(yuǎn)程(Remote)

技術(shù)
AI
聲音
索尼
隱私政策 使用條款 COPYRIGHT?2018-2024 廣州市裕豐文化科技有限公司 版權(quán)所有
聯(lián)系電話:020-3156 4985
總部地址:廣東省廣州市番禺區(qū)大龍街傍江西站南路1號
公眾號
手機網(wǎng)站
網(wǎng)站導(dǎo)航 ·
聯(lián)系方式 ·
MENU
CONTACT
主站蜘蛛池模板: 亚洲久久一区二区 | 亚洲色无码A片中文字幕 | 无码丰满熟妇浪潮一区二区av | A级毛片免费观看大全 | 中文无码人妻影音先锋 | 日韩精品一区二区亚洲AV观看 | 另类老熟女hd | 96精品成人无码A片观看金桔 | 中国性猛交xxxx乱大交3 | 在线?看91 | 亚洲欧美日韩第一页 | 欧美大片网站 | 亚洲人成精品久久久久 | 国产欧美综合在线观看 | 日韩毛片免费视频 | 少妇高潮惨叫喷水正在播放 | 亚洲精品午夜久久久 | 好色天堂 | 中文在线播放 | 一本一本久久A久久综合精品 | 成人精品999| 人妻妺妺窝人体色WWW聚色窝 | 少妇被粗大的猛烈进出96影院 | 日韩亚无码一区二区三区 | 特大黑人娇小亚洲女mp4 | 免费观看很黄很色裸乳视频网站 | 麻豆精产国品一二三产品 | 四虎影视在线观看2413 | 色爽爽爽| 久久精品视频2 | 亚洲国产综合专区在线播放 | 日韩一区二区三区无码A片 最近最新中文av在线 | 欧美日韩国产人妻无码 | 日本四虎影院 | 欧美精品久久久久久久久老牛影院 | 4438╳全国最大色倩网址 | 高清国产天堂在线bt免费 | 中文字幕28页| 日本午夜免费 | 久荜中文字幕 | 色综合天天综合欧美综合 |