《對話企業家》@烏鎮
趣丸科技任少峰:聲音領域AI技術發展前景廣闊
當前,新一輪科技革命和產業變革迅猛發展,人工智能等新技術方興未艾。如何迎接數字時代的機遇與挑戰,攜手邁進更加美好的“數字未來”。11月19日至22日,在2024年世界互聯網大會烏鎮峰會期間,人民網《對話企業家》欄目邀請互聯網企業相關負責人分享創新故事、解讀前沿熱點、洞察智慧未來。
趣丸科技副總裁、總編輯任少峰。 人民網記者 任峰濤攝
聚焦當下,人工智能技術在聲音領域取得了哪些成果?展望未來,AIGC技術還有望在哪些場景落地應用?11月20日,“人民之夜@烏鎮咖薈”在浙江烏鎮成功舉辦,趣丸科技副總裁、總編輯任少峰在現場接受了人民網記者專訪。
人民網:在聲音領域,人工智能技術目前取得了哪些成果?
任少峰:首先是開源語音大模型。例如,趣丸科技與香港中文大學深圳校區合作研發的開源語音大模型“MaskGCT”,它訓練于10萬小時數據集Emilia,是全球最大且最為多樣的高質量多語種語音數據集之一,精通中英日韓法德6種語言的跨語種合成,可用于聲音克隆、語音生成,降低視頻制作、內容播報等場景中的語音錄制成本,使更多相關從業者從中受益。
其次是音樂生成大模型“天譜樂(TemPolor)”。用戶通過提供關鍵詞、音頻、照片或視頻等素材,即可在平臺上生成包含人聲、唱詞、樂器,多種曲風的歌曲。目前,這項技術已應用于短視頻和影視創作,如影視公司自制微短劇的配樂。未來,行業將繼續降低這項技術門檻,讓它實現更加“普惠化”發展。
人民網:今后人工智能技術還有哪些潛在的應用場景?
任少峰:我從已經有了一定基礎的場景,到未來可能發揮作用的場景進行展望:
一是兼具可視化數字形象以及實時交互能力的智能客服系統。目前我們已經開發了一站式數字人生成平臺,僅需一張照片便可以生成獨特的數字人“分身”,根據給定知識庫自主為用戶解答問題。
二是為中小型商家提供數字人直播帶貨服務。僅需每月支付一定服務費,即可實現24 小時不間斷直播。
三是促進文化出海。智能翻譯系統可將海量微短劇翻譯為其他國家語言,同時精準對應音色、口型與表情,從而降低人力成本,助力文化傳播。
四是人物、物體和場景的三維重建。它的應用場景包括家居設計、游戲設計等領域,可以顯著提高生產效率。此外,這項技術還有望與3D打印機相結合,將AIGC重建的模型轉化為實物。
人民網:當前人工智能技術應用場景拓展存在哪些難點?
任少峰:結合我們的日常工作經驗,當前人工智能技術應用場景拓展存在的“堵點”主要有三個方面,首先是人工智能團隊任務繁重,既要進行基礎技術研究又要承接產品需求;其次是人工智能技術應用端行業缺乏將人工智能與業務相結合的具體思路;三是缺乏能將技術與應用結合起來的“中游”咨詢機構、中介機構,希望未來社會各界能在促進技術與應用融合方面做出更多嘗試。
相關閱讀:
分享讓更多人看到