“武大靖最后一次沖刺!最后一個彎道,武大靖率先沖出彎道,沖過了終點!”2月5日,冬奧會第1個比賽日,中國短道速滑混合團體接力項目奪得首金!
細心的觀眾可能注意到,央視頻畫面中右下角有一個手語主播,更神奇的是,這個手語主播并不是真人,而是手語數字人——央視頻AI手語翻譯官聆語,為熟悉手語的聽障人士帶來了精彩“解說”。
我們可以看到,聆語的手勢里包含了我們常見的數字“9”和“3”的手部動作,但與我們理解的意思不同,“3”表示的是“W”,“9”表示“J”,就是“武大靖”首字母的拼音,令人稱奇。
冬奧會開幕以來,冬奧會四金得主王濛再度沖上熱搜,這次的出圈方式是其“嘮嗑”式的解說。隨著“我的眼睛就是尺”等金句頻出,各路網友紛紛表示已被圈粉。足以見得,賽事解說在體育項目中的重要性。然而,大多數解說員都是通過聲音播報,導致一些聽力障礙人群無法感受解說的魅力,而手語主播的出現就有效彌補了這一難題。
騰訊AI手語翻譯官聆語上線央視頻、騰訊3D手語數字人小聰上線騰訊體育,為聽障人士帶來手語解說,感受冬奧賽場上的精彩瞬間。小聰、聆語,由騰訊PCG AI交互部聯合CSIG智能平臺產品部共同打造,與以往的3D AI合成主播不同,手語數字人通過手勢動作和表情,為聽障人士提供“無聲的溝通”。從技術上看,騰訊手語數字人基于騰訊多模態端到端生成模型,進行聯合建模及預測生成高準確率的動作、表情、唇動等序列,實現自然專業、易懂度高的手語效果。
近日,為了揭開手語數字人背后的黑科技,智東西采訪了騰訊PCG AI交互部手語數字人項目組負責人孟凡博,就手語翻譯的難點、騰訊手語數字人的技術邏輯,技術團隊在開發中遇到的難題等做了詳細介紹。
手語主播的三大技術優勢
形象逼真、動作自然準確
讓我們仔細觀察一下下面動圖里的小聰,是不是感覺近似真人?并且在解說過程中,小聰的頭和肩膀還會隨著手勢動作輕微擺動,手語動作流暢自然,再加上表情、口動等,細節也很到位。這些效果的實現,都離不開AI、大數據等技術驅動,這也正是騰訊手語數字人的技術難點所在。
騰訊手語數字人小聰播報“中國奪得首金”
大家都能看到,手語數字人和其他數字人最大的區別在于不發聲,僅僅依靠動作、表情等要素。不論是聆語還是小聰,其形象和手語動作都十分傳神,那么在這背后有哪些黑科技?
1、超寫實的逼真數字人效果
對于健聽人而言,我們只需要聲音、音調就能表達豐富的意思,而手語以表形表意為主,需要較大幅度的肢體動作、更加逼真的人物形象等,能和觀眾產生交流,更具真實感與親切感,才能進一步使得手語翻譯的完成度更高,在有效模擬真人手語播報的基礎上,進一步提升用戶體驗。
為此,騰訊手語數字人使用了行業領先的3D重光照掃描還原、面部肌肉驅動、表情肢體手勢捕捉技術,打造了高度還原真人發膚、形象逼真、動作自然生動的數字人模型。
2、高可懂度的手語表達能力
大部分人可能不了解,學習手語其實和我們學習一門外語一樣困難。手語是屬于聽障人士的獨立語言,與漢語、英語等并列,有自己的語法結構、語序編排等規則,擁有獨特的語言體系。和漢語類似,手語也分方言和普通話,為了讓手語普及度進一步提高,我國于2019年還專門出版了《國家通用手語詞典》,進一步對手語體系進行了規范。
騰訊手語數字人的手語翻譯系統,正是基于《國家通用手語詞典》,形成了成熟的漢語到手語的語序轉化和翻譯過程。基于輸入的健聽人語言能夠低延遲生成高準確率的手語語言表征,通過多模態生成技術,實時預測生成對應的超寫實3D數字人驅動參數,進而快速生成數字人手語播報視頻。
國家通用手語詞典應用程序手語講解示例(圖片截自國家通用手語詞典APP)
在聽障人士可懂度測評中,騰訊手語數字人的播報內容整體可懂度已經達到90%以上。
3、高接受度的手語展現效果
不了解手語的人,就像我一樣,可能以為手語僅僅需要手部動作,其實不然,表情、口動、體態等也都是手語表達的關鍵。下面這個例子就十分形象了,“明白嗎?”這個問句需要身體朝向、表情、眼神、口型的聯動,才能有效傳遞出疑問的語氣。
這一簡單的問句就需要這么多要素,如果換成其他信息更加豐富的句子,手語數字人將如何精準傳遞信息呢?
國家通用手語詞典應用程序手語講解疑問代詞示例(圖片截自國家通用手語詞典APP)
作為一種視覺語言,手語往往需要手控信息和非手控信息聯動表達。除了上面提到的疑問語氣,日常表達中還有感嘆、肯定等諸多情緒,為了使手語表達更加地道,精準的手部動作以及準確的非手控信息都需要具備。
為了實現更加準確、自然的手語表達效果,騰訊PCG AI交互部建立了漢語-手語翻譯系統,可以通過機器翻譯生成手語表征信息,基于多模態端到端生成模型進行聯合建模及預測,生成高準確率的動作、表情、唇動等序列。
打造手語語言體系
驅動手語數字人準確表達
在大部分人看來,手語動作比較簡單,不同的詞匯有相對應的手勢,其實真正可懂也很難。打個比方來說,我們學英語,需要打亂漢語語序,按照英語的方式來思考,才能熟練掌握這門語言。手語也類似,其語序結構、句子表達、特殊表情等都和漢語不同,有時一個句子中的詞匯并不需要全都通過手語翻譯,例如量詞、副詞等,但有時合理地刪減也是一大難點。
在調研過程中,研究人員發現,現在《新聞聯播》《北京新聞》等很多欄目中都增設了手語播報,不過部分聽障人士稱,他們只能理解手語新聞中不到60%的內容。
日常的新聞播報尚且如此,冬奧會這一特殊場景下,項目名稱、技術動作等手語詞匯翻譯難度可想而知。為了讓手語數字人適應冬奧會這一特殊場景,研究人員也費了很大功夫。
孟凡博稱,首先,他們需要訓練手語系統應對比賽、采訪現場嘈雜的環境音,前期,技術團隊選取了大量賽事報道對手語數字人進行訓練;其次,手語作為一門獨立語言,其文本資源很少,研究團隊通過多方搜集只能找到近160萬有效文本。相比于中英對照的2億文本,這個體量可以說很小了。
更為重要的一點是,體育賽事有很多專業術語,手語數字人在確保信息全面、完整的基礎上,也要保證數據的準確性,因此,騰訊AI交互技術團隊和專業手語老師達成合作,遷移到手語數字人中的手語都經手語顧問反復確認。
因此,面對專業的冬奧會,在文本不足的條件下,如何打造“真正可懂”的手語數字人正是騰訊AI交互技術團隊需要跨越的技術壁壘。
1、手語表達語序獨立,建立映射詞典
看到復雜的手語動作,我們可能一頭霧水,但通過智東西和專業人士交流發現,手語表達語序與漢語大不相同。例如,在手語表達中,會先打出表達行為目的的詞語,后打出表示行為的對象的詞語,漢語“我想回家”的手語表達為“家 回 我想”。
手語翻譯過程中,不僅需要將每個詞都進行一一對應,還需要調整其順序便于聽力障礙人士理解。因此,騰訊AI交互技術團隊在漢語和手語之間建立映射詞典和語言體系,將漢語翻譯為符合自然手語規范和聽力障礙人士表達習慣的手語。
2、搭建手語體系框架,按需刪減量詞
手語中表示人名時,會使用拼音,不過,冬奧會作為國際體育賽事,有很多外國運動員,相比中文人名的拼音更加復雜。如果用手語逐個表示的話,可能采訪已經結束了。
在完整表達句意的前提下,騰訊AI交互技術團隊使用智能摘要技術,將按篇章摘要升級為按句子壓縮,對ASR識別文本進行精簡,抓取關鍵信息,省略量詞、程度副詞等詞匯。例如常規解說詞為:“看慢動作可以看出,谷愛凌的這個高度是比其他選手都是要高,非常的飄逸,非常的好看。”可以壓縮為“谷愛凌的高度比其他選手都高,非常飄逸好看。”文本長度縮減為原來解說詞的 60%。這種恰當刪減并保持完整句意的摘要能力是手語表達的關鍵前提。
騰訊AI交互技術團隊在手語顧問團隊、手語調研盤點下,搭建手語語言基礎體系框架,開發手語翻譯系統,只需輸入健聽人語言,即可通過機器翻譯生成高準確率的手語語言表征。
此外,為了保證原視頻和手語視頻時間長度的一致性,手語數字人的翻譯過程會將漢語句子進行動態調控。根據時間、句子意思等,壓縮文本,最終生成相對應的手語視頻。
孟凡博說:“在視頻和音頻處理方面我們做了容錯對齊處理,直播翻譯過程延遲控制在可接受范圍內。為了保證后續鏈路上手語視頻處理的穩定性和觀眾體驗的一致性,我們還對音頻傳輸和識別輸入做了平滑處理。目前,漢語和手語的壓縮比大概在60%,會因實際情況不同進行調整。”
3、集成手控和非手控信息,可懂度超90%
漢語的神奇之處在于,同一句話不同語調意思完全不同。那么在手語中,同樣的句子如何表現說話人的不同情緒,更加多變的表情、手勢、體態如何準確傳遞句意,這也是打造手語數字人的技術難點所在。
手語需要多個要素綜合表達,才能向聽障人士傳達完整的意思。研究人員基于騰訊多模態端到端生成模型,提取手語語言體系下的多模態信息,如手勢詞匯、表情口動、體態節奏、語序韻律等,將手語動作和面部表情同步,進一步優化手語表現力。
通過這項技術,AI手語可懂度達90%以上。
打造可視化動作編輯平臺
低延遲生成手語視頻
上面提到的這些技術讓手語數字人能夠變得真正可懂,但是如何讓這個技術真正為聽障人群帶來福利,能夠有效應用到新聞播報中,為此騰訊AI交互技術團隊打造了一套可視化動作編輯平臺,助力其規模化應用。
可視化動作編輯平臺基于完備的手語翻譯系統、成熟的PaaS系統等,在保證語義完整、準確的基礎上,能夠實現低延遲快速翻譯,實現“秒翻手語”。
談及讓手語數字人真正可用,孟凡博說:“面向冬奧會場景的手語數字人只是我們的第一步,未來我們將考慮聽障人士在實時場景和非實時場景的應用,覆蓋聽障人士的不同需求。”
1、低延遲生成手語視頻
可視化動作編輯平臺的強大之處在于,可快速從漢語文本、視頻文件生成手語視頻,在這一環節中,轉換、翻譯所需的時間較短,有可能在你聽到新聞播報的瞬間,手語數字人也已經完整傳遞了該內容。
那么,這個系統生成手語視頻的具體實現過程是什么樣?在該系統中輸入一段文本或視頻進行預處理,內容處理過程包括多模態視頻內容提取、視頻語音提取、智能打軸、內嵌字幕OCR提取等,生成手語翻譯要素,包括手勢、肢體、表情、唇動等,進一步保證語序轉化、表情體態等特征的準確性,依托超寫實數字人驅動,快速生成與之對應的手語視頻。
2、滿足有稿和無稿場景
目前,大部分電視節目都有字幕,不過一些直播節目、廣播節目中可能并沒有字幕,只有聲音。在這種情況下,騰訊手語數字人同樣能應對,不光可以提取文本信息,也可以識別音頻、視頻。
在實時新聞信息等場景,為了進一步促進信息無障礙溝通,通過手語數字人向聽障人士傳遞更多信息,騰訊的可視化動作編輯平臺可同時滿足無稿和有稿場景,并且支持以視頻流的形式為直播節目加入手語解說能力。
輸入節目源后,可視化動作編輯平臺可提取音頻流、視頻流,提取文本信息進行手語翻譯,快速生成手語視頻后,再對其進行編碼,進行視頻流傳輸,與節目視頻相融合,面向直播場景形成視頻推流。
3、快速學習更新熱詞
現在越來越多的熱詞、新詞出現在我們的日常交流中,同樣的詞語放到網絡上就有截然不同的意思,當然,很多聽障人士也會緊跟潮流。并且現在很多視頻中都會頻繁使用這些詞匯,這也為手語播報提出了挑戰。
騰訊手語數字人能自行學習,快速補充海量新詞、熱詞,并且研究人員專門針對冬奧會中體育競賽手語詞匯進行了整理和優化。目前騰訊手語數字人已經具備完整的體育解說手語能力。
談到手語詞庫的更新迭代,孟凡博透露,他們為手語數字人創建了可視化動作編輯平臺,該平臺可以實現手語動作批量編輯與生成,無須對每個詞進行動捕,極大提升了手語詞匯生產效率。
騰訊AI交互技術團隊多年來深耕數字人技術,已有大數據平臺可以將高頻中文文本引入預訓練模型中,同時動態加載檢索、標注得到的新、熱詞手語打法,并與后端結合,根據詞匯類型預測部分oov詞匯打法,就能確保最終輸出的連貫性。
結語:騰訊手語數字人助力無障礙信息傳播
作為我國超寫實3D數字人領域的頭部企業,騰訊AI交互技術團隊將目光聚焦到聽障人群中,沖上更高的技術壁壘。騰訊不斷精進數字人技術,為內容播報需求強勁的行業提供新的輸出方式,拉近人與機器的距離。
騰訊AI手語主播系統既要完成語序構建、表情生成等手語翻譯,還要依托超寫實數字人低延遲輸出手語視頻。對于觀眾來說,我們只能看到最后生成的手語視頻,但在之后的技術體系搭建卻十分龐大,這也是手語數字人技術發展的壁壘所在。
科技飛速發展的當下,騰訊一直在思考如何用科技拉近2700萬聽障人群與社會的距離。此次,騰訊手語數字人聆語、小聰在冬奧會這個重要節點上線,能受到更多有效用戶的關注。與此同時,孟凡博稱,圍繞冬奧會場景騰訊也在不斷優化相關功能以兼容更多場景。未來,騰訊手語數字人也將在更多場景提供服務,在新聞報道之外,探索生活服務,文化文旅等線下場景,秉持科技向善,助力打造無障礙信息傳播環境。
關鍵詞:
網站首頁 |網站簡介 | 關于我們 | 廣告業務 | 投稿信箱
Copyright © 2000-2020 www.xnbt.net All Rights Reserved.
中國網絡消費網 版權所有 未經書面授權 不得復制或建立鏡像
聯系郵箱:920 891 263@qq.com
主站蜘蛛池模板: 一个人hd高清在线观看| 性做久久久久久免费观看| 国产一区二区三区不卡在线观看| 啊哈~在加了一根手指| 台湾三级香港三级经典三在线| 四虎成人精品免费影院| 日本插曲的痛的30分钟| 久久66久这里精品99| 嫩草影院在线播放www免费观看| 国产福利萌白酱喷水视频铁牛| 日本电影二区| 《波多野结衣系列mkmp-305》| 台湾三级香港三级经典三在线| 4ayy私人影院| 欧美不卡视频在线观看| 欧美日韩三级在线观看| 日韩欧美三级在线观看| 国产在线2021| 台湾一级淫片高清视频| 欧美伦理影院| 日韩一区二区三区精品| 韩国一大片a毛片女同| 久草国产电影| 7m凹凸精品分类大全免费| 小蝌蚪视频在线观看www | 色八a级在线观看| 亚洲综合色视频在线观看| 无遮挡动漫画在线观看| 韩国免费乱理论片在线观看2018| 亚洲精品自拍视频| 国产一区二区三区在线观看免费| 日韩免费三级电影| 第四色亚洲色图| 交换人生电影在线| 久久天天躁狠狠躁夜夜不卡| 再深点灬舒服灬太大了添学长| 日本一卡精品视频免费| 久久99精品国产麻豆不卡| 久久噜噜噜久久亚洲va久| 亚洲欧美日韩成人一区在线| 亚洲一区无码中文字幕|