咨詢電話
021-80392549
Notice: Undefined index: group_show in /www/wwwroot/gbsrobot.com/html/module/article/show.inc.php on line 4
幾年前,和機器人聊天,我們要忍受它們的‘詞不達意’,現(xiàn)在的技術(shù)不僅讓你懂它,還讓機器人讀懂你的猶豫、焦急甚至拒絕。”5月6日,中國AI最高獎“吳文俊人工智能科學(xué)技術(shù)獎”頒獎,獲得吳文俊人工智能科學(xué)技術(shù)獎杰出貢獻獎的京東集團副總裁、京東科技智能服務(wù)與產(chǎn)品部負責人何曉冬博士告訴科技日報記者,憑借技術(shù)創(chuàng)新,AI已經(jīng)可以表現(xiàn)出情緒識別和情感配合的能力。
率先提出關(guān)鍵模型框架,讓機器人會“捧哏”
“我們一直努力讓機器人有‘捧哏’的天分。”何曉冬說,“基于我們在包括高表現(xiàn)力的對話生成、在復(fù)雜場景下進行對話決策等方面的研究創(chuàng)新點,獲獎項目讓機器人在等待、接續(xù)的時機、說話內(nèi)容的選擇等方面都達到了令人類滿意的程度。”
“過去的技術(shù)是給機器人規(guī)定一個時間,比如無聲期超過0.5秒了,就要接話。”何曉冬說,任務(wù)型對話是以解決真實世界復(fù)雜任務(wù)為目的的,對話中的人也需要猶豫、判斷,此前的對話技術(shù)往往出現(xiàn)人還在思考,AI就急著插話的情況。
“我們提出了一個多模態(tài)的話語決策模型,在評價語音信號時,不僅考量停頓時間,更重要是計算評估語義完整度、語氣、助詞等等,通過多模態(tài)信號的綜合作出動態(tài)決策。”何曉冬解釋,這個模型可以讓AI來判斷對話者是說完了還是在思考。
“會傾聽”是人類重要的交流能力之一。京東云言犀實現(xiàn)了對機器人“傾聽”能力的塑造。在語音合成時給予多維度的信息,在建模時讓機器人掌握篇章、句子、字詞,多輪對話時精確捕捉用戶意圖流暢對答等,這些新探索讓京東云團隊憑“任務(wù)型智能對話交互關(guān)鍵技術(shù)及大規(guī)模產(chǎn)業(yè)應(yīng)用”,獲得吳文俊人工智能科學(xué)技術(shù)獎科技進步獎。
更為可貴的是,這是一次從源頭發(fā)起的創(chuàng)新——
在谷歌學(xué)術(shù)搜索中排名前20名的論文中只有一篇與多模態(tài)決策模型相關(guān)的論文,就是出自何曉冬及其團隊。“2018年,我們首次發(fā)表論文研討多模態(tài)問題的基礎(chǔ)框架構(gòu)建,并依托京東的業(yè)務(wù)實踐提出很多自上而下和自下而上結(jié)合的新觀點。”何曉冬說,該篇論文近幾年被反復(fù)引用,已經(jīng)到達4000多次。目前仍在大量使用,表明這一多模態(tài)框架可能是當前最有效的框架之一。
服務(wù)現(xiàn)實產(chǎn)業(yè)場景,做更難辨別的“人類分身”
“學(xué)術(shù)貢獻、在國際比賽上擊敗國內(nèi)外重要對手等成績是我們獲獎的原因之一,更重要的原因是產(chǎn)業(yè)AI的大規(guī)模落地。”何曉冬坦言,實踐不僅能創(chuàng)造價值,還是技術(shù)的“試金石”,且不斷反哺研究人員完善理論。
“AI為一座城市短時間撥出了2600萬通電話,以了解居民的健康情況。”何曉冬說,如果沒有AI,至少需要1萬名社區(qū)人員不停地打好幾個月。
在北京、大同、蕪湖等地,任務(wù)型智能對話交互關(guān)鍵技術(shù)正在為政府更好地進行政務(wù)管理與服務(wù)發(fā)揮了實效。AI不僅可以高效率撥打,節(jié)約了大量的人力、時間成本,還可以同時自動錄入數(shù)據(jù),做好分析,預(yù)判潛在問題。
京東云的言犀平臺率先將獲獎技術(shù)應(yīng)用于客戶服務(wù)中,囊括了4層知識體系、40多個獨立子系統(tǒng)、3000多個意圖以及3000萬個高質(zhì)量問答知識點,覆蓋超過1000萬種自營商品的電商知識圖譜,在為用戶提供服務(wù)時不僅能解決用戶需求,還能考慮用戶情緒、運用對話技術(shù),提供可用、可控、可信的智能對話體驗。
除了語言的呈現(xiàn),團隊還在畫面、形象、儀態(tài)等方面實現(xiàn)惟妙惟肖的呈現(xiàn)。“數(shù)字人等3D人像的應(yīng)用目前很多。”何曉冬說,“我們的優(yōu)勢不僅在于更像,也在于其從理論和方法上進一步降低了技術(shù)復(fù)雜度,降低了產(chǎn)業(yè)應(yīng)用的門檻,和企業(yè)的投入產(chǎn)出比。”
未來,人工智能大模型技術(shù)或在短期內(nèi)將虛擬數(shù)字人的交互能力大幅提高,結(jié)合對話式AI、生成AI等技術(shù),很多新業(yè)態(tài)將帶來更多全新應(yīng)用場景,難以辨別的“人類分身”正在其中。