百度輸入法AI新版正式上線，添加“語音速記”和“AR表情”功能

5G寬帶 dvbcn編輯 2018-01-17 15:27 閱讀 2,650 來源：DVBCN 　

1月17日消息，百度輸入法在北京達(dá)美生活中心舉辦了主題為“AI輸入，開啟全感官輸入時(shí)代”的發(fā)布會。

發(fā)布會上，百度副總裁、AI技術(shù)平臺體系總負(fù)責(zé)人王海峰在致辭中提到“真正讓輸入法這種人機(jī)交互模式發(fā)生變革的，是正在到來的AI時(shí)代。”他說，“AI時(shí)代，人無需學(xué)習(xí)如何使用機(jī)器，用自然語言就能和機(jī)器順暢交互，甚至無需主動交互就能讓機(jī)器理解人的意圖……當(dāng)AI發(fā)展到一定階段，輸入法甚至不需要獨(dú)立存在，它將融入人機(jī)交互系統(tǒng)，支持人和機(jī)器以各種形式進(jìn)行信息交互。”

隨后，百度輸入法負(fù)責(zé)人蔡玉婷上臺，宣布了百度輸入法v8.0版本的正式上線，該版本在此前已有的AI功能上增加了“語音速記”和“AR表情”兩大全新AI功能。

其中，“語音速記”采用了百度的“聲紋識別”技術(shù)，該技術(shù)針對2-3人小型會議場景，可根據(jù)聲紋自動去唄發(fā)言人，實(shí)現(xiàn)智能化的語音識別。而“AR表情”功能基于百度的人臉識別技術(shù)和AR技術(shù)，用戶可以根據(jù)相機(jī)或相冊進(jìn)行人臉識別、制作表情包，還支持用戶通過自己的表情控制虛擬人物形象。制作出來的AR表情可以直接通過輸入法搜索、語音輸入和鍵盤輸入時(shí)展示出來。

百度語音技術(shù)部總監(jiān)高亮，再大會上發(fā)布了百度語音技術(shù)的最新突破——Deep Peak2模型。該技術(shù)全稱為“基于LSTM和CTC的上下文無關(guān)音素組合建模”，是百度語音技術(shù)的深度尖峰技術(shù)，也是語音識別工業(yè)歷史上巨大技術(shù)進(jìn)步。

高亮說，“今天現(xiàn)場的實(shí)時(shí)文字上屏，就是應(yīng)用了百度最新的Deep peak2模型，現(xiàn)在的識別準(zhǔn)確率比起百度世界大會時(shí)又上了一個(gè)臺階。經(jīng)過測試，應(yīng)用了百度Deep Peak2模型后，其識別的相對正確率較行業(yè)領(lǐng)先水平提升20%。”