1月17日消息,百度輸入法在北京達(dá)美生活中心舉辦了主題為“AI輸入,開啟全感官輸入時(shí)代”的發(fā)布會(huì)。
發(fā)布會(huì)上,百度副總裁、AI技術(shù)平臺(tái)體系總負(fù)責(zé)人王海峰在致辭中提到“真正讓輸入法這種人機(jī)交互模式發(fā)生變革的,是正在到來的AI時(shí)代。”他說,“AI時(shí)代,人無需學(xué)習(xí)如何使用機(jī)器,用自然語言就能和機(jī)器順暢交互,甚至無需主動(dòng)交互就能讓機(jī)器理解人的意圖……當(dāng)AI發(fā)展到一定階段,輸入法甚至不需要獨(dú)立存在,它將融入人機(jī)交互系統(tǒng),支持人和機(jī)器以各種形式進(jìn)行信息交互。”
隨后,百度輸入法負(fù)責(zé)人蔡玉婷上臺(tái),宣布了百度輸入法v8.0版本的正式上線,該版本在此前已有的AI功能上增加了“語音速記”和“AR表情”兩大全新AI功能。
其中,“語音速記”采用了百度的“聲紋識(shí)別”技術(shù),該技術(shù)針對(duì)2-3人小型會(huì)議場景,可根據(jù)聲紋自動(dòng)去唄發(fā)言人,實(shí)現(xiàn)智能化的語音識(shí)別。而“AR表情”功能基于百度的人臉識(shí)別技術(shù)和AR技術(shù),用戶可以根據(jù)相機(jī)或相冊(cè)進(jìn)行人臉識(shí)別、制作表情包,還支持用戶通過自己的表情控制虛擬人物形象。制作出來的AR表情可以直接通過輸入法搜索、語音輸入和鍵盤輸入時(shí)展示出來。
百度語音技術(shù)部總監(jiān)高亮,再大會(huì)上發(fā)布了百度語音技術(shù)的最新突破——Deep Peak2模型。該技術(shù)全稱為“基于LSTM和CTC的上下文無關(guān)音素組合建模”,是百度語音技術(shù)的深度尖峰技術(shù),也是語音識(shí)別工業(yè)歷史上巨大技術(shù)進(jìn)步。
高亮說,“今天現(xiàn)場的實(shí)時(shí)文字上屏,就是應(yīng)用了百度最新的Deep peak2模型,現(xiàn)在的識(shí)別準(zhǔn)確率比起百度世界大會(huì)時(shí)又上了一個(gè)臺(tái)階。經(jīng)過測試,應(yīng)用了百度Deep Peak2模型后,其識(shí)別的相對(duì)正確率較行業(yè)領(lǐng)先水平提升20%。”