全球頂級的知識庫構建測評KBP2017日期公布了最新排名。阿里巴巴人工智能研究機構iDST斬獲英文實體發(fā)現(xiàn)測評全球冠軍,在準確率和召回率上均表現(xiàn)出色,核心指標F1達到0.811。這次測評吸引了全球20多支頂尖團隊參與,包括IBM Research, BBN, Stanford Univ, CMU Univ, UIUC Univ, Columbia Univ, 騰訊等。
KBP是由NIST(National Institute of Standards and Technology,美國國家標準與技術研究院)指導、美國國防部協(xié)辦的賽事,主要任務為從自然書寫的非結構化文本中抽取實體,以及實體之間的關系。
這項測評要求AI算法在“讀完”一篇英文文章后,構建一個物理世界的命名實體和實體之間關系的知識庫,如“克林頓和希拉里之間是夫妻關系”、“克林頓畢業(yè)于耶魯法學院”這樣一個個實體的關系。
阿里巴巴iDST自然語言處理首席科學家司羅介紹,他們的算法可以做到對文章上下文的理解。比如,文章出現(xiàn)了Apple,再出現(xiàn)Jobs,就可以辨別出這個Jobs指的是喬布斯,而不是工作。再比如,文章出現(xiàn)了Microsoft,那么Apple就更有可能是蘋果公司,而不是一種水果。
“另外,我們構建了一個算法去學習不同領域之間共同的部分,通過遷移學習提升我們學習的準確度。對于不同領域數(shù)據(jù),我們?nèi)∑渚A,去其糟粕,進行智能學習”,司羅說。
在這次測評中,iDST團隊采用經(jīng)過改良的深度神經(jīng)網(wǎng)絡架構對文本進行理解。改良的架構有三個主要特點:首先該模型可以自動閱讀海量文章(如維基百科)并從中汲取經(jīng)驗;其次,該架構可以智能選擇訓練數(shù)據(jù)集以保證訓練數(shù)據(jù)的準確性;最后,我們采用post regularization的辦法保證模型結果的一致性。
對于KBP2017的成績,司羅表示:“很榮幸能夠同全球的同行分享阿里巴巴的研究成果,人工智能在機器閱讀理解和知識庫構建上還處在起步階段,我們正在積極和同行業(yè)頂尖機構學習交流,推動行業(yè)發(fā)展。比如我們內(nèi)部建設的信息抽取平臺AliIE項目就在同斯坦福大學展開積極合作”。
阿里巴巴正在將這樣的信息抽取技術廣泛的應用到實際業(yè)務當中,并致力于讓更多的中小開發(fā)者從中收益。他們搭建的信息抽取平臺AliIE擁有最頂尖的AI技術,并從一開始的架構設計就考慮到平臺的開放性和可擴展性??梢宰尭嗟拈_發(fā)者、研究員共同開發(fā),并將成果回饋給這個社區(qū)。
阿里巴巴iDST自然語言處理首席科學家司羅
司羅是全球權威機器智能學者,曾擔任美國普渡大學計算機系終身教授,主持的20余個項目得到美國政府、工業(yè)界資助,先后獲得美國國家科學基金會成就獎、雅虎、谷歌研究獎等。
由他領導的自然語言處理團隊目前支持了阿里巴巴大生態(tài)每天多達600億次的自然語言處理需求,團隊橫跨杭州、北京、硅谷、西雅圖(新加坡)多地,成員大多擁有10年以上的研發(fā)經(jīng)驗。檢索招聘網(wǎng)站可以看到,他們依舊在不斷擴充團隊。