欧美色图 亚洲|野外口爆视频国产|久久精品视频观看|97精品人人抽插

【分析】人工智能在廣電推薦系統(tǒng)中的應(yīng)用

2017-03-30 14:47:37 來(lái)源:DVBCN 熱度:
從1956年至今,60年過(guò)去,人工智能將邁向新階段。人工智能也將改變整個(gè)廣電行業(yè),提升其價(jià)值。近日,廣東省廣播電視網(wǎng)絡(luò)股份有限公司副總工程師徐江山詳細(xì)分析了人工智能在廣電推薦系統(tǒng)中的應(yīng)用。

 
一、人工智能風(fēng)起云涌,技術(shù)革命引領(lǐng)未來(lái)
 
1、CES 2017 , 人工智能引爆全球最火黑科技盛會(huì)
 
CES 2017 于1月5日-8日在美國(guó)拉斯維加斯舉行,埃森哲技術(shù)總監(jiān)認(rèn)為:人工智能統(tǒng)治本年度的CES,變得無(wú)處不在。
 
AI可謂已經(jīng)走上了一條極速發(fā)展的軌道。通過(guò)改變工作的本質(zhì),機(jī)器和人類之間產(chǎn)生了一種新的關(guān)系,埃森哲研究發(fā)現(xiàn),AI技術(shù)可以在2035年把經(jīng)濟(jì)年增長(zhǎng)率翻倍,并且把勞動(dòng)效率提高40%。 根據(jù)美銀美林全球研究,美國(guó)AI和機(jī)器人市場(chǎng)預(yù)計(jì)到2020年達(dá)到1530億美元,其中機(jī)器人830億美元,AI 700億美元。
 
2、什么是人工智能? 人工智能為什么重要?
 
“人工智能(AI)”是達(dá)特茅斯大學(xué)助理教授John McCarthy在1956年發(fā)明的一個(gè)詞,這個(gè)一般性術(shù)語(yǔ)是指展現(xiàn)出看似具有智能行為的硬件或者軟件。用McCarthy教授的話來(lái)說(shuō),它是“制造智能機(jī)器、尤其是智能計(jì)算機(jī)程序的科學(xué)和工程。” 
 
AI之所以重要是因?yàn)樗鉀Q了極其復(fù)雜的問(wèn)題,例如人類福祉的重要領(lǐng)域——從健康、教育、商業(yè)、交通,乃至于公用事業(yè)和娛樂(lè)等等。
 
3、人工智能為什么在今天得以興起?
 
AI研究始于1950年代,為什么會(huì)在現(xiàn)在出現(xiàn)拐點(diǎn)呢?最近幾年AI的效率出現(xiàn)轉(zhuǎn)變是因?yàn)橛辛诵碌乃惴?、可用的?shù)據(jù)量變得更大、用來(lái)訓(xùn)練它們的硬件變得更好,以及催化開(kāi)發(fā)者采用它們的云計(jì)算服務(wù)。
 
把近似于大腦神經(jīng)元功能的,人工的、基于軟件的計(jì)算器連接到一起。它們組成了一個(gè)“神經(jīng)網(wǎng)絡(luò)”。
 
4、國(guó)際技術(shù)巨頭全面布局人工智能
 
1)IBM
 
IBM在AI 領(lǐng)域無(wú)出其右,如80年代的專家系統(tǒng)、1997 年擊敗國(guó)際象棋冠軍卡斯帕羅夫的深藍(lán)計(jì)算機(jī)、2011 年在美國(guó)智力競(jìng)賽節(jié)目 《危險(xiǎn)邊緣》 中戰(zhàn)勝其人類對(duì)手的沃森系統(tǒng)均出自 IBM。IBM在2014 年后在AI領(lǐng)域布局圍繞沃森和類腦芯片展開(kāi),試圖打造AI 生態(tài)系統(tǒng)。目前IBM已撤銷(xiāo)全球業(yè)務(wù)咨詢GBS和技術(shù)服務(wù)GTS等部門(mén),并轉(zhuǎn)型成認(rèn)知解決方案和云平臺(tái)公司。IBM未來(lái)十年戰(zhàn)略核心是“智慧地球”計(jì)劃, IBM 每年在其投入研發(fā)投資約在 30 億美元以上,涵蓋節(jié)能減排、食品安全、環(huán)保、交通、醫(yī)療、現(xiàn)代服務(wù)業(yè)、軟件及服務(wù)、云計(jì)算、虛擬化等熱點(diǎn)方向。
 
2)Google
 
谷歌 AI 途徑為: 從互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)等傳統(tǒng)業(yè)務(wù)延伸到智能家居、自動(dòng)駕駛、機(jī)器人等領(lǐng)域;積累底層人工智能技術(shù),研發(fā)更高級(jí)的深度學(xué)習(xí)算法,增強(qiáng)圖形識(shí)別和語(yǔ)音識(shí)別能力。谷歌試圖將AI滲透到了旗下各產(chǎn)品,為用戶帶來(lái)更多使用場(chǎng)景、及更智能化功能。
 
谷歌無(wú)人駕駛汽車(chē)始于2009年,2011年為其收購(gòu)510 Systems、 Anthony’sRobots等公司。 目前無(wú)人駕駛行駛里程達(dá)180萬(wàn)英里, 且成功發(fā)布了全球第一款完全能夠自動(dòng)駕駛的原型車(chē)“豆莢車(chē)”,并宣稱到 2020年谷歌自動(dòng)車(chē)將正式上市。
 
谷歌2014年1月耗資2.63億美元收購(gòu)DeepMind ,并于同年12月與牛津大學(xué)的兩支AI研究隊(duì)伍建立合作。 2015年2月,Deepmind 系統(tǒng)學(xué)會(huì)了 49 款雅達(dá)利經(jīng)典游戲。2016年3月,由 Deepmind 研發(fā)AlphaGo 以 4:1 嘉績(jī)擊敗世界圍棋冠軍李世石,激發(fā)全世界對(duì)人 工智能的關(guān)注。
 
3)NVIDIA
 
與CPU相比,GPU 具有數(shù)以千計(jì)的計(jì)算核心,及強(qiáng)大、高效并行計(jì)算能力, 可實(shí)現(xiàn) 10-100倍應(yīng)用吞吐量,特別適用于AI 海量訓(xùn)練數(shù)據(jù)情形。目前深度學(xué)習(xí)解決方案幾乎完全依賴NVIDIA GPU。根據(jù)艾瑞咨詢,2020年全球AI 市場(chǎng)規(guī)模達(dá)1190 億元,市場(chǎng)潛力巨大。據(jù)機(jī)構(gòu)預(yù)測(cè),硬件市場(chǎng)占AI市場(chǎng)份額將達(dá)30%。此外,NVIDIA還專門(mén)設(shè)計(jì)了全球首款針對(duì)深度學(xué)習(xí)的GPU架構(gòu)(Pascal 架構(gòu))。
 
4)Intel
 
近年來(lái), 英特爾將業(yè)務(wù)從PC芯片、移動(dòng)芯片拓展至云數(shù)據(jù)中心 、物聯(lián)網(wǎng)、人工智能等領(lǐng)域,提出“2016 重建計(jì)劃”,根據(jù) CB Insights,英特爾在AI領(lǐng)域總投資額排在第二位。英特爾AI 終端布局聚焦于人機(jī)交互,通過(guò)提供英特爾 Curie 模塊、Edison 計(jì)算平臺(tái)、Cedar Trail 芯片平臺(tái)、RealSense 實(shí)感技術(shù)及凌動(dòng)處理器等技術(shù), 將設(shè)備數(shù)據(jù)上傳至后端數(shù)據(jù)中心。 AI 后端布局主要是研發(fā)適合機(jī)器學(xué)習(xí) CPU 芯片(如 Xeon Phi) 、及 FPGA 芯片,以拓展 AI 計(jì)算性能。
 
5、人工智能對(duì)未來(lái)技術(shù)革命的影響
 
Google CEO Sundar Pichai:“過(guò)去10年我們一直在做一件事,那就是打造移動(dòng)優(yōu)先的世界。而在接下來(lái)的10年時(shí)間里,我們將轉(zhuǎn)到一個(gè)AI優(yōu)先的世界。”
 
Amazon CEO 貝索斯:“AI在未來(lái)20年對(duì)社會(huì)產(chǎn)生的影響之大怎么評(píng)估都不為過(guò)。”
 
二、智能推薦系統(tǒng)總體架構(gòu)及基礎(chǔ)算法
 
1、總體架構(gòu)
 
數(shù)字電視節(jié)目推薦系統(tǒng)主要由以下四個(gè)功能模塊組成:用戶特性文件模塊、節(jié)目特性文件模塊、合作過(guò)濾模塊、推薦模塊。
 
2、節(jié)目特征建模
 
1)節(jié)目特征描述
 
基于內(nèi)容的節(jié)目特性可以從節(jié)目分類、節(jié)目制作信息(主要演員、導(dǎo)演、制作商、制作年代等),節(jié)目?jī)?nèi)容信息(對(duì)節(jié)目?jī)?nèi)容的文字描述)、節(jié)目播出信息(播出頻道、播出時(shí)間、節(jié)目時(shí)間)等幾個(gè)方面來(lái)描述。
 
節(jié)目特征可來(lái)自各個(gè)途徑的文本表述,也可來(lái)自對(duì)節(jié)目的語(yǔ)音識(shí)別及圖像識(shí)別而形成的文本表述,這方面是目前需要研究和加強(qiáng)的領(lǐng)域。
 
2)節(jié)目特征定義
 
節(jié)目特征用于描述節(jié)目的娛樂(lè)新、知識(shí)性方面的特點(diǎn)。常用的節(jié)目特征定義方式包括:節(jié)目的名稱、類型、導(dǎo)演、演員、關(guān)鍵詞等元數(shù)據(jù)信息。      
 
基于節(jié)目特征實(shí)現(xiàn)個(gè)性化推薦的優(yōu)勢(shì)在于,只需要分析單個(gè)用戶的歷史行為就可以推薦,即使只有少量用戶也可以產(chǎn)生推薦列表,并且推薦的效果往往能夠符合用戶的“心理預(yù)期”,從而提高用戶對(duì)推薦引擎的信任。
 
3)節(jié)目特征的發(fā)展
 
節(jié)目特征模型的準(zhǔn)確性對(duì)推薦效果的影響顯著,目前較成功的商業(yè)推薦引擎會(huì)采用更專業(yè)的描述信息來(lái)構(gòu)建節(jié)目特征,常用的描述信息包括:
 
節(jié)目標(biāo)簽:用戶對(duì)節(jié)目評(píng)價(jià)的“關(guān)鍵詞”,一般不成體系;
 
微類型:由專業(yè)人員對(duì)節(jié)目類型進(jìn)行細(xì)化,netflix目前有一支專業(yè)的影評(píng)團(tuán)隊(duì)給節(jié)目標(biāo)注微類型。
 
娛樂(lè)基因:從更多維度描述節(jié)目,如故事背景、特效、獎(jiǎng)項(xiàng)、劇情結(jié)構(gòu)、價(jià)值觀、亞文化等,一般成體系。采用用人工標(biāo)注的方式成本高昂,業(yè)內(nèi)前沿的技術(shù)是用語(yǔ)義分析技術(shù),從影評(píng)信息中提取基因,如Jinni目前已支持該項(xiàng)技術(shù)。
 
4)節(jié)目特征的定量計(jì)算
 
由于節(jié)目特征是通過(guò)一系列文本數(shù)據(jù)構(gòu)成,在推薦算法中為比較不同節(jié)目之間特征的相似性,需要進(jìn)行定量計(jì)算。目前常用的計(jì)算方法包括: DICE系數(shù)、編輯距離等。
 
3、用戶特征建模
 
1)用戶特征描述
 
初始用戶特征的獲取。用戶特征文件的自動(dòng)更新:顯性反饋、隱性反饋(聚類、貝葉斯、NN算法等)。顯性用戶特征:基于分類人群收視率社會(huì)調(diào)查及用戶主動(dòng)方式的特征提取,能夠解決用戶初始特征的缺失問(wèn)題,即系統(tǒng)冷啟動(dòng)和突發(fā)興趣問(wèn)題;隱性用戶特征:來(lái)自于用戶長(zhǎng)期的行為特征數(shù)據(jù)的提取,反映的是用戶穩(wěn)定的喜好特征。
 
2)用戶特征的定義
 
用戶特征(畫(huà)像)用于刻畫(huà)用戶收看節(jié)目的口味,其最常用的模型是:用戶對(duì)節(jié)目進(jìn)行評(píng)分的列表構(gòu)成的向量。
 
用戶的性別、年齡、收入等冷數(shù)據(jù),在廣電業(yè)務(wù)中使用較少,因廣電運(yùn)營(yíng)商主要面向的是家庭用戶。
 
3)用戶特征的變種
 
對(duì)不同類型節(jié)目的評(píng)分,對(duì)不同節(jié)目標(biāo)簽的評(píng)分。用戶特征的變種,往往能夠在某種推薦場(chǎng)景中更準(zhǔn)確的描述用戶的“口味”,從而使得特定的推薦算法更準(zhǔn)確。
 
4)直接評(píng)分   
 
通過(guò)節(jié)目評(píng)分功能直接采集,較知名的評(píng)分系統(tǒng)如IMDB,豆瓣電影等;顯性評(píng)分能夠直接了當(dāng)?shù)姆从秤脩魧?duì)節(jié)目的偏愛(ài)程度。評(píng)分方法包括:正負(fù)值(踩/頂)、5分制、10分制等。
 
鑒于用戶惰性,在沒(méi)有激勵(lì)的情況下,用戶并不愿意主動(dòng)進(jìn)行評(píng)分,這會(huì)造成用戶特征矩陣非常稀疏,導(dǎo)致推薦算法的結(jié)果不準(zhǔn)確。
 
5)廣電大數(shù)據(jù)節(jié)目推薦系統(tǒng)算法研究及應(yīng)用-用戶特征提取
 
間接評(píng)分:為了解決直接評(píng)分過(guò)于稀疏的問(wèn)題,采用計(jì)算間接評(píng)分的方式構(gòu)建用戶特征。間接評(píng)分的修正:點(diǎn)播節(jié)目以主動(dòng)收視為主,直接評(píng)分的可信度較高;直播節(jié)目以被動(dòng)收視為主,如果采集到用戶收看每個(gè)頻道時(shí)間過(guò)長(zhǎng),則時(shí)間線上靠后的節(jié)目的隱性評(píng)分的可信度較低;基于用戶收視模式修正間接評(píng)分是目前推薦算法研究的前沿之一,netflix等公司正致力該方面的研究。
 
6)家庭用戶的特征提取
 
在家庭中,多個(gè)家庭成員共用機(jī)頂盒的情況很普遍,家庭用戶的特征建模也是目前業(yè)界研究的重點(diǎn)。
 
目前常用的模型包括:
 
基于用戶組(Group-based)的特征模型:將用戶的偏好融合為整個(gè)組的偏好,這種模型適用于推薦適于所有成員一起收看的節(jié)目;
 
家庭內(nèi)部特征模型:將家庭用戶的特征按照不同的口味劃分為多個(gè)特征,每個(gè)特征代表了一類需求,這種特征模型有適用于有成員主導(dǎo)電視的情況,例如有孩子的家庭,每天的17點(diǎn)至19點(diǎn)可能由孩子主導(dǎo)電視收看動(dòng)漫類節(jié)目。家庭內(nèi)部口味的劃分方法可以通過(guò)人工分類、聚類、雙聚類的多種方法實(shí)現(xiàn)。  
 
案例:Jinni提供了針對(duì)多個(gè)口味特征分別推薦的算法,youtube、GroupLens等能夠提供針對(duì)家庭或多個(gè)好友共同收看節(jié)目的推薦算法。
 
7)基于MDS聚類算法的隱性用戶特征提取
 
試驗(yàn)記錄20個(gè)用戶從2006年11月1日到2007年4月30日的全部收視節(jié)目,應(yīng)用MDS變換聚類算法,通過(guò)計(jì)算可以看到19個(gè)用戶的收視樣本都具有較為明顯的聚類特征,將這些收視樣本在變換空間的對(duì)應(yīng)點(diǎn)投影到兩維坐標(biāo)系,我們可以清晰地看到聚類云團(tuán)。
 
8)基于MDS聚類算法的用戶特征提取
 
按照變換空間像點(diǎn)距離聚類中心近遠(yuǎn)的排序,本文計(jì)算得到了每個(gè)用戶對(duì)應(yīng)于其每個(gè)類別中心的10條實(shí)義節(jié)目樣本。
 
經(jīng)過(guò)聚類得到的對(duì)應(yīng)于每個(gè)用戶每個(gè)類別中心的節(jié)目樣本,具有相同或相似的節(jié)目特征,基本屬于相同的節(jié)目類別,這些樣本節(jié)目的特征,就反映了用戶的收視特征。
 
由于收視記錄是基于機(jī)頂盒的,也即是基于家庭的,因此上述聚類結(jié)果存在多個(gè)類別中心的現(xiàn)象是合理的。
 
4、特征的自動(dòng)提取
 
1)TF-IDF自動(dòng)提取多類特征
 
TF-IDF是一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù)。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形式常被搜尋引擎應(yīng)用,作為文件與用戶查詢之間相關(guān)程度的度量或評(píng)級(jí)。
 
節(jié)目標(biāo)簽提?。和ㄟ^(guò)對(duì)節(jié)目?jī)?nèi)容信息,評(píng)論信息等文本進(jìn)行分詞,利用TF-IDF技術(shù)可以提取關(guān)鍵詞形成節(jié)目標(biāo)簽。
 
用戶畫(huà)像:將用戶看成文檔,看過(guò)的節(jié)目名稱和節(jié)目標(biāo)簽當(dāng)作文檔的關(guān)鍵詞,則可以通過(guò)TF-IDF算法,提取用戶畫(huà)像。
 
5、特征相似度匹配
 
1)深度學(xué)習(xí)計(jì)算特征相似度
 
在實(shí)際業(yè)務(wù)場(chǎng)景計(jì)算相似度時(shí),單靠特征標(biāo)簽無(wú)法解決所有問(wèn)題。
例如:用戶A,有一個(gè)標(biāo)簽為瑯琊榜,其偏好程度為5;用戶B有一個(gè)標(biāo)簽為偽裝者,其偏好程度為4。如果就這個(gè)兩個(gè)標(biāo)簽計(jì)算相似度,A與B的相似度為零。但這兩部電視劇為同一套制作陣容,其相似度是非常高的。這時(shí)候可以應(yīng)用詞向量模型。
 
三、廣電智能推薦系統(tǒng)的應(yīng)用
 
 
1、廣東省廣電網(wǎng)絡(luò)-節(jié)目推薦系統(tǒng)功能
 

 
2、廣東省廣電網(wǎng)絡(luò)節(jié)目推薦總體架構(gòu)
 
 
3、廣東省廣電網(wǎng)絡(luò)-數(shù)據(jù)采集系統(tǒng)
 
系統(tǒng)能力:使用標(biāo)準(zhǔn)HTTP協(xié)議采集用戶行為數(shù)據(jù);支持覆蓋300萬(wàn)互動(dòng)電視用戶;支持持久化存儲(chǔ)2836億條用戶行為數(shù)據(jù);支持采集開(kāi)機(jī)記錄、機(jī)頂盒心跳、直播行為、點(diǎn)播行為、頁(yè)面瀏覽行為、增值業(yè)務(wù)訪問(wèn)、業(yè)務(wù)報(bào)錯(cuò)日志;支持實(shí)時(shí)和非實(shí)時(shí)向第三方系統(tǒng)分發(fā)數(shù)據(jù)。
 
4、廣東省廣電網(wǎng)絡(luò)-節(jié)目推薦系統(tǒng)
 
系統(tǒng)能力:支持熱度排行節(jié)目推薦;支持關(guān)聯(lián)節(jié)目推薦;支持用戶口味節(jié)目推薦;支持群體喜好節(jié)目推薦;輸入媒資數(shù)據(jù)、用戶行為數(shù)據(jù)、BOSS數(shù)據(jù);輸出推薦列表,支持300萬(wàn)用戶規(guī)模,180萬(wàn)機(jī)頂盒同時(shí)在線。
 
5、廣東省廣電網(wǎng)絡(luò)—節(jié)目推薦系統(tǒng)分層架構(gòu)
 
基于Hadoop集群構(gòu)建分布式存儲(chǔ)和計(jì)算平臺(tái),對(duì)海量用戶行為數(shù)據(jù)、直播、點(diǎn)播節(jié)目數(shù)據(jù)執(zhí)行離線推薦算法;基于storm和NoSQL技術(shù)構(gòu)建實(shí)時(shí)計(jì)算模塊,對(duì)用戶近期行為(分鐘級(jí)別)進(jìn)行實(shí)時(shí)入庫(kù)、跟蹤處理,通過(guò)執(zhí)行近線推薦算法生成針對(duì)用戶近期興趣點(diǎn)的推薦結(jié)果;基于用memCached、nginx等技術(shù),實(shí)現(xiàn)近線存儲(chǔ)、在線分析和應(yīng)用請(qǐng)求處理功能,根據(jù)推薦請(qǐng)求的時(shí)間、地域等上下文信息對(duì)推薦結(jié)果進(jìn)行最終的拼裝、過(guò)濾等在線處理;基于機(jī)器學(xué)習(xí)算法,實(shí)現(xiàn)學(xué)習(xí)反饋模塊,不斷調(diào)整推薦算法參數(shù)。
 
四、“智能”運(yùn)營(yíng),贏在未來(lái)
 
1、人工智能,助力廣電“智能”運(yùn)營(yíng)
 
 
2、運(yùn)營(yíng)智能化:適時(shí)收視率統(tǒng)計(jì)、收視分析
 

 
 
3、運(yùn)營(yíng)智能化:智能推薦,實(shí)現(xiàn)節(jié)目與廣告的精準(zhǔn)推
 
 
4、運(yùn)營(yíng)智能化:融合推薦引擎,簡(jiǎn)而精、優(yōu)而新的新UE系統(tǒng)
 
 
5、運(yùn)營(yíng)智能化:建立用戶流失預(yù)警模型,多維度維系和挽留用戶
 
 
 
6、運(yùn)營(yíng)智能化:一體化智能營(yíng)銷(xiāo)體系,多觸點(diǎn)自動(dòng)化提升營(yíng)銷(xiāo)執(zhí)行
 
通過(guò)各業(yè)務(wù)系統(tǒng)運(yùn)營(yíng)所產(chǎn)生的數(shù)據(jù),為精準(zhǔn)營(yíng)銷(xiāo)提供準(zhǔn)確的支撐,提升營(yíng)銷(xiāo)目標(biāo)客戶、產(chǎn)品、時(shí)機(jī)、活動(dòng)的有效組織和管理,直接為市場(chǎng)營(yíng)銷(xiāo)服務(wù)。營(yíng)銷(xiāo)管理平臺(tái)作為重要橋梁將各類分析和挖掘結(jié)果充分應(yīng)用到營(yíng)銷(xiāo)策劃中,并將營(yíng)銷(xiāo)活動(dòng)信息便捷快速的推送到各類觸點(diǎn)渠道,實(shí)現(xiàn)營(yíng)銷(xiāo)活動(dòng)在渠道的落地執(zhí)行。
 
 
7、運(yùn)營(yíng)智能化:基于節(jié)目、用戶、商品的三維關(guān)系,建立精準(zhǔn)廣告系統(tǒng)
 

責(zé)任編輯:李娜