自從互聯(lián)網(wǎng)商業(yè)化發(fā)展以來,不論是新聞客戶端、視頻網(wǎng)站或是電商平臺……所有的平臺,都是把自己默認為一個優(yōu)秀的飼養(yǎng)員,它按照自己的想法,把內(nèi)容(飼料)Push(喂)給用戶。
這些飼養(yǎng)員都是受過訓練的專業(yè)人士,行話叫做---由網(wǎng)站編輯為用戶設置議程,按照大多數(shù)用戶的口味挑選內(nèi)容。
后來編輯實在忙不過來,采用機器幫忙---最簡單的機器方式則是“熱門推薦”,比如按照點擊量或其它數(shù)據(jù)來做排序。
飼養(yǎng)員模式最大的問題是不知道食客胃口如何,這會導致兩個顯著的后果:一是食客不滿意,用戶個性化需求不能得到滿足;二是自身資源浪費,大量長尾資源長期得不到曝光,增加沉沒成本。
有人發(fā)現(xiàn)了機器的好處。機器可以是根據(jù)用戶特征來推薦內(nèi)容。正如一個高明的廚子可以根據(jù)每一個食客的口味提供飯菜,如果機器足夠聰明,在一定程度上可以解決所有用戶的個性化需求。這豈不是內(nèi)容產(chǎn)業(yè)的C2M?
準確的說,這是內(nèi)容分發(fā)的C2M,它以單個用戶為對象進行溝通,跳出了大眾傳播/分眾傳播窠臼,是不是足以革了所有的搜索引擎和門戶網(wǎng)站的命?
這種智能化的內(nèi)容C2M有深刻的時代背景。今天,你已經(jīng)站在時代邊緣,眼睜睜的看著AI技術點燃了IOT的引線,接下來你將發(fā)現(xiàn)自己無可拒絕的進入下一個信息核爆的時代:信息終端爆炸、信息規(guī)模爆炸、信息平臺爆炸……
在信息高速公路上,你開過的車,你走過的路,全都變了規(guī)則,你所熟悉的一切的基于飼養(yǎng)員模式的知識框架都面臨顛覆。
在這個時代,飼養(yǎng)員模式已經(jīng)失靈了,聰明的機器將成為最大的變量。
第一個出現(xiàn)的場景是人類生產(chǎn)內(nèi)容,機器分發(fā)內(nèi)容。
下一個出現(xiàn)的場景是機器生產(chǎn)內(nèi)容,機器分發(fā)內(nèi)容。
內(nèi)容產(chǎn)業(yè)面臨C2M革命,行不行?
“當然不行,機器很蠢。”如果你這樣想,那么很遺憾,你注定是看不到明天的太陽了。
“當然行。”如果你這么想,那么祝賀你掉進坑里了。
真實的情況,你可能意想不到。
一、內(nèi)容C2M之路本質(zhì)是走向個體化溝通
作為一個獨立的研究方向,推薦系統(tǒng)的源頭可以追溯到90年代初的協(xié)同過濾算法,中期的代表則是傳統(tǒng)的機器學習算法,比如Netflix大賽所推動的隱語義模型,現(xiàn)在則是更加復雜的深度學習模型。
近些年,深度學習突飛猛進,使得機器推薦變成了整個互聯(lián)網(wǎng)的太陽。在新技術的推動下,個性化溝通也變得更加可行,而且越來越接近單用戶溝通。
(一)協(xié)同過濾蹣跚起步
按照百科詞條解釋,協(xié)同過濾是利用用戶群體的喜好來為你推薦感興趣的信息,這些用戶要么興趣相投、要么具有共同經(jīng)驗,然后網(wǎng)站結合你的反饋(如評分),進行過濾分析,進而幫助別人篩選信息。
當然,用戶喜好不一定局限于特別感興趣的信息,特別不感興趣信息的紀錄也相當重要。協(xié)同過濾表現(xiàn)出了出色的效果,開始在互聯(lián)網(wǎng)行業(yè)稱王稱霸。
起先,協(xié)同過濾應用于郵件過濾。
1992年,施樂公司的科學家提出了Tapestry系統(tǒng)。這是最早應用協(xié)同過濾系統(tǒng)的設計,主要是解決Xerox公司在Palo Alto的研究中心資訊過載的問題。這個研究中心的員工每天會收到非常多的電子郵件卻無從篩選分類,于是研究中心便發(fā)展這項實驗性的郵件系統(tǒng)來幫助員工解決這項問題。
接著,協(xié)同過濾思路開始應用于內(nèi)容推薦。
1994年,美國Minnesota的GroupLens項目組創(chuàng)辦了一個新聞篩選系統(tǒng),這個系統(tǒng)可以幫助新聞的閱聽者過濾其感興趣的新聞內(nèi)容,閱聽者看過內(nèi)容后給一個評比的分數(shù),系統(tǒng)會將分數(shù)記錄起來以備未來參考之用,假設前提是閱聽者以前感興趣的東西在未來也會有興趣閱聽,若閱聽者不愿揭露自己的身分也可以匿名進行評分。作為最老牌的內(nèi)容推薦研究團隊,GroupLens于1997年創(chuàng)建了電影推薦系統(tǒng)MovieLens,還有性質(zhì)相近的音樂推薦系統(tǒng)Ringo,以及影音推薦系統(tǒng)Video Recommender等等。
后來,出現(xiàn)了另一個里程碑——電子商務推薦系統(tǒng)。
1998年,亞馬遜的林登和他的同事申請的基于物品的協(xié)同過濾(item-to-item)技術專利,是亞馬遜早期使用的經(jīng)典算法,一度引爆流行。
協(xié)同過濾算不算人工智能?從技術的角度來看,它也屬于AI范疇。但必須指出的是協(xié)同過濾算法比較弱智,無論是基于用戶的協(xié)同過濾,還是基于物品的協(xié)同過濾,推薦效果總是差強人意。
怎樣通過一個成體系的方法論來引導推薦系統(tǒng)的不斷優(yōu)化?如何才能把復雜的現(xiàn)實因素糅合到推薦結果中?攻城獅們一度非常非常頭大,重賞之下必有勇夫,后來,終于有人發(fā)現(xiàn)了更加靈活的思路。
(二)傳統(tǒng)機器學習開始加速
2006年,Netflix宣布舉辦Netflix Prize。Netflix是一家老牌的在線影片租賃網(wǎng)站,舉辦大賽的目的旨在解決電影評分預測問題的機器學習和數(shù)據(jù)挖掘問題。主辦方為此下了血本,宣稱對于那些能夠?qū)etflix的推薦系統(tǒng)Cinematch的準確率提升10%的個人或團隊,獎勵100萬美元!
Netflix在自家blog上披露了許多龐大的數(shù)據(jù),舉例如下:
我們有幾十億的用戶評分數(shù)據(jù),并且以每天幾百萬的規(guī)模在增長。
我們的系統(tǒng)每天產(chǎn)生幾百萬的播放點擊,并且包含很多特征,例如:播放時長、播放時間點和設備類型。
我們的用戶每天將幾百萬部視頻添加到他們的播放列表。
顯然,在這些海量數(shù)據(jù)面前,我們已經(jīng)不能靠由純?nèi)斯せ蛘咝⌒拖到y(tǒng)建立起來的分類標準對整個平臺用戶喜好進行標準化。
比賽開始一年后,Korbell的團隊以8.43%的提升贏得了第一個階段獎。他們付出了超過2000個小時的努力,融合了107種算法。其中兩種最有效的算法:矩陣分解(通常被叫做SVD,奇異值分解)和局限型玻爾茲曼機(RBM)。
矩陣分解作為協(xié)同過濾的補充,核心是將一個非常稀疏的用戶評分矩陣R分解為兩個矩陣:User特性的矩陣P和Item特性的矩陣Q,并用已知的數(shù)據(jù)構建這些向量,使用它們來預測未知的項。該算法在有效提高計算精度的同時,還能夠加入各種建模元素,使更多元化的信息融合進來,更好地利用大量數(shù)據(jù)。
然而矩陣分解也有不足。不足之處在于,矩陣分解和協(xié)同過濾算法一樣,都屬于監(jiān)督學習范疇,粗糙且簡單,適用于小型系統(tǒng)。擺在網(wǎng)絡巨頭們面前的問題是,如果需要建立一個大型推薦系統(tǒng),協(xié)同過濾和矩陣分解則會花費較長的時間。怎么辦?
于是,一些攻城獅將眼光轉移到無監(jiān)督學習中。無監(jiān)督學習中的聚類算法的本質(zhì)是識別用戶組,并對這個組內(nèi)的用戶推薦相同的內(nèi)容。當我們擁有足夠的數(shù)據(jù),最好使用聚類作為第一步,來縮減協(xié)同過濾算法中相關鄰居的選擇范圍。
隱語義模型運用了聚類分析方法,其一大優(yōu)勢是既可以做評分預測,又可以同時對文本內(nèi)容建模,使得通過內(nèi)容來進行推薦的效果得到較大提升。
Copyright © 2002-2022 浙江陽源科技有限公司 版權所有 網(wǎng)站地圖 浙ICP備16014577號