人工智能與媒體未來|當昔日的碼農對資深媒體人發表演講,他沒説出的才可怕-餘亮

2015年的互聯網,不再有推特革命的喧囂,但技術的衝擊深入各個角落。在中國,年尾熱鬧的網絡事件層出不窮,百度賣貼吧、帝吧遠征FB、e租寶崩潰……
對貼吧等事件的思考,很多人依然習慣性聚焦於體制、民族等傳統政治層面,我看到的是,真正重要的“戰場”在技術和人類之間。歲末谷歌智能擊敗人類圍棋高手,深深震撼了我們這個以圍棋為傳統智慧精華的國度。**當帝吧騷年與太陽花一代在FB相戰甚歡的時刻,FB的圍棋人工智能取得了與谷歌幾乎同樣出色的進步;**當人們聚焦百度良心的時候,另一類巨大的資訊流量入口正在俘獲媒體人的注意。最後這個是我要重點談的。
代表者今日頭條,只要隨便給某個媒體某篇文章導來上百萬的流量洪水,就會讓原本觀望的後者震驚不已。
1月15日,於年尾各種媒體論壇之中,今日頭條主辦的“珠海未來媒體峯會”引人矚目。最矚目的當然是頭條CEO張一鳴的演講:《我眼中的未來媒體》。他縱橫媒體發展史、國內外現狀,從古騰堡到貝索斯,從APP STORE到 Instant Articles,看似雄辯地證明媒體人把內容輸送到算法推薦平台是大勢所趨。
對於長期關注這一塊發展的人來説,他説的東西並不新鮮。但重要的是這個姿態——這是一個在創業之初以全部團隊沒有編輯而自豪的技術型CEO,第一次高調走到台前,對台下一大羣中國翹楚編輯們説話。

一點資訊緊跟其後。1月20日,與鳳凰博報聯合舉辦年度影響力自媒體盛典,宣佈打通兩家平台,資源共享。一點資訊副總裁吳晨光面對台下上百位自媒體人,也在極力渲染一點資訊的讀者畫像等算法技術。雖然技術總裁沒有走到台前,但一點資訊是和今日頭條一樣依靠機器算法“精準”分發資訊的平台。河蚌相爭尚未白熱,一隻黃雀已在後頭——騰訊的同類產品天天快報已經低調運營了一段日子,不知道在憋什麼大招。
人們應該記得,2014年6月多家媒體因為版權問題對頭條發起聲勢浩大的訴訟。2015年11月也有媒體發動對一點資訊的訴訟,但造成的聲勢很小。再到2016年初,媒體人坐在台下為張一鳴鼓掌捧場,認真考慮合作。時勢變化,技術的發展已經讓人從陌生驚恐到不得不熟悉。
這一次,張一鳴要表達對傳統媒體和內容生產者的尊敬——
今天,“傳統媒體” 一詞已褪去光環,聽起來甚至有點過氣。但我想特別強調的是,“傳統” 是一個很好的詞,是現實中演化出未來的基礎。
作為一個前程序員,我明白技術對世界的驅動作用;同時,作為一個重度內容愛好者,我也明白技術永遠不是最重要的東西,在今日頭條,技術的作用恰恰在於對"內容"的價值的深刻體認,而這些內容,正是由在座的各位所創作出來的。
這番話不全是甜言蜜語,符合技術人的直白特徵。只是在我這個旁觀者看來,這種“和親”背後有種耐人尋味的不安。
軟件工程系出身的張一鳴,努力説着文字工作者能聽懂的事情,但是他蜻蜓點水、一掠而過的東西才是命門所在。他在發言中不經意地三次談及對apple news等依靠編輯團隊推薦新聞的做法不感冒,一次批評了微信朋友圈社交推薦模式的效率低下,毫不掩飾對算法推薦的推崇。
頭條不是百度,推薦引擎有別於搜索引擎。但是它所自豪的算法推薦也不是這幾年才出現。算法一直在那裏,谷歌甚至百度都是前輩,為什麼是頭條讓算法成了頗具神秘感的明星?
對媒體人來説,到底什麼是算法?就是那個不厭其煩向閲讀者推送同類新聞的東西麼?媒體人是尊敬算法還是敬畏那時常莫名其妙湧來的流量?
我想以一個不安的媒體人角度,探索有關這個算法王國的幾個問題:
1、今日頭條們到底在做什麼,能做什麼?
2、媒體人的老帝國與算法技術新帝國的融合的前景(代價)是什麼?
3、可能的誤區在哪裏?
算法少年匹諾曹,他被要求做什麼?
普通讀者這些年對算法推薦的直觀感受並不佳:瀏覽了某個淘寶頁面之後再去其他網站,頁面也會浮現同類產品的廣告,如果瀏覽的是情趣用品呢……在頭條看新聞也很容易遇到這種情況——相似資訊不斷湧來。不過就像帝吧遠征之人力洪流帶來的震撼,今日頭條巨大的流量也促使我重新審視算法洪流。別忘了頭條招聘啓事上寫着:“對用機器學習算法解決現實問題有強烈的渴望和堅定的信仰。”
即便這種看似粗糙的同類資訊推薦算法,也足夠我先拋出對算法的總體觀點,有三個層面:
**算法首先是一種類似金融資本的東西,是方法。**就像財務投資者不必追求理解公司具體產品本身,只在乎能否增值。算法不管內容實質是什麼,只管能否數字化、分類集合、反饋優化,是處理海量信息的方法。與資本一樣,它能提升效率,也和個體有矛盾。
第二,張一鳴在演講中説Facebook把技術支持變成了一項接近水、電、煤氣這樣公共服務的事情。**再進一步,****當算法深入生活的方方面面,積累的智能本身將成為基礎設施。**KK(凱文·凱利)在新書《必然》裏説到,未來的人工智能網絡(主要包含算法)將會成為“如同電力一樣無處不在、暗藏不現的低水平持續存在”。你可以像插電一樣隨時接入智能流。比如辦公室的桌椅和電腦都會識別你,記錄你喜歡的姿勢,在你一走進辦公室就調整好姿態,打開你常用的軟件、網站等等。但對於資訊內容傳播來説,這還不夠。內容不是桌椅,桌椅只要伺候我們,內容卻是裝載了他人靈魂的存在,要和我們互動、砥礪。這就是第三層,算法要想觸及靈魂,還得努力。
頭條到底是什麼?有人已經説了它不是新聞客户端,而是信息分發平台。僅此而已?
張一鳴稱:“將對媒體在今日頭條平台上的用户數據進行更詳盡的統計分析。除了性別、終端、年齡、地域分佈等用户屬性基本分析外,還將提供用户的興趣和情感傾向分析。通過這一功能媒體可以知曉受眾喜歡哪些分類的文章、用户最喜歡文章裏的哪些關鍵詞、關注你的人還喜歡哪些內容等等。”這話本意是在針對微信,微信公眾平台目前恰好只能提供受眾的“性別、終端、年齡、地域分佈”分析。作為平台,頭條明確要為入駐媒體提供“服務”。興趣和情感,這是算法更高的追求。
頭條的銷售人員可以告訴一家汽車製造商:用户的閲讀行為數據能夠展現出哪個地方的人最喜歡你們的哪一款車,我們將把你們的廣告推送給合適的讀者。今日頭條的同類產品“一點資訊”也在做同樣的事情。創始人鄭朝暉曾對內容總監吳晨光強調:“比閲讀重要的是閲讀者的行為”。
所以頭條們在做什麼?今日頭條是偽裝成新聞客户端的用户行為數據收集器和分析器!(這感覺就像有個美國政治學者説的,現代中國是一個偽裝成民族國家的文明帝國。)**每一篇新聞都應該被看作一道對用户的測試題,****用户的每一次點擊、評論都是一種回答,**都被系統記錄,和關鍵詞、Dom標籤、作者、閲讀時間、網絡環境(wifi還是4g?)等等一起構成多維數據矩陣,刻畫出這個讀者的特徵。每道“測試題”都很粗糙,但是就像KK的“蜂巢思維”所言,海量資訊一起測試出的用户特徵就比較準確。而且用户是在無意識中完成測試的,答案比較真實。這就是頭條們的技術和商業模式核心所在。(讀者不必在隱私範疇擔心這個問題,按照KK的説法,未來美好數據生活就是以每個人的用户數據為基礎的。)
頭條們還可以有更高的奮鬥綱領。正如谷歌搜索做的不止是搜索和收集用户數據,還是在做人工智能——用户的每一次搜索和點擊都在幫助谷歌智能學習、調整思考方式。不難理解,為什麼“一點資訊”的創始人鄭朝暉來自前雅虎研究院。奇怪的倒是百度現在才推出同類產品百度新聞客户端(毫無吸引力的名字),早點做,就沒有頭條們什麼事了。

猜想今日頭條的算法
經常被頭條員工拿出來説的簡單算法是AB****測試和雙盲檢驗。
算法架構師曹歡歡和增長團隊的張楠都講解過如何用AB****測試來判定一個產品修改的效果,比如一個按鈕是用紅色好還是用藍色號,那麼就各向1%的用户發佈兩種顏色產品,哪個下載的好就推哪個。如果用在新聞上,就是同一條新聞由編輯給兩種標題,測試哪個標題點擊好。
雙盲檢驗,是先讓算法判斷一個新聞的分類和推薦對象,然後讓兩個編輯分別檢驗,如果結果一樣,就通過,不一樣就請第三人判斷並彙報程序員,重新調整算法。在我看,這背後是一個類似神經算法的“刺激-反應”模式——根據算法反應對錯調整某個參數(權重),也是一種人工智能裏常見的“半監督式學習”。這大概也是張一鳴口中人機結合、發揮人的智慧的證據之一。
不過説實話,對新聞系的學生來講,這和他們傳統的職業夢想是有落差的。幾百個編輯坐在那,有點像工廠的校驗工人,和碼農一樣,用青春滋養這台算法機器。
別慌。優秀媒體人只能在外部為這部機器投餵內容嗎?人機結合可以更高級點嗎?
**讓我們把算法看作一個正在成長的生命吧。一個務實的算法只須保障商業模式,但一個高尚的,純粹的,理想遠大,脱離了低級趣味的算法必然也渴望星空,渴望與我們互相引領。它在努力理解我們的同時,也渴望被我們理解。**瘸腿狐狸只想拿匹諾曹做工具,藍仙女卻要給他栩栩生氣。
深入透視頭條的算法
我注意到今日頭條在拉勾網打出一個百萬美元年薪的廣告,招募算法架構師,要求擅長:**貝葉斯學派相關算法,超大規模離散LR,深度神經網絡,各種tree-based的算法等。**其他算法工程師崗位要求大同小異。

這些在技術人士眼中並不特別,很多IT公司必備,多和概率統計學有關。比如貝葉斯算法,常用的郵件客户端上就有出現。

Foxmail截圖(所以張小龍他也是很精通貝葉斯算法的)
我想盡我所能簡單介紹一下這位百萬年薪工程師具備的算法知識,不從數學專業角度(專業角度我也不懂),而是從用户角度思考“算法想要什麼”。
算法如何閲讀新聞
以招聘啓事中的tree-based算法為例。為了處理信息,算法的初始訴求往往是對海量信息做分類聚合。人類眼中的詞彙在它眼裏都是參數(維度),一千個不同詞彙組成的一篇文章就是一千個維度組成的一個向量。然後機器在代數世界裏衡量不同向量的相似度——簡單向量距離分類法、貝葉斯算法、KNN(K最近鄰居)算法、線性迴歸、邏輯迴歸……
維度太多,於是算法進化了,不再把每個詞當作維度,而是把html代碼裏的節點標記(DOM)作為維度,這樣就大大減少了維度個數。人類看見的標題、文字、圖片,被代碼放在不同的DOM節點裏,比如head,比如body,比如TR、TD(表示表格的代碼),構成樹狀結構。算法以這些節點為維度,用各種算法對比不同的文檔異同——k means(硬聚類)算法,minimax(極小化極大算法)……再進一步,引入圖論範疇的模式樹,就有了更高級的tree-based算法。
下圖是個常見的html dom展示,不需要看懂,只要瞭解機器眼中的文章是什麼樣子。


(機器眼中,各種標記最重要,然後通過各種公式來處理。樹狀圖來自愛範兒,公式來自酷勤網)
算法五花八門,我説的也不準,主要看氣質——算法這個孩子不知道新聞説了什麼,只知道哪些新聞是同類,哪些是熱點(點的人多當然就是熱點,機器可以通過一種“組合”算法來判斷,可以參見南京大學新聞傳播學院助理研究員、奧美數據科學實驗室主任王成軍的文章《“今日頭條”怎麼計算:“網絡爬蟲+相似矩陣”技術運作流程》)。文章標籤、關鍵詞等也起到作。
算法匹諾曹的行為很有趣,好像在努力用各種辦法躲避對內容靈魂本身的認知,只通過外貌的形式特徵去猜內容的相關度。
算法如何研究讀者
讀者身上沒有關鍵詞,沒有標籤,算法如何把握?數學家們有辦法,貝葉斯算法就是一種。
經典的貝葉斯問題在小學奧數里就有(美劇《生活大爆炸》裏也有):假如分別有A、B兩個口袋,口袋A裏有7個紅球和 3個白球,口袋B裏有1個紅球和9個白球,現從這兩個口袋裏任意抽出了一個球,且是紅球,問這個紅球是來自容器A的概率是多少?

(圖片來自“機器之心”網站)
讓我們換一個更具新聞性的表達方式:假如已知韓國5年發射一次衞星且每次爆炸失敗率是60%,朝鮮2年發射一次衞星且每次爆炸失敗率是40%。現在從朝鮮半島傳來一聲衞星發射失敗爆炸的巨響,請問這枚火箭來自朝鮮的概率是多少?
根據貝葉斯公式【P(B|E) = P(B) × P(E|B) / P(E))】就可以推導出這個概率來,也就是逆向計算概率。恰好頭條自己提供了一個範例:
2015年10月,在中國傳媒大學新媒體研究院和今日頭條聯合舉辦的“洞見數據的力量——電視媒體高峯論壇”上,一位叫做安娜的女士説:
“頭條有個獨特的算法能推算用户的年齡,即使你沒在頭條訂閲。系統根據已確定年齡人羣的動作、特點和興趣做了一個模型,由協同原則判斷讀者是否符合這個模型,這時機器先預判是否為該年齡段的用户,同時機器再根據你的閲讀動作最終確定年齡段。”
這個獨特的算法可能就是貝葉斯算法(當然也許不止一種算法,比如也可能存在專門用於挖掘不同數據集合間關聯性的Apriori算法等)。我猜想算法架構師會預先根據心理學、社會學統計數據以及以往讀者點擊數據,構建一個用概率來描述的人格特徵模型,比如男性模型的特徵之一是在閲讀新聞時點擊軍事新聞的概率是40%,而女性模型是4%。一旦一個讀者點擊了軍事新聞,算法就開始逆推TA的性別,加上TA點擊其他新聞的行為數據,綜合計算,就能比較準確地判斷TA的性別。綜合ip地址(地理信息)、點擊時間、評論參與、點贊行為這些明確的信息,就能區分出不同讀者的取向、興趣。
如果我們回看商業史,就會看到這樣的算法精神一直孕育在資本主義消費市場之內。歐美的商業家們早就在追蹤消費者的喜好數據,沃爾瑪超市裏的商品就是典型,什麼商品放在什麼位置都是有講究的,大賣場長期跟蹤用户在商場裏的行為和銷售數據,入口處堆放的商品就好比新聞首頁推薦的頭條。一開始是通過人工記錄、報表分析,有了攝像頭,就可以分析錄像中顧客的行動軌跡。互聯網推薦技術則使得這種跟蹤細化到了個人。
原理不難理解,但做起來考驗智慧和耐心。同時,算法面臨着自己的巨大困境:
競爭的難題:無法區別的風格問題
在傳統的媒體公司,編輯團隊和廣告銷售團隊總會有矛盾和博弈。在頭條一類的公司,則是算法團隊對編輯團隊佔據絕對優勢。這未必是好事。算法團隊本身是較難產生風格的。頭條、一點資訊和天天快報究竟有多少區別呢?
風格既人(布豐),風格即靈魂。雞蛋個個不同但那不是風格,只是原始特徵。風格是一種需要積極建構的氣質,是生氣灌注的行動。
傳統媒體都是有風格的,沒風格的不是死了,就是殭屍媒體。
下面這個截圖體現了風格:

兩家媒體互不相讓,但也許都不得不承認對方是有自己風格的。美國的紐約時報和赫芬頓郵報同一個“美國夢”,也具有顯著不同的氣質。有自己相信並追求的價值觀,追求新聞事實時候有非如此不可的衝動,寫作時有難平之意化為不休的訴歌,這才是風格。
風格是原創,是觀點碰撞,是議程設置,是話語創新。算法還沒學會這些,因為設計算法的技術人可能還不太懂這些。
這還不只是差異化競爭問題,更重要的是產品的內在矛盾。**頭條們不止是平台,因為偽裝不是白裝的,新聞客户端的表象與算法機器的矛盾是無法擺脱的“原罪”。**形式不是內容之外可有可無的事物,形式就是內容。頭條們註定不可像沒有首頁推薦的微信公號平台一樣,真的只做完全中立,沒有一點情感和立場的平台。人們都認為你是資訊客户端,你就要做資訊媒體的事情,哪怕和算法的性格有矛盾。但矛盾不是缺陷,矛盾是推動自身進化的動力所在。
頭條招聘啓事給技術人才開高薪,但是如果內容方面沒有自我的精神風格或者主心骨,我猜測,在頭條這類公司,員工的企業認同可能會比較一般。他們的內部心態會和傳統優秀媒體相反,在傳統媒體,那些心懷理想的媒體人可以靠夢想支撐,而在頭條等企業,商業模式一旦壓制一切,對員工來説,這就是一筆生意。
他們想有風格。
起步較晚的“一點資訊”在努力表現自己的風格,比如宣稱自己是做興趣搜索,有別於頭條的算法推薦。吳晨光宣稱一點資訊是“百度+頭條”:
“正如一點資訊董事長劉爽所説,如果頭條是造紙術和印刷術,那麼一點資訊就是火藥和指南針。這兩個APP都以‘千人千面’為核心競爭力,因為確實像造紙術一樣改變了傳播。但一點比頭條更近一步:所謂火藥,是通過搜索喚醒了沉睡在APP裏的信息,你可以通過搜索、訂閲,兩步完成你對任何你感興趣內容的定製。至於指南針,我這樣理解:因為一點後台有非常精準的用户畫像,所以可以把最符合你興趣的內容分發給你。用我們內部的一句話説:大事件作出共鳴,個性化要像蛔蟲。”
可以看出來,作為後起者,一點資訊一方面不得不通過頭條來定義自己,同時又必須有所區別,於是強調搜索。不過從用户直觀感受來講,這種區別是不太容易看出來的(一點資訊能夠把用户的每個搜索詞變成訂閲詞)。頭條一樣有搜索功能,也會記錄讀者的搜索行為。
至於“指南針”,只是一個更生動的比喻。所描述的“用户畫像”,可以猜想也是和貝葉斯算法之類大同小異的方法。
看拉勾網上“一點資訊”的招聘,唯一的算法師招聘廣告要求:“文本分類和語義理解,社交網絡分析,網頁搜索,推薦系統等領域的特定算法,理解自然語言處理、機器學習、網頁搜索,推薦系統,用户數據分析和建模的基本概念和常用方法。”
應該説,所謂“特定算法”大家都類似。具體的公式和策略五花八門,但那只是雞蛋的不同,最多在比拼誰的算法最state of the art。能區別風格的還是操作者的思想理念、媒體情懷和輿論場的洞察判斷力。同樣的算法,具體開發時候也要看悟性、靈性。谷歌與百度在用户看來,最直觀的區別也還是理念和情懷的不同。
相比之下,吳晨光強調一點資訊在提高自媒體門檻的做法,這種篩選是由媒體人團隊做到的,也許更重要。
“最近兩個月,一點資訊封掉了大概7000多個號。古玩、健康、財經等,都是重災區。我們的競爭對手,在放寬入駐條件,但我們相反——高標準,並且實行嚴格的分級制度。從一級到六級,級別越高標誌着你的內容越優質,這樣你得到的展示量就越大。”
頭條大舉招募媒體人入駐平台,並加大對自媒體平台的投入,這是有意識地構築底盤,獲得內容版權,也是無意識地要讓自己更生動。
可是算法少年尚未理解這種風格化的努力。
算法匹諾曹的自我障礙:沉淪本我,缺乏超我
我們試着用社會心理學的語言來描述算法獨尊主義帶來的信息繭房問題。
算法和讀者一起,沉淪於本我的漩渦。本我的慾望讓你去點擊了一條驚悚的社會新聞,但本我不是人性,對本我的自省和超越才是人性。反覆湧來的社會新聞會讓讀者生厭。這個一直被人質疑的問題似乎沒有得到透徹的説明和改善。
求證過員工自己對這個問題的看法,他們會告訴你不喜歡這樣的信息就用手指劃掉,系統就會減少此類信息推送。在我看來,這只是一種簡單的線性思維。**算法只計算異同關係,只機械地問你要還是不要,而沒有計算諸如相對關係、主從關係等等複雜的關係。**就像一個不太會戀愛的直男,聽到對方説no的時候,並不善解對方真正的意思。
算法能否採用更好的策略,除了數學思維本身,還在於算法對人性的理解。非線性思維才能貼近人性——哪怕是庸常之輩,也會渴望有一隻手能托起自己的頭顱。假如用户多點擊了幾次驚悚社會新聞,算法可以繼續推送同類資訊,但是一定要顯出一種“我猜你其實也是個有高尚趣味的人”的姿態——可以於驚悚新聞信息流裏突然插入一條洗眼資訊,可以是正能量,可以是對立面,可以是新聞分析。既然瀑布流裏面可以插入廣告,為什麼不能插入和用户點擊趣味相反的文章?
我不瞭解具體算法設計問題,也許需要更復雜的集合算法。每條資訊有自己對應的鏡像,就像本我對應的超我,就像西斯武士對應的絕地武士。不甘做機器保姆的小編可以參與打造這樣的集合,提升機器靈魂的同時提升自己,共同進化。彼此是對方的啓蒙者,而不是做一個被動的僕人。也許會有偏差,會有博弈,但魅力就在這裏。在《失控》看來,人機之間要有一定的對抗才能共同進化。也許算法在等待讀者自己走出沉淪,但對抗就要求算法更彈性一點,更搶先一點,主動試探讀者是否想要逆風而行。
用資訊測試讀者,是把讀者看作已完成的人格。**而人性是永遠在路上的未完成之物。**人性和人類的創造物,需要彼此激發,螺旋上升。分類聚合算法只是把自己看作一個置身事外的觀察者,正如科學試驗裏的觀察者,以為自己不在事件之中。但這是不可能的,算法已然在參與人性的構建,只是採取了消極的方式——人以羣分,每個人沉淪在自己的趣味裏。後果是讀者的極化,老死不相往來,像黑客帝國裏的人繭。人繭衰弱的同時,系統的活性也在衰減。
極端分化的人羣與極端分化的信息一樣,缺少活性。而搜索引擎則沒有那麼主動地去極化人羣,因為人在搜索時候主動性更強。
我們可以用貝葉斯算法本身的問題來解釋這個危險:
研究者John Horgan在《科學美國人》上發表了一篇文章《被追捧和被歪曲的貝葉斯理論,究竟有什麼大不了?》(由“機器之心”網站提供中文翻譯 ),講述了貝葉斯算法自身的一個矛盾(具體論證過程此處免去,可參見上面的文章鏈接):
“貝葉斯理論沒什麼神奇的。歸根結底,它就是在説,你的信念只和它的證據一樣有效。如果你有好的證據,貝葉斯理論就能得到好結果。如果你的證據不足為信,貝葉斯理論也就沒什麼用。進入的是垃圾,出來的也是垃圾。”
對貝葉斯算法來説,初始確定的概率很重要,比如前面提到“40%的成年男性喜歡閲讀軍事新聞”,這個概率判斷就是初始確定的概率,能通過社會統計獲得比較接近現實的數字,一般也比較符合常識。但是對於很多事情,比如“上帝存在”,初始概率就難説了,有人會定為百分百,有人會定為零,於是最終結果不過反映了給出初始條件者自己的主觀願望。即便
“40%的成年男性喜歡閲讀軍事新聞”,表達的也是現有的社會狀況。最終的資訊推薦結果則反過來強化了這個初始概率——愛看軍事的就更多地看到軍事新聞。認為性別是後天建構的女性主義者,恐怕就會討厭這種刻板狀況。
所以,目前的算法匹諾曹是不太懂得體貼各種人類需求的。未來他應該讓不同的趣味,不同的人羣相逢。如果只是一個升級版的沃爾瑪,算法背上的世界精神也終究只是互聯網化的於連·葛朗台。
(以下劃線部分開始快樂地胡扯,讀者可略過)
按照信息熵算法理論,如果算法只以旁觀者身份進行分類聚合排序,不增加互動,不培養信息熵。那麼在經過足夠的統計之後,一切塵埃落定。如信息熵計算公式所表明,當概率為0或者百分百時候,一切確定,信息熵就是零。
不讓信息在不同趣味羣體間對流,就好比熱力學中杜絕兩個温度不同物體的熱量傳遞,這是熵減少的過程。信息熵與熱力學的熵相反,在熱力學中,熵表示混亂程度,永遠是增加的趨勢。而在信息熵理論中,熵意味着信息,熵減少意味着信息也減少。信息熵為零,不再有擾動,對機器分類是好事,對人類不是好事,不再有碰撞,不再有激發,不再有智慧的“血氣”。

如圖:概率為0或者1的時候,信息熵(H)為0
這是一個在坍縮的信息體,就像一個正在坍縮的宇宙。大量投餵的信息被分類後,難以產生新的“核聚變”。
算法匹諾曹的藍仙子在哪裏?
張一鳴批評微信朋友圈信息推薦效率低,在某種程度上是對的。在朋友圈獲得優質信息的效率取決於你的朋友質量,有精彩朋友才有精彩資訊,如果都是曬海灘的當然沒意思。頭條不受社交關係限制,對於缺乏豐富社交層次的人來説,獲得信息效率高。可是缺少社交屬性和社交關係的積累也是頭條的軟肋所在。
騰訊目前正在低調運行“天天快報”,與微信平台以及騰訊媒體開放平台分開,未來未必不會整合。那樣就可以結合社交推薦和算法推薦,尤其可以利用朋友圈裏各種專業人士、學者點贊推薦或閲讀撰寫資訊的行為(只要他們願意公開)。帝國的反擊遲早要來,頭條們的算法武士應該儘早打造具有熵增能力的資訊關係,並發展一種把“興趣”人格化的算法社交方式。
**算法需要人,這話不止是説需要社交關係,而是策劃者的想象力。**我見過微信公號“再深一點”圍繞豆瓣上的影片打分,手工收集打分者讀書數據,非常有趣。比如給電影《勝利大閲兵》五星的人喜歡看什麼書,給一星的人又看什麼書。在這個基礎上,如果加以聰明的算法,就可以激發出新型社交模式,不過這裏不展開。
藍媒彙報告稱頭條購買了不少媒體的股份,比如世界説、新榜、多説、華爾街見聞等等。從算法的邏輯講,我以為這不是最優的收購方向。在我看,與那些擁有社交數據的媒體比如微博合作才是對的。頭條們應該收購豆瓣。不是説就要做社交,而是要擁有社交數據並利用算法激活之。豆瓣之類集聚的人之想象力,為什麼不能和機器算法互相滋養?
在當前國家形勢下,頭條們的“方法”對於瞭解國情也是有幫助的。**海量的數據,再加上一點政治眼光,就可以洞見肉眼看不見的東西。**而這需要人的想象力。**比如最近帝吧遠征臉書,**舉國震驚,也引發了很多評論。無論各方如何評價,這都是90後乃至00後網絡新人的一次亮相。各方都不太瞭解他們。商業公司需要了解他們,政府機構也需要了解他們。眾説紛紜,很多是從主觀偏見出發。
想了解他們有很多辦法,比如去採訪他們,去貼吧收集材料做統計。但百度或者頭條們顯然可以有更快捷的智能辦法,能夠通過相關評論資訊的閲讀和其他關聯數據,來考察相關人羣的特點,他們的地域分佈,他們的收入狀況,他們的興趣愛好。
我對比了一下今日頭條和一點資訊,搜索關鍵詞“帝吧”,今日頭條上和帝吧遠征有關的文章不到50篇,一點資訊上卻有200多篇,且閲讀量較高。這和二者的業界影響是不相稱的。這意味着:第一,單就帝吧事件來説,今日頭條沒能收集到足夠的數據。第二,頭條上關於帝吧的文章這麼少,明顯是受到了干預。這個不想説太深,只是要説明,即便頭條的議程也是可以被人類干預的。與其被動干預,不如主動經營。今日頭條也許躲過了帝吧風雲,但就像戰爭(軍事)是推動技術革命的最重大動力(別忘了互聯網首先誕生於美國軍事部門),唯有“戰爭”式的大事件才能逼迫一個媒體進化。從這一點上來説,頭條們還沒有接受真正的考驗。
在9月大閲兵期間,范瑋琪因為在微博曬娃遭到大量謾罵,有人批評罵人者是民粹,是買不起好產品的loser。但是學者鄒振東通過大數據分析發現他們的組成和其他羣體類似,iphone使用率很高,顛覆了主觀判斷者的意見。並最終發現是微博的算法推薦導致范瑋琪和讀者的意外碰撞。
這些命題需要有人想到,才能動用算法去做。而人的因素不像算法優化,總是可以總結成可複製的標準算法。
洞察並善用人的智慧,發揮人羣的博弈,而不是讓個人成為資訊餵食對象,才會讓算法也變得更有靈氣。今日頭條、一點資訊和天天快報,哪一家會走得更遠?
媒體人的“命運細線”
二百年前,德意志哲學家黑格爾在自家門口看見拿破崙率法軍路過,認為這個侵略者實在是“騎在馬背上的世界精神”。今天駕算法機器走到台前演講的技術人,還遠不到這樣的地位。不過新的“世界精神”就在他們身後。在新年的網絡紅包雨裏,在各種正在發芽的人工智能知識媒體裏,你能感受到這個新生命的跳動。
**這不僅是媒體人的事情,技術面前沒有誰是無辜的。**我想起不久前,南昌發生出租車司機圍毆網絡專車司機導致車禍血案事件。人們固然可以批評出租車司機因循守舊暴力相向。但是聯想到今天傳統媒體的境地,出租車司機也未必不是技術進步時代的弱者。昔日的驕子媒體人,已經感覺到寒流來襲,但或許也遇到了一個可以好好思考的時刻。
在頭條內部,內容生產者的創意情懷並沒有消失,只是轉移了。臨近春節,一則今日頭條製作的《世界那麼大,常回家看看》的Html5文章刷屏了。內容無非是對比不同關鍵詞的點擊率,證明讀者雖愛“小鮮肉”,但是更愛“老爸”。喜歡“媽媽的菜”超過“米其林餐廳”。這當然是一個米其林的植入廣告,卻體現了這樣一個趨向:傳統內容創作者的創意轉移到廣告團隊去了。廣告團隊啓發了對數據的靈活使用。
現在,創意從傳統媒體的靈魂,變成了一個幽靈,徘徊在今日頭條們的算法網絡間。將重新落定,還是黯然飄走,問誰?
羊年最後幾天,發生了今日頭條和艾瑞諮詢的口水戰,焦點是艾瑞諮詢出具的新聞客户端影響力數據,背後仍然是今日頭條與競品一點資訊的排位戰。這是新貴的戰爭形式,頭條憑藉自己的方法論和數據實力已經有底氣不屑傳統的數據調查公司。對此我不多做點評,只想説,在這商業的勾心鬥角和機器的凌厲攻勢面前,媒體人的情懷看似一件奢侈的事情。但是在這個新年,當可能承載宇宙原初秘密的引力波都已經被發現,我還是要替媒體人詩意一把——
“在天堂裏,人還不是人。更準確地説,人還沒有被投放到人的道路上來。現在,我已經被拋擲出來很長的時間了,循一條直線飛過了時間的虛空。在什麼深層的地方,還是有一根細細的繩子縛着我,另一頭連向身後遠處雲遮霧繞的天堂。個體靈魂不是她自己選擇的,而是從天堂拋出的系在她身上的細線,使她的身體身不由己。薇娥麗卡自己不可能去找到一種生命熱情,只能從自己身上發現自己的生命熱情,這就等於發現把自己的身體與影子系在一起的那根細線。從天堂那邊拋出來的細線決定了薇娥麗卡身體的生命方向和個體靈魂的在世負擔,感覺到自己的個體命運。所謂個體命運不過是,一個人感到唯有這樣的生命熱情的散發才讓自己有美好地活過的感覺,才有自己身體的在世幸福,以至於非如此生活不可。”(引自劉小楓早期作品《沉重的肉身》)
已經沒有天國了,細線就在人類和算法機器之間,牽動彼此。當我們沉淪在DAU(日活)、點擊數、轉化率、變現渠道等等之中,細線仍然在那裏,億萬流量也遮不住彼此的隱痛。
【作者出身數學系,沒學好,投入內容工作。面對技術的衝擊,思想者如何重新審視自己的位置?如何處理與技術的關係?寫作對本人也是一次挑戰,錯誤在所難免。算法生命還是個孩子,媒體精英面對未來技術資本世界也是孩子,在迷宮中掙扎進化。本文技術部分已經發表於虎嗅網。】