一年8萬次A/B測試,誰是抖音兇猛的幕後英雄_風聞
深响-深响官方账号-全球视野,价值视角。2021-06-22 21:08
從勇者為王到精益創業,一代又一代的企業在這個瞬息萬變的商業世界中追尋着增長的脈動與規律。大到國外的Google、Netflix、亞馬遜,國內的字節跳動、BAT,小到十個人的創業公司、一個人的產品思考,所有人都渴望撥開重重迷霧、錨定真正的增長引擎。
在眾多的增長方法中,以數據驅動為核心理念的A/B測試是當下最為炙手可熱的嘗試之一。為了進一步釐清這一增長方法的來龍去脈、可行性與適用範圍、真正價值與常見誤區,「深響」在充分的國內外案頭研究基礎上,訪談到多位一線操盤手,沉澱出當下市場對於A/B測試、數據驅動的主流理解與實際落地應用的情況。
今天為您奉上增長實驗室系列第3篇,《一年8萬次A/B測試,誰是抖音兇猛的幕後英雄》。
©深響原創 · 作者|陳文琦
追求極致
怎樣讓用户看視頻的體驗更好?
作為支持抖音的數據分析師,蘇嘉沐的工作總是在嘗試解決這個沒有盡頭的問題。
瘋狂生長的抖音已有超過6億的日活躍用户,龐大的用户量要求團隊對每一個微小細節的改動都異常謹慎。在這個出了名的“用數據説話”的公司,A/B測試像是一道關卡,是產品迅速的更新迭代中,必不可少的一環。
今年年初,抖音的UI設計師提出,或許可以優化文字和視頻內容之間的蒙層,讓視頻界面上的文字更突出,用户刷視頻的體驗會更舒服,從而停留在App上更久一點。
那麼蒙層的高度和透明度如何設置,才能達到預期效果呢?這隻有通過A/B測試能知道。確定了優化目標之後,蘇嘉沐的團隊着手開始設計實驗方案,調整蒙層的高度、透明度這兩個主要參數,後續交給研發團隊做實現,最終分流給不同用户。
“這是一個不斷趨近它的局部最優解的過程。”蘇嘉沐説。圍繞兩個變量的組合,團隊對小小的蒙層進行了為期半個月的實驗。每個方案,不同參數的組合,會需要7天左右的觀測時間,來收集用户觀看時長、留存等指標。
最終,敲定了最佳方案(下圖2),相較原版本,它讓人均App使用時長提升了約0.2%,人均App活躍天數提升了約0.1%。
仔細對比左右兩圖,在標題和視頻內容中間的蒙層有細微差別 團隊通過A/B測試結果,最終選擇了右圖方案
類似上面蒙層的例子數不勝數,比如抖音原來的界面設計裏,為了簡潔美觀,以偏符號性的按鈕設計為主,類似愛心代表點贊,省略號代表評論。但是在評估用户體驗時團隊發現,這樣的設計對不熟悉產品功能的新用户來説並不友好,他們很少主動使用。通過A/B測試,團隊添加了更直觀的文字提示去引導用户行為。
A/B測試貫穿了抖音的整個生命週期,從產品命名、功能、交互設計到推薦算法策略,這是字節跳動的基因。
2012年,公司剛成立,掌舵人張一鳴還在自己一行一行地敲代碼時,A/B測試就開始了,通過科學、可量化的方法去協助人做產品決策。
“其實A/B測試在某種程度上,使得信息更透明,大家去對話的時候更公平有據。而且對於我們各種各樣的協助方來説,能累計對產品的認知,完整理解業務。”蘇嘉沐告訴「深響」。
現在,單抖音一個產品,每年會開6-8萬次實驗。整個公司內部,目前每天約新增1500個實驗,服務涵蓋廣告優化和市場活動等400多項業務,累計已做了70萬次實驗。説A/B測試是字節跳動創造增長神話的秘密武器,毫不為過。
若沒有一個通用的工具,要完成如此量級的A/B測試,近乎不可能的任務。幕後,是字節很早就開始打磨內部的A/B測試平台Libra。
打磨利器
Libra這步棋,字節下的很有前瞻性。
2014年,公司已經開始推動A/B測試的平台化,“讓它更嚴謹,以及發現它的問題,在公司中更廣泛地使用”,副總裁楊震原在4月的一次技術開放日的演講上説。到2016年,Libra已正式在內部推行。
這是真實需求推動的結果。字節內部數據驅動的價值觀深入人心,對於A/B測試這種量化和科學評估的方法,需求越來越高頻。
“剛開始產品少,主要圍繞今日頭條的推薦算法去做A/B測試,但隨着業務不斷壯大,團隊有很多新的idea,(A/B測試工具的)規模化就有訴求了。”Libra PM 慧開告訴「深響」,“A/B實驗,比較依賴於數據計算分析能力,數據中台化,很早就在字節萌芽,這都為我們做Libra提供了很好的基礎。” 有了數據建設和工具的基礎設施,她用了“水到渠成”這個詞來描述Libra的發展。
但字節跳動產品眾多,增長飛輪不斷加速,在這樣的背景下,如何去打造一個通用性的平台?
字節龐大的產品矩陣 圖源:官網
事實上,中台和業務的多樣性,本身是不衝突的。但難點在於,不同的產品,訴求千差萬別。信息流產品、工具類產品、直播產品等,相應的A/B測試的實驗場景不同。而且,在使用Libra之前,內部不同團隊可能都有自研,或正在使用的A/B測試工具了,這又給Libra帶來了新的挑戰和競爭。
一步一步來。Libra的研發團隊深入業務,去了解每個產品的技術形態,需要怎樣的A/B工具接入;瞭解數據是如何流轉的,而應對不同數據規模,Libra又應該如何做處理。
“我們儘量把其中共性的東西提煉出來,構建技術支撐,並把一些核心能力和場景梳理好;另一方面,針對業務的特殊需求,投入專人去做。”Libra研發人員子牧解釋道。
不過眾所周知,“中台”類型的工具如果得不到內部業務端的支持,最終就會淪為雞肋。Libra能在字節裏持續進化,離不開字節內部的高效協同。
蘇嘉沐告訴「深響」,在使用過程中,遇到Libra難以解決的問題時,提出需求,研發會快速跟進。“假設我們在某個實驗中,需要一個功能,是對特定用户分流,或者是,需要新增一個指標的顯著性計算等等,我們都能迅速、直接地找到他們(研發團隊)。”她説。
字節產品多,業務線龐大,A/B實驗需求旺盛,但是通過雙向的溝通,Libra成為了功能強大、場景覆蓋廣闊的測試平台。它能從統計學上比較科學地去解決用户分流的難題。在實驗進程中,Libra提供了一個全面指標監控體系,使數據變化實時可追蹤,幫助後續決策。
經受幾十萬次實驗的打磨,Libra不僅積累了字節A/B測試的技術手段,也沉澱着對這一方法的認知。
需求來了
Libra在字節內部生根發芽,與此同時,商業世界,特別是互聯網公司對於A/B測試的認知也在擴散。
國外科技巨頭谷歌亞馬遜、FB、Netflix等都是A/B測試的擁躉者。國內騰訊、阿里、百度、美團、滴滴等頭部互聯網公司也在積極採用這一增長方法。而一些中小創業公司看到了A/B測試的功效,正在試圖用數據驅動的理念,讓公司跑得更快、更穩。
這給了字節跳動把內部工具Libra外化的環境契機。
2017年,一些對字節技術非常認可的客户主動提出了需求。這些需求促使字節團隊試水,輸出了以A/B測試工具為核心的一系列數據分析工具。2019年,在初步嘗試之後正式立項,字節開始決心做一個對外的A/B測試平台,讓更多外部客户可以使用這個增長利器。
“本質的驅動點是,這個工具能服務內部,也有機會在外部市場上產生價值, ”子牧參與了A/B測試產品化的推動,他説,To B的事情,團隊也是從零開始,但是結合內部的經驗和外部的市場預期,大家很有信心。
不過,雖然數據導向已是共識,科技公司對A/B測試的認知開始成熟,但是落到實際操作,A/B測試的應用依然不廣泛。
究其原因,其一,A/B測試的時間、研發、資金投入成本高,對中小團隊來説,為A/B測試做數據基建未必是一個高收益率的選擇。其二,技術壁壘高,A/B測試原理簡單,但在應用中,根據case的複雜程度,實驗設計要求非常精細。若在分流、指標設計、統計和解讀環節有漏洞,A/B測試只能説是事倍功半。市面上有獨立的第三方A/B測試工具,但尚在分散狀態,未見明顯領軍者。
字節的A/B測試工具是火山引擎在智能營銷套件產品應用層的重要產品。面對上述痛點,這個工具希望為企業提供專業的分流能力、科學的統計算法與豐富的實驗功能。
從內部工具到對外輸出,這款工具的邏輯思路發生了微妙的變化。子牧用兩個關鍵詞——“化繁為簡”、“從簡單到豐富”——來概括這樣的變化。
一方面要讓這個A/B平台相比Libra更簡單易用。
“早期孵化時期,我們多做減法,抽象精簡,儘量降低門檻和用户成本,而非直接開放Libra。”他説。但外部市場的很多客户在A/B測試方面的技術投入和能力差距比較大,讓用户先接觸這個工具,有機會把它用好,是必須要走的一步。
另一方面是拓展到各個行業,以及在常用場景上做深度迭代,即“從簡單到豐富”。
最初一批種子用户主要來自泛互聯網行業,主打的訴求就是增長、增效。這是字節的優勢場景,內部已有很多實踐,頭條、抖音等成功產品,經驗和方法沉澱、體現在產品中。其實,有數字化轉型訴求的傳統行業,比如金融,也有A/B測試的需求,這要求實現跨行業通用的產品支持。並且,在廣告、營銷等有重點需求的場景,做更精細化的運營。
經過2019年一整年的內部孵化,2020年初,火山引擎的A/B測試工具已經開始了規模化嘗試。
A/B測試是火山引擎智能數據產品中最強的單品之一。在整個火山引擎To B架構應用層中,還形成了彼此強關聯的產品體系,包括UBA、CDP、GMP等。它們通過數據分析和洞察——策略設置——實驗上線驗證——功能上線——效果再驗證,這一整套完整的閉環全方位助力解決企業的增長困局。
種子用户的體驗已經初步驗證了上述思路。
比如預約出行服務平台悟空租車。租車出行場景裏,不可缺少的環節之一是押金繳納。押金繳納有多種形式,如直接繳納、第三方信用免押等。對於用户來説,在付款環節若無法使用信用進行免押,就必須同時支付一筆額外的數額較大的押金,增加的現金流成本會影響用户決策,這直接波及平台的成單率。
悟空租車團隊希望找到一種方式,降低押金開銷帶來的對決策的負面影響,提升下單轉化率。因此,團隊通過火山引擎A/B測試產品,設計了一組實驗:
對照組:現行支付流程,用户在下單頁面需要同時支付租金與押金;實驗組:新方案,用户在訂單支付完成後,再進入押金繳納頁。
悟空租車設計的A/B測試,新方案分離了押金繳納頁。
實驗運行兩週後,團隊發現針對“最終下單完成”這一指標,實驗組比對照組上升了7%。用真實數據説話,實驗之後,悟空租車決定開放新方案給全量用户。
字節自身的經驗賦予火山引擎A/B測試這一產品極大的優勢。子牧認為,相較國內外其他A/B測試平台,目前從產品能力的完備性和實驗場景的豐富度上來講,火山引擎A/B產品毫不遜色。
這既包括實驗基礎的流程管控能力,也包含實驗後的報告分析能力。背後依託是頭條、抖音這些大數據規模場景下的驗證。同時,內部很多成長中的業務,也為產品提供了高覆蓋度。
ToB市場的客户需要的不僅是一個產品,還有方法來落地。“不僅在推進對接客户中,而且在後續的實驗方法論培訓、重難點分析支持、運維等方面,我們也提供服務。”他説。
我們回過頭來看A/B測試本身,這絕非易事。很多時候,方法原理越是樸素,可延展性就越高。用慧開的話來説,對A/B測試,她經歷了四個階段:你並不知道自己不知道;知道自己不知道;我知道自己知道;我不知道自己知道。
最初接觸A/B的時候,覺得實驗分流、統計分析並不難實現,非常容易復刻。但是隨着各項產品發展的速度,複雜棘手的問題頻頻出現,簡單的方案無法滿足業務需求,人的經驗和對業務的深刻理解愈發重要,A/B測試背後那麼多門道,她認識到“方法比功能更重要”。再往後,順應業務發展,人也在迭代,摸清了一些規律,發現問題後能夠更多維度去尋找解答。“更上一層,是我們要努力的方向吧,可以得心應手地用A/B測試去解決各種各樣的問題。”
A/B測試工具是一個有力的把手,其延伸開來是火山引擎提供的整套的解決方案——基於字節跳動的成長理念,火山引擎將服務字節跳動從0到1、從1到N的能力與工具產品化輸出的具象體現。
結語
其實説起來,“抖音”這個名字並不是A/B測試結果的第一名。
當時產品已有demo,但還未正式發佈,於是團隊把產品用不同的名字和logo包裝,在應用市場商店做A/B測試,並且保證對方案們投入同樣的預算,同樣的位置以測出用户對名字的敏感度,吸引力程度,下載轉化率等等。
“抖音”排名第二。團隊討論認為,相比第一名,“抖音”長期來説更符合認知,更能體現產品形態,於是採納了這個名字。
A/B結果是為決策提供依據,最終做出判斷的還是人。
蘇嘉沐告訴「深響」,有一次團隊對內容策略進行調整,按理説內容供給很重要,需要鼓勵用户去發佈內容提升平台豐富度。但A/B測試的結果卻讓團隊犯了難——如果算法多給用户推薦可模仿的模板視頻可以提高投稿率,但同時,過多的同質化視頻會讓用户整體消費的時長變短。
“在平台更多的內容輸入和用户整體的消費體驗之間,必須做出權衡。”蘇嘉沐説:“這就還得迴歸到產品的價值觀來做決定。「用户最終的使用黏性」成為這個案例裏的評估尺度。”
A/B測試不是靈丹妙藥。理解它的工具屬性,或許是正確認知的第一步。
(以上採訪對象為化名)