解鎖產品迭代新速度:A/B測試在AI大模型時代的應用_風聞
新眸-1小时前
大模型時代,效率和質量我都要
從去年的ChatGPT,到今年的Sora,國內對於大模型的討論居高不下,月之暗面、智譜AI、百川智能等國內AI創業公司也正迅速成長為大模型領域的獨角獸。為了在這場競爭中脱穎而出,這些大模型公司必須採取快速迭代的策略,以確保他們的產品和服務能夠迅速響應市場變化和用户需求。這意味着從模型設計到部署的每一個環節都需要高效且靈活,以便能夠及時捕捉並利用新興的市場機遇。
而對於大多數企業來説,如果要想在激烈的市場競爭中保持領先地位,就需要迅速適應這一變革,利用AI來賦能產品。在追求敏捷開發的同時,保證產品能力和用户體驗提升則是更重要的指標。為了實現快速迭代與優化的有機結合,A/B測試成為了一種不可或缺的工具。通過A/B測試,我們能夠在實際用户環境中並行測試多個優化版本,精確衡量每個版本對用户體驗和業務指標的影響。
A/B測試: 助力產品上線更快
如果我們想在當前的人工智能浪潮中迅速把握先機並吸引用户,就需要產品經理精心設計功能,以及研發團隊高效地開發和上線產品,並通過優化產品開發流程來確保在這場技術變革中保持領先地位。落實到具體的場景,可以通過如下方式來更快地發佈產品:
1. 更快地上線:涉及大模型相關的產品,往往涉及一系列錯綜複雜的提示和規則判斷。在有限的測試環境中,我們很難捕捉到對單個部分進行調整後的具體影響,正因如此,在真實的生產環境中進行測試顯得尤為重要。通過灰度發佈只對線上部分用户開放,拿到真實的用户使用數據,能幫助我們更全面地理解這些調整如何影響產品的實際操作和用户體驗。如果測試結果符合預期,可以進一步擴大測試範圍併發布。
2. 更快地體驗:在新功能準備就緒後,我們不會急於全面推出,而是先進行灰度發佈。這意味着我們會在一個小範圍內,比如內部員工或者經過篩選的內測用户羣體中,先行推出新功能。這樣,我們能夠在不影響大部分用户的情況下,收集到寶貴的第一手使用反饋。這些反饋對於我們識別潛在問題、優化用户體驗至關重要。一旦收集到足夠的數據並進行了必要的調整,我們就會將功能全面上線,確保所有用户都能享受到最佳的體驗。
3. 更快地回滾:在產品上線的過程中,如果遇到嚴重的問題,可以迅速回滾到之前的穩定版本。這不僅減少了潛在的風險,還為用户提供了持續的穩定服務。問題修復後,再次快速修復和上線。這種快速響應和閉環迭代的方法,能夠持續改進產品,確保我們始終走在市場的前沿。
最新特性快速發佈
案例場景:某公司在做一個問答App,為了優化問答效果,下游算法團隊準備升級新模型,但是測試環境不太方便驗證,想要直接在線上環境驗證效果。
對於這個案例場景,火山引擎A/B測試平台就可以支持通過創建一個 Feature 來實現。
• 設置變體
假設目前線上模型為火山引擎豆包模型 Skylark2-pro-4k ,我們計劃將模型升級為 Skylark2-pro-32k 來提升產品效果,為此可在 DataTester Feature 中創建如下兩個變體,根據獲得的變體內容選擇使用相應的模型。
• 設置發佈受眾
為了防止影響線上用户,在 Feature 中可以通過添加過濾規則來限制體驗 Skylark2-pro-32k 模型的用户,其餘用户則繼續使用原有模型。
通過上述步驟創建 Feature 併發布,我們能夠確保僅針對特定的測試用户ID啓用升級後的新版模型,並直接在生產環境中對新模型進行效果測試,而不會對現有用户產生任何負面影響。在測試階段,如果新版模型的表現達到預期,我們無需進行代碼修改或發佈新版本,僅需調整 Feature 的的發佈受眾規則,逐步擴大新模型的覆蓋範圍,最終實現對所有用户的全面部署。這一策略不僅加速了產品的迭代週期,還確保了產品質量和用户體驗的持續優化。
優化效果快速驗證
案例場景:某公司發佈了一款文生圖的App,經過模型的迭代,具有了文生視頻的能力,內部測試反饋不錯。但是由於測試人員數量有限,以及 case 無法覆蓋到更多的場景,考慮通過發送短信或者站內信的方式,將該能力灰度給一部分粘性較高用户,在獲得這部分真實用户的一手反饋信息後,再決定優化或者發佈給所有用户。
為了實現這個功能,我們在 DataTester 中可以將這部分用户ID篩選出來後創建一個人羣包,然後基於人羣包創建 Feature 完成灰度發佈。
• 設置變體
在 Feature 中,我們使用布爾值(Boolean)類型的變體來控制是否向用户展示“文生視頻”功能。客户端在接收到這一配置的變體結果後,可以根據結果決定是否向用户展示該功能入口。
• 設置發佈受眾
對於“體驗羣體”,我們將功能發佈的範圍設定為變體一,確保他們能夠順利訪問新功能入口。相對地,對於那些未被列入體驗羣體的用户,新功能頁面將不會被展示,從而保證了功能的逐步和有選擇性的推出。
• 更新 Feature
在內測階段,一旦產品根據用户反饋進行了優化並獲得積極評價,我們可以迅速將其推廣至所有用户。通過簡單地修改Feature 併發布,而非重新編寫代碼或打包更新,我們可以顯著縮短服務升級和部署的時間。這種方法不僅提高了效率,還通過可視化的配置管理降低了操作失誤的風險。
A/B測試:助力產品質量更高
如今,大多數互聯網產品野蠻生長的時代已經過去,人口紅利到頂,產品策略需要從快糙猛的跑馬圈地方式轉向深耕細作精細化運營方式,要精細化運營,就需要採用數據來驅動,而在大模型時代,數據驅動就顯得愈發重要。如下圖所示,調用大模型時需要調整很多參數,而如何確定最優值往往是個很困難的事情。
線下調參存在侷限
在當前,很多產品在進行大模型接入時仍依賴於傳統的線下方法。這一過程通常包括:嘗試多種Prompt、Model、Embedding 和輸入參數的組合,直至找到符合其應用場景的最優配置。隨後,通過一個手動評分流程,選定最終將投入生產的配置。具體步驟如下:
1. 構造一系列輸入樣本;
2. 利用測試腳本,將這些輸入發送給大模型,得到相應的輸出;
3. 制定一套評分標準,用以評估輸出結果(通常基於人工設定的參考標準);
4. 根據這些標準對測試結果進行評估;
5. 引入新的配置,並重覆上述步驟以進一步優化
這種方法本身並沒有問題,實際上,這是選擇向最終用户展示應用程序初始版本的最好方式。然而,這種方法存在巨大的侷限性:
• 測試輸入的範圍受限於工程師的想象,這與用户實際可能產生的輸入存在差距;
• 所採用的評分標準往往與對產品整體性能的實際影響不成正比;
• 無法全面覆蓋所有可能的變量組合,例如未能測試所有 Prompt、Embedding與 Model 的每一種組合;
• 無法捕捉到每種配置對與輸出質量無關的因素的影響,例如成本、延遲等;
線上調參更顯明智
為了打破這一僵局,我們可以通過在線上環境中取一部分流量進行A/B測試,或者針對特定用户羣體開展實驗,收集真實用户的反饋。這些數據將幫助我們評估不同參數設置對系統性能的具體影響,包括輸出質量、系統延遲、運營成本、用户滿意度以及用户留存率等多個關鍵指標。這種方法能夠為我們提供更為精確和全面的洞察,從而指導我們做出更加明智的決策。
為了實現上述目標,我們可以在 DataTester 中創建一個30天、10%的線上流量的實驗,用於驗證 Skylark2-pro-4k 和 Skylark2-pro-32k 模型對系統的影響。為了將影響量化,我們設置了一些評價指標,如點贊數、點踩數、對話輪次、響應時長等。在實驗結束後,可以通過查看實驗報告,根據對照組或者實驗組優勝情況決定使用哪個模型。
如果有多種參數都需要驗證,每個參數如果都設置 30%流量,10個就需要 300%的流量,是不是就無法支持了呢?為了解決這個問題,DataTester 研發了流量分層技術——“實驗層”。
實驗層把總體流量“複製”無數遍,形成無數個流量層,讓總體流量可以被無數次複用,從而提高實驗效率。各層之間的流量是正交的,你可以簡單理解為:在流量層選擇正確的前提下,流量經過科學的分配,可以保證各實驗的結果不會受到其他層實驗的干擾。
通過精心設計的A/B測試,我們得以精確地確定了各項參數的最優設定,確保了效果提升的最大化。這種方法的優勢在於其高效的實驗流程,它允許我們基於數據科學的對比和評估不同的參數組合,從而快速鎖定那些能夠顯著提升產品表現的關鍵因素。此外,A/B測試的結果為我們提供了有力的數據支持,使我們能夠確信所採取的優化措施對產品有着積極的、顯著的正面影響。
A/B測試:助力產品競爭力更強
賦能各類需求場景
A/B實驗支持App、小程序、Web頁面等多端,可視化實驗、廣告實驗、推送實驗等場景也可以滿足企業各類需求。 通過A/B實驗的實施,我們可以迅速地將先進的大模型技術整合到產品的各類場景中,這一舉措極大地提升了產品的智能化水平,同時也顯著改善了用户的互動體驗,進一步探索出了更多的應用場景,給用户提供了更多的玩法。這種機制使我們能夠持續地對產品進行精細化調整,確保每一次迭代都能在業務指標上取得實質性的進步。在這個快速變化的行業中,A/B測試賦予了我們不斷前行的勇氣和信心。它讓我們堅信,只要我們基於數據做出決策,就敢於進行必要的改變和創新。
智能優化實驗策略
A/B實驗支持智能優化,幫助產品低成本最大化收益,你只需要列出所有的實驗策略,A/B 系統會實時幫助你關注不同實驗策略的優化目標變化,並根據各策略的實際表現,動態地對流量進行分配,最終幫你在實驗場景流量較少的情況下,找到優化目標最優的實驗策略,同時獲取最最大化的實驗收益。這就逐漸形成了一個正向循環,提升產品能力 ->接入大模型 -> 最大化產品收益 -> 提升產品能力。
正如學習過程中不斷積累知識一樣,產品開發也是一個不斷進步的過程。在這個過程中,我們必須不斷前進,因為停滯不前就意味着退步。A/B測試為我們提供了一個科學的實驗平台,讓我們能夠在不斷嘗試中學習和成長,從而在激烈的市場競爭中保持領先地位。它不僅幫助我們從探索者的角色轉變為行業的領導者,更讓我們在這場技術革命中,從跟隨者變成了引領潮流的先鋒。這種以數據為核心的測試方法,是我們在產品發展道路上不斷突破自我、追求卓越的堅實基石。
總結
A/B實驗給了我們“變”的底氣,賦予了我們”變“的信心。這種以數據為核心的實驗方法,是我們在產品發展道路上不斷優化和創新的關鍵。它基於數據驅動的原則,引導我們進行精細化的運營。在這個過程中,我們持續地突破極限、創新思維、提升品質。正確且有效地運用A/B測試,能夠使產品變的 “更快“、”更高、“更強”,在大模型時代助力產品勇立潮頭!