當年輕人在説“夸克真香”,他們在説什麼?_風聞
观察者网用户_243785-2021-01-22 19:32
文 | 史中
這世界上有兩種人不好惹,P站用户和B站用户,而且他們還很可能是同一撥用户。
我相信B站用户永遠正確。畢竟即使不正確,等把那些不喜歡他們的叔叔阿姨熬到帕金森擂不動鍵盤的時候,他們自然也就正確了。
所以,我的一個隱秘癖好就是:蹲守在很火的B站視頻中,研究大家在彈幕裏討論什麼東西。
前兩天,我偶然看到了知名UP“蘇星河”的一個視頻《我來講講為什麼Safari是手機上最好的瀏覽器》,結果正片還沒開始,一票水友都在彈幕上刷:“夸克真香”、“夸克yyds”(永遠滴神)。
一堆誇“夸克”的誇誇詞彙碾過屏幕,讓屏幕正中的 Safari 圖標多少帶點尷尬。

他們説的夸克,應該就是那個“夸克搜索”。
我估計淺友裏肯定有人還不知道夸克,這情有可原。畢竟這個搜索引擎是年輕人的菜,你們不都是像我這樣的00後。
我記得大概兩年前下載了夸克,它用起來簡單直接,比 Safari 快了十個百度,特別適合我這樣的快槍手。
於是它被我分在了這樣一個奇怪的文件夾裏。

可夸克到底好到啥程度,以至於一羣粉絲要去 Safari 的地盤上游行?這個我還真拿不準。
我決定仔細研究一下。
當然我的研究方法比較NB,畢竟我是一個想認識誰就能認識誰的中哥,是時候施展魔法了。我戴上口罩衝進北京零下20度的寒風裏,直接去找夸克 App 的產品技術同學們喝了個咖啡。
(一)一個拯救學渣的搜索系統
一位夸克的同事看到風塵僕僕的我,説:“中哥你來晚了,整個2020年已經有好多老鐵換了各種姿勢誇我們了,用户量比火箭竄得還快。”
“你們究竟幹了什麼,難不成把大家都給PUA了?”我問。
那不敢,不過這兩年我們在夸克搜索裏做了很多功能,比如“指令控制”、“搜索直達”,大家都挺喜歡。但説出來你可能不信,2020年我們最香的模塊是“夸克學習”。
他説。
“納尼?夸克學習?有人在搜索裏學習?學啥?咋個學法?”
我掏出手機定眼兒一瞧,還真有。。。

雖然心裏全是問號,但中哥畢竟是身背一定流量的偶像,舉止要沉穩。於是我冷靜了一下,説:“我懂,我也是愛學習的人,在我的D盤專門有一個文件夾叫就叫做學習資料。總之我想和夸克學習的團隊聊聊。”
於是,夸克學習的產品經理夏雅曈坐在了我面前。
你聽聽這個名字的風格,如果不是民國時期的人,那一定是個90後。果不其然,她是一位93年的妹子,創造了我從藝以來見過產品經理的年齡最小記錄。

夏雅曈
然而她的記錄只保持了15秒,因為旁邊這位名叫寇至爽的團隊成員是94年的。。。

寇至爽
故事就從2020年春天説起吧。
那時候,你懂的,幾乎所有有頭有臉的 App 都上線了疫情防護的模塊。畢竟這麼多年夸克是一票年輕人的心頭好掌中寶,保護我方祖國的花朵很重要,於是夏雅曈他們春節加班搞定了幫大家防疫的“疫情實時動態”模塊。

一口氣還沒喘勻實,他們突然發現一個有趣的現象:在夸克上“搜題”的老鐵越來越多,暴增50%。
搜什麼題呢?
“比如有人會搜《岳陽樓記》,這看上去很像是在做作業。”夏雅曈説。
“我不信,萬一是古詩文愛好者呢?”我擺出魯豫臉。
“從當時的大數據來看,搜語文知識的人通常也會去搜索勾股定理、英文單詞之類,還有一些地理歷史知識,你看,這就非常像學生了。”她説。
到底為啥這麼多人在夸克搜題嘞?
其實很好解釋:第一,夸克的用户羣本來就是年輕人,有很多人在親自上學。第二,疫情剛穩下來,學生們都被困在家裏上網課呢,平時做作業遇到不會的題也沒老師可問,最方便的可不就是上網搜麼。
寇至爽他們想了想,忽然想出了一個“至爽”的腦洞——既然用户這麼喜歡搜題,那我們為什麼不幫人幫到底,送佛送上西天呢?
於是,他們設計了一個逆天的“小球”。同學在釘釘上網課的時候,夸克就變成一個小球安靜地蹲在右下角,當屏幕上的PPT裏出現了題目時,只需要點一下小球,見證奇蹟的時刻就到了。
夸克會把屏幕截圖,框選題目,它就會去後台的題海里匹配,然後瞬間返回這道題的答案。不僅有答案,還有解題過程和思路,比閃電五連鞭還快。

大概就是這麼個效果
萬萬沒想到,上個網課還開掛了呀。
金盃銀盃不如學渣的口碑,大家都沒反應過來,幾天之內夸克 App 的下載量已經衝到各大應用商店的前頭。
最巔峯的時候,所有過來的截屏搜索請求,有90%都是在搜題目。
寇至爽挑挑眉毛,示意我不用控制,可以盡情誇他。
僅僅是做了個小功能,就帶來這麼大的搜索量,夸克團隊的小夥伴都驚呆了。不過開心之餘,他們馬上發現一個巨大的 Bug——海量的搜題請求並不是每一次都能得到答案,有很多同學歡歡喜喜搜題來,但卻兩手空空回家去。
這是為啥呢?
這裏給你科普一段小知識:
1、負責為同學們的題目找答案解析的東西叫做“搜索引擎”,這個你是知道的。
2、搜索引擎分很多種,最主流的叫做“網頁搜索引擎”,百度、Google,包括夸克主要的搜索引擎都是“網頁搜索引擎”。你輸入關鍵詞,它能幫你找到相應的網頁。
3、還有很多其他搜索引擎,例如我們用到較多的就是“圖片搜索引擎”。你輸入關鍵詞,它給你找到相應的圖片,或者你上傳一張圖,它給你找來類似風格的圖片。

問題來了:那搜題的引擎是啥引擎?
在中哥看來,這應該是一種結合了網頁、圖像、人工智能技術的“專用引擎”,它的工作原理攏共分三步:
1、一邊它會先用文字識別技術,把用户拍的圖片中的文字抽取出來,得到一個題目的純文本。

2、另一邊網絡上有海量的題庫,很多也是圖片的形式,同樣要抽取成純文本格式。

3、最後把用户提交的題目和題庫裏的題目的純文本做匹配,從而找到這道題的答案。

説到這你可能有點感覺了,搜題引擎和傳統通用引擎不太一樣:
如果把通用搜索引擎比作人人都坐的汽車,那搜題引擎就像是小區裏送快遞的“菜鳥無人車”,雖然個頭不大,也不是人人都用,但技術含量卻是槓槓的。
好,科普完畢,我們回到故事。
説個小內幕。在疫情之前,夸克搜題確實是個小眾功能,所以團隊並沒有投入很多精力,背後的“搜索引擎”接入的是第三方服務,效果差強人意。
這回看到搜題量暴漲,團隊同學們立刻從葛優躺變成了金剛狼:咱們是不是要自己推出一個搜題引擎?這樣不僅掌握核心科技,還能大大提高解題率!
畢竟家裏技術底子還是有的(夸克是阿里巴巴的產品),夸克的同學們決定,搏一搏單車變摩托。

(二)老司機鬥麻匪
重擔一下子壓到了夏雅曈和團隊的身上。
作為產品經理,他們首先要回答一些靈魂拷問:究竟哪些學生在搜題?他們會在什麼情況下搜題?他們搜題時希望看到怎樣的答案?
這些問題的答案可太太太重要了。畢竟,你懂的,如果搜題的都是學渣,想要抄答案,那這個產品道德上就不太成立了。。。
於是,夏雅曈在夸克裏向使用搜題功能的同學們發送了邀請,讓他們來一場赤裸裸的“靈魂自白”。
結果大大出乎意料。
我猜你和我一樣,以為只有學渣會搜題。但事實恰好相反,學霸也搜題,而且搜得更多,更狠,更仔細。想想倒也合理,比你有錢的人,一般都比你努力。
其實學霸搜題的需求很複雜:不僅要找答案,還要了解詳細的解題思路,還要知道這背後隱藏的知識點,最好再來幾道同類型的題目鞏固一下才心滿意足。非常之雞掰。
其實不光是學生,老師和家長也要搜題。
老師在課堂上要講課,課後要批改作業、備課、輔導,拍照搜題可以幫他們把解題的時間節省下來,把更多精力放在琢磨教學內容上。
家長們主業是上班,晚上副業還得輔導孩子,經常還遇到題目不會做,甚是丟人。即使自己會做,但是有時又跟孩子講不明白,這時候他們也需要搜題。
這些事實讓夏雅曈他們虎軀一震,原來搜題功能真的可以幫助更多愛學習的同學節省時間,鞏固知識。那這利國利民的事兒可就幹也得幹,不幹也得幹了。
2020年6月,就在人們在蘇星河的視頻上刷“夸克真香”的檔口兒,“自研搜題引擎”項目正式上路了。
説到這,就不得不給你介紹一位新朋友,王傑雄。
王傑雄是一位技術大咖,想當初90後還忙着早戀的那些年,他已經加入了阿里雲,和大家一起做“雅虎中文搜索”(估計很多00後都沒聽過),掐指一算,搜索技術這事兒他已經幹了十年。

王傑雄
接到夸克的任務,他露出了大菊已定的微笑:就這?
然而,上手之後不久,一種隱隱的哪裏不對的感覺襲來。彷彿一個即將上任的縣長,本來吃着火鍋唱着歌,一抬頭突然面前出現一票麻匪。

這第一個麻匪就是“文字識別準確率”。
文字識別,準確名稱是 OCR(光學字符識別 Optical Character Recognition)。它像一個不知疲倦的“謄寫師傅”——你把一張圖片給文字識別系統,它就能幫你把上面的字給識別、抄寫出來。
你有沒有給支付寶綁過銀行卡?掃一下卡面就能識別出上面的卡號,這就是文字識別系統乾的。

大概就像這樣。
但是,這系統也不是神仙,它有一定出錯的概率。越是質量差的照片,從中提取文字就越可能出錯。(這並不怪系統,你平時看一些學習資料時,陳年畫質和高清無碼,你從中學到的知識量也是不同的嘛。)
問題是,這套文字識別系統是阿里巴巴技術中台團隊做的。王傑雄為了趕時間,只能拿現成的用。
雖然中台團隊老師傅的技術沒的説,但這個系統是針對通用場景的文字識別,沒辦法針對搜題場景做優化。(畢竟這個系統服務整個阿里巴巴,沒辦法為了夸克一個八字沒一撇兒的功能做定製開發。)
所以在文字識別率上,王傑雄就像開特斯拉撞蚊子——有勁兒使不上。
好吧,這第一個麻匪消滅不掉,只能先對付第二個。
這第二個麻匪就是“帶噪搜索”。
由於 OCR 識別存在一定誤差,所以會給搜索算法帶來巨大的困難。
舉個栗子:
比如一道應用題,原題寫的是“小明拿着紙幣買裙子”,也許被系統識別成了“小朋拿着紙巾賣裙子”,這種情況下繼續搜索,就叫搜索請求中帶着“噪聲”。
更大的噪聲來自於用户拍題的時候——有可能手抖,題目很模糊;有可能框選的範圍太大,除了要搜的題目,前後還各帶了半道雨女無瓜的題目。

例如拍這第5題,在拍題的時候會出現混入手寫字、框選到其他題目、照片不清晰等等問題。
很多時候,帶了噪聲看上去就像完全換了一道題,系統自然就沒辦法把這道題和題庫中的題目匹配準確。
這時,王傑雄他們就要盡力讓系統學會“帶噪搜索”。
簡單來説,就是香農的信息論原理。信號有噪聲的情況下,就要增加信息的冗餘。
王傑雄説。
舉個例子吧:比如你跟朋友打電話約在地鐵站B口見面,電話裏對方聽不清你説的到底是B還是D,你也許會説:“我們在B口見面,AB的B,二B,不是四D。”
你看,你很可能不認識香農,但你自動採用了信息冗餘策略,用了四種方式表達“B”,對方一般就不會理解錯誤了。
王傑雄他們正是用了同理的操作,每一道題都用不同的顆粒度切分,換幾種維度表達。這種表達雖然囉裏八嗦,但是卻大大提高了匹配的精準度,算是曲線救國了。
不過這還不算完,更多的問題仍然擺在面前。
這第三個麻匪就是“公式歸一化”。
上過中學的淺友都知道,各種題目到了中學就不再“單純”了,比如這貨:Cu₂(OH)₂CO₃,鹼式碳酸銅。再比如下面這道題:

你發現沒,題目裏有各種角標、特殊符號,是你日常打字根本不知道怎麼打出來的。
你都不知道怎麼打,程序當然也不知道怎麼打。。。不過,幸好科學家和代碼大神們已經總結好了一些規則,用一串直線排列的代碼就能表述出這些亂七八糟的公式。
可問題來了,對於同一種公式的表述規則有很多種,並不統一——就像同一部片兒,有 avi,有 rmvb,有 mp4。。。兩個人見面,一個人説“Hello”,另一個人説“弄啥嘞”,那不可能匹配成功。
於是團隊必須把題庫裏的各種公式的每一種表述都找出來,然後轉換成統一格式,這就是公式歸一化。
除了上面説的三個麻匪,還有圖片傳輸壓縮、算法和功耗的平衡、題庫本身豐富度等等,“麻匪”漫山遍野,一眼望不到頭。。。。
王傑雄發現,這不是“讓子彈飛”,這根本就是“亂槍打死”。這一大堆事要是等一個人搞完,那恐怕人類都登陸火星了。他趕緊吹響“集結號”——跟領導申請把其他技術同事一個個拉上船,並肩作戰。
沒顧得上開神馬“誓師大會”,技術攻堅組就這樣緊急成立了。
埋頭苦幹一個月,這套搜索算法終於做出了雛形。夏雅曈他們趕緊拿來一些測試題目,結果是:這套算法的識別率只有友商的一半兒左右。。。
這個結果,如翔一般。
盤了盤,王傑雄發現根本原因還是整個搜索的鏈路太長——用户拍照的清晰程度、用户框選題目的精細度、文字識別的準確程度、文件傳輸中的壓縮比例、題目搜索的比對算法,每一步都有一定的信息損耗。
這種長鏈路的問題就如同你玩過的那種傳話遊戲,一個同學傳給另一個同學,他再把聽到的內容傳給下一個同學。傳到最後,往往已經把“前門樓子”傳成了“肩膀頭子”。。。

然而,市場的競爭不等人,疫情籠罩下的2020年,你懂的,各大拍照搜題軟件都在拼命激戰搶奪用户。
果然,團隊接到了來自領導層的驚天命令:自研搜題模塊要在國慶節上線!this is an order,不容爭辯。
王傑雄他們看看錶,現在已經7月多了,過去論天過,現在就得論秒了。。。
(三)二營長,拿我的“核武器”來
夸克學習技術團隊把吃奶的勁兒都使出來了,瘋狂地優化這個“傳話遊戲”。
那段時間,王傑雄他們做夢都在想優化策略。但是,經常出現的結果是:一個優化策略上了之後,一半的題目解題率升高,另外一半兒的解題率反而下降,就像在游泳池裏玩蹺蹺板,一個人浮出水面喘口氣,對面那個人就被淹在水下冒泡了。。。
到後來,為了該用哪些優化策略,這羣技術宅越討論越急眼,眼看就要從説服變成睡服。他們乾脆決定,兵分好幾個小組,各自研究心儀的優化策略,最後再把這些技術疊加起來。
技術宅有技術宅的計劃,世界另有計劃:如此捨命狂奔,儘管和友商的解題率差距在縮小,但始終還是追不上。
夸克怎麼説也是一個有牌面兒的搜索引擎,如果國慶節就這個亞子直接發佈出去,那簡直是所有人都不能忍受的公開處刑。
禍不單行。
進入暑期,夸克搜題的活躍度開始肉眼可見地下降。原因很簡單——同學們放假了。即使是學霸,也不會凡爾賽到放假的時候也天天搜題吧。。。
那麼,這些同學還會在9月份開學的時候如約回來嗎?萬一不回來,我們做了這麼久的新搜題引擎給誰用呢?大家心裏緊張得如同初戀的少男。
從8月最後幾天開始,所有人都捂着眼睛,從指縫裏看夸克後台搜題功能的用户人數有沒有增長,就跟老韭菜看着自己的股票持倉一樣:哀其不幸,怒其不爭。
他們悲傷地發現,用户數並沒有回到上學期期末的時候。。。
然而,就在他們確認自己要涼了的時候,9月5號左右,搜題的用户突然開始暴漲,勢如破竹,很快就掙脱了之前的最高點。
又驚又喜的夏雅曈、王傑雄他們突然意識到,原來因為疫情的原因,全國的學校是錯峯開學的,學霸們雖遲但到,直到9月上旬才馬力全開。

誠如夸克學習的搜索框所言:我愛學習,學習使我快樂。
這下有兩件事是板上釘釘了:第一,國慶節新引擎鐵定是要發佈了;第二,哪怕按國慶七天樂最後一天算,此時距離發佈也只有一個月了。
怎麼用一個月的時間把搜題質量提升到世界級水平?
技術團隊對視一眼,貌似只有使用最後一個“核武器”了!
你還記得我們之前留了一個伏筆麼?最開始,技術團隊曾經繞過了第一個“麻匪”,文字識別系統(OCR)。
其實大夥兒都知道,文字識別系統在整個搜題鏈路裏是最重要的環節之一,但是,因為技術非常複雜,恐怕不是一兩個月就能做出來的,所以夸克技術團隊沒敢碰,一直在用集團提供的現成文字識別系統。
事到如今,無路可退,老司機只有背水一戰。

沒錯,他們的“核武器”就是——自己造一個完美契合搜題場景的文字識別系統。
智能搜索業務部負責人吳嘉盤點了一下,還真有一羣人適合做這套系統,這就是過去有視頻內容文字識別經驗的黃鋭華團隊。
如果是一般人,接到這樣的任務也許下一秒就準備辭職信了。但黃鋭華不是一般人,非但面不改色,反而有點小興奮呢。
説起來,黃鋭華也是阿里巴巴最早做搜索的那撥大神,從當年的阿里巴巴商品搜索,到後來的UC瀏覽器全網搜索,都有他團隊的身影。
十年搜索經驗填過的坑無數,不僅讓他們團隊積累了堪比《九陰真經》的經驗,還在兜裏攢下了一堆“暗器”:
我們團隊有一個“工具箱”,裏面全都是這麼多年積累的自動化工具,有深度學習的,有模型優化的等等。普通團隊搭一個新系統像蓋瓦房,需要一磚一瓦從頭來過;有了這些工具,我們搭一個系統就像拼插樂高積木,時間會大大縮短。
黃鋭華露出老師傅的蜜汁微笑。
搜題所需的文字識別系統需要有兩個功能:“印刷體文字識別”和“手寫體文字識別”。一個月的時間把兩個功能都做出來是來不及了,他們商量了一下,先只做相對容易也用處更廣的“印刷體文字識別”。
接下來又到了硬核科普的時間段。
做一個文字識別系統最最核心的工作就是“訓練”。
訓練,簡單説就是讓人工智能看大量的數據。這個數據不是普通的數據,而是“標註數據”。
啥是標註數據?一道含有題目的照片拿過來,標註師不僅要把裏面題目的精確位置框出來,還把對應的正確文字謄寫下來,這就是一個“標註數據”。無數個標註數據塞進訓練框架的鍊鋼爐,就能煉出來一個“人工智能文字識別系統”。

這就是一個標註數據
當時,啪的一下,很快啊,老司機們搞來了大量的標註數據。然後馬不停蹄地進行針對“搜題場景”調優和測試。
黃鋭華記得清清楚楚,那一個月他們過得可是緊張刺激乾淨衞生,上午開會討論方案,晚飯前代碼就得寫好,夜裏就要進行測試,一天一迭代,一夜一升級。
終於,到了9月下旬,文字識別系統終於出爐。是騾子是馬拉出來溜溜,黃鋭華他們找來市面上所有能買到的商用文字識別系統,焚香擊鼓,來了一場“亂斗大比武”。
結果證明,在印刷版習題的識別率上,自己剛研發的這個識別系統最能打。文字識別和公式識別都比別人高几個百分點。
他一拍大腿,這事兒要成。
像運動會接力棒一樣,文字識別系統第一時間傳給算法團隊。由於臨陣切換了文字識別系統這個“發動機”,導致王傑雄他們的搜索算法也要重新訓練,重新適配。
此時留給他們的時間,只剩最後幾天了。
王傑雄緩了口氣,以大將之風安慰團隊:“莫慌,只要膽大心細,時間應該還來得及。”
然而,半小時後,團隊同學就來報告:哥,跟你説個事兒,咱們手裏的計算力資源好像不夠了。。。
王傑雄給跪了。

由於短時間內要計算炒雞大量的數據,團隊日常儲備的雲計算資源直接被拉滿,目測要是僅靠這些資源,等這些計算搞定,2021年的第一場雪都來了。。。

你可能會問:“等等,團隊難道用的不是阿里雲麼?阿里雲“吹牛”的時候我可是聽過的,不是説伸縮擴容一分鐘就搞定麼?”
沒錯,然而問題並不出在阿里雲上,而是出在真實世界的規則中——團隊擴容,需要預算,而這筆預算顯然是計劃外的,要走特殊流程,一半天兒肯定是批不下來。。。
危急時刻,奇景出現:從技術大牛到產品經理,從一線碼農到團隊領導,大家紛紛聯繫相熟的鄰居團隊,從他們那裏“借”資源。
對方有五台機器,要!對方有一台機器,也要!對方有一台機器但是在另外的機房,沒問題,我們去人肉搬過來!對方開玩笑説你得請我吃飯,他們説請!對方説吃龍蝦,他們説吃!
就這樣“毫無底線”,不知道許諾出去多少頓飯,兩天之內,計算資源像螞蟻搬家一樣一點點堆壘起來,超越了平時的五倍還多。燒腦的計算像F1賽車一樣極速狂飆,在賽博世界表演了一場暴裂無聲的白日焰火。
這段危急時刻,正趕上橫跨週末,大家也都顧不上休息了,每天在辦公室連軸轉。當時是三伏天,而大廈週末是不給中央空調的,領導們就給大家找來了超大功率的電風扇,但桑拿天風扇也是杯水車薪,屋裏仍然跟蒸籠一樣。沒人顧得上抱怨,汗水迷了眼就用身上的T恤擦,女同事不在就光膀子。
國慶節前一天,所有必要的計算終於跑完一遍,新算法百米衝刺上線,煥然一新的搜題引擎馬不停蹄地開始全鏈路測試。
標準測試數據下,夸克搜題的引擎總算、究竟、到底、終於跑出了行業頂尖的解題率。
王傑雄他們看着這個結果,激動得差點欲語淚先流。
這個接力棒又火速傳到產品團隊手上,由他們為億萬用户做最終發佈。按照規定,一般情況下假期是不能升級 App 的,但是夏雅曈他們早已提前打好了報告,拿到了金牌令箭,就等着假期推送升級。
就這樣,先是團隊內部人員接收了 App 升級包,第二天對幾千用户隨機推送,然後是幾萬人,然後是幾十萬、幾百萬。終於趕在十一期間,把所有用户的夸克 App 都升級完畢。
國慶收假,後台的用户數據開始滿載狂升。此時,王傑雄盯着屏幕反而異常平靜,他知道,眼前的一切絕非只是跳躍的數字,而是新搜題引擎像神龍一樣,在響應着無數學生、老師和家長的召喚。
滿屏都寫着“牛X”二字。

夸克的一萬個功能裏,有一個是“手持彈幕”。
(四)要説“真香”不容易
夸克搜題的用户數一浪高過一浪,每過一個週末,後浪就把前浪拍在沙灘上。
然鵝沒想到,一浪高過一浪的還有後台用户的吐槽。。。
畢竟人紅是非多,有的用户反映有題搜不到,有的用户反映答案不詳細,有的用户反映解題不夠快。其實大多問題團隊早就知道了,恨不得順着網線衝過去跟用户説:“在弄了在弄了!!”。
但有一類吐槽,卻是他們沒想到的——搜題速度有點慢。。。
技術團隊的直覺告訴自己,“速度”兩個字裏恐怕有大文章。
仔細測試之後他們發現,正常的拍一道題過程中,用户會有幾秒鐘的“被動等待時間”。啥叫被動等待呢?就是這個時候用户什麼也不能做,就是乾等着。
幾秒鐘按説也不算事兒,但是同學們在拍題的時候,經常是連續拍十幾道。這些被動等待時間累積起來,就變得特別不能忍。
況且很多學生黨用的手機都是中端機、青春版,性能沒有那麼極致,這一下又會拉長等待時間。
意識到問題的嚴重性,團隊湊在一起開了個“共識會”,一致同意開啓另一場戰役——“閃電拍題”。
之前説過,用户搜題的過程,背後其實是一連串鏈路,粗略來説有這麼幾步:打開攝像頭、攝像頭自動對焦、點擊拍攝按鈕、手動框選題目、點擊提交、圖片生成、圖片上傳服務器、服務器進行文字識別、搜索引擎進行比對、找到目標結果、結果回傳到手機、結果展示在屏幕上。

這麼多環節,只有從每個環節都壓榨回來一點時間,才能讓整體搜題等待時間大幅減少。
於是團隊變身人肉榨汁機,從三個方向開始壓榨。
第一,壓榨照相機模塊。
為了方便開發迭代,之前的相機模塊採用的是輕量化的“web框架”,這次為了速度,前端團隊一狠心另起爐灶,換成了“客户端架構”,雖然維護更難,但速度如飛。
第二,壓榨傳輸鏈路。
圖片從手機傳輸到夸克的服務器,要經過好幾個系統“接力”處理,路由器、運營商、負載均衡,進入服務器之後,也要像串糖葫蘆一樣經過幾道系統,這些系統有的跑在杭州機房,有的跑在張北機房,有的跑在廣州機房,相當於數據要在神州大地上來回奔襲好幾個來回。
雖然是光速來回,但畢竟咱們國家大得離譜,路上還是會消耗很多時間。
最終,技術團隊優化了調度方式,在每個機房都安排了一整套處理系統,讓用户可以"就近接入",比如廣州的用户就接入距離廣州最近的深圳機房,全套處理完直接把結果返回手機。就像現在人民羣眾去辦事兒,“最多跑一趟”。
第三,壓榨算法系統。
之前為了保證搜題準確率,王傑雄他們為搜索引擎增加了很多“冗餘”,這下為了節省時間,又不得不拆掉一些。

估計你也猜到了,壓榨算法系統肯定會帶來一些副作用,那就是識別率很有可能下降。
這個時候,黃鋭華的文字識別團隊又殺了出來。他們也憋了一個大招:
重寫一套數據標註系統,讓外包團隊為他們重新標註一套比過去精準無數倍的題庫數據。他們要用這套新的標註數據,訓練出史上最準確的文字識別系統。
這套數據的標註要精準到什麼程度呢?所有題目的框選都精確到了近乎像素級的精度。而為了達到這個目標,全部標註員都提前做了嚴格的培訓,還專門設立了檢查員的崗位,負責二次檢查數據標註的精度。最終數據拿回來,夸克的技術同學還要進行復查,絕不放過一個錯誤。
我們認準了一個道理:數據樣本的精度,決定了你識別能力的上限。所以我們就用這種笨辦法!
黃鋭華一臉技術人的執拗。
這次數據標註,不僅標註了印刷文字,還標註了之前沒時間解決的手寫文字。而且手寫文字還包括了小學生、初中生、高中生的不同字體,也包括了手寫數學公式、手繪圖、手寫英語等等。
這一套標註下來,用了整整兩個月時間,所花的金錢成本遠超你的想象。
這個識別系統的效果怎麼樣呢?用黃鋭華的話説就是:“拿印刷體的識別來説,已經達到遙遙領先業界的效果,基本不會錯了。”
“基本不會錯?”我問。
“基本不會錯。”他説。
這種斬釘截鐵的話在嚴謹的技術老師傅嘴裏説出來,還是挺震撼的。
就這樣,所有人又拼了兩個多月,100毫秒100毫秒地摳,先是把搜題中用户等待的時間減少了30%,後來又減少到了最初的50%,這兩天他們還在拼命準備再減下去10%。
夏雅曈説,她手機裏已經裝上了夸克最新版的測試版,搜題速度槓槓的。我説我不信,於是她給我現場展示了一下新老版本的速度對比。
我做成了 gif 你看看。(左邊是舊版,右邊是新版)


夸克的第二代搜題引擎大概會在2021年1月底上線。忙了一冬天的黑科技,就要在新版本的夸克 App 上閃亮登場,團隊的男女老少們正在期待地搓手手。
各位鐵子們要是有興趣,正好可以更新一下最新的“脱胎換骨版”夸克,體驗一下B站用户心中永遠滴神到底香還是不香。
(如果不香你們就去拍磚,不過看在他們這麼努力的份兒上,輕點拍就是了。)
(寫文章的空檔,我發現了“手抄報”功能,順便學着畫了一個。首先畫出獅子,然後加一些細節。。。)


(五)一個更香的世界什麼樣?
2020年9月,王傑雄最忙的時候,他的女兒恰好上小學。
那段時間,王傑雄腳不沾地,顧不上家裏,都是夫人幫着女兒輔導功課。不過王傑雄倒是很驕傲,畢竟夫人幫女兒輔導作業時,用的都是自己親手打造的御用特供指定版夸克搜題引擎。
女兒一天到晚被爹安利,如今遇到不會的題,都會搶在王傑雄前面輕描淡寫地説:“用夸克搜一下唄。”一起逛街遇到夸克的廣告——那個像馬桶圈兒的 LOGO——女兒也會説:“又是你們的廣告!”
其實在團隊裏,還有不少像王傑雄一樣的孩子家長,從小學到初中高中一應俱全,他們都是夸克搜題的核心用户——在日常搜題的時候,他們遇到非常實際的問題,拿回來反饋給產品團隊,新功能很快就能加入全家桶。
比如錯題本功能:同學可以把錯題整理起來,系統智能識別裏面的知識點,然後自動給出考察類似知識點的其他題目。
再比如錯題打印功能:低年級的孩子父母不敢讓孩子長時間看手機或者平板電腦,於是希望能把錯題打印到紙上讓孩子去做。
再比如口算批改功能:對於一些簡單的加減法算術題,家長需要每天幫小朋友檢查作業,有點枯燥。用這個功能一拍,所有答案是對是錯就一目瞭然了——疲憊一天的老父親老母親能多有幾分鐘放空的時間。

除了搜題功能本身,王傑雄他們還發現,作為阿里巴巴家的“富二代”,夸克的人工智能能力是碾壓別人的。
有了強大的人工智能技術儲備,其實未來還可以試着做出很多更科幻的功能,例如給定一個題目可以幫你寫作文,給出一個上句幫你填寫下句——這些題目本身都沒有對應標準答案,但是搜題引擎也可以試着憑空做題,空手接白刃。
我試了一下“AI 續寫”,驚為天人。

夏雅曈的媽媽其實就是一位中學老師,在湖南老家教了半輩子課。
最開始夏雅曈定義搜題產品的時候,幾乎給媽媽一天打一個電話,詢問她給同學們出的題都是哪來的,甚至還要來了教研組老師的電話,還有校長的電話,甚至還跟媽媽經常買參考書的書店老闆煲了幾個小時電話粥。
夏雅曈的敬業程度爆表,以至於當別人父母都勸孩子“多打電話回家”的時候,她媽媽反而勸女兒“少打點電話”。。。
“你媽煩死你了吧?”我問。
“畢竟親生的,沒辦法。”她笑。
“誒,要是以後同學們遇到不會的題都上網查了,沒人問老師了,你媽媽會不會失落啊?”我突發奇想,問夏雅曈。
我小的時候,每次學生寫了好的作文,她都會比學生自己還開心。從那時我就知道了,老師從來只會因為學生的進步而驕傲自豪,不會因為自己而失落。這也是我最佩服媽媽的地方。
她温暖地一笑。
臨別之前,王傑雄還給我講了一件小事兒。
最近,他幫女兒報了好多線下補習班,花錢花到肉疼。在交錢的時候,他若有所思:“我生活在北京這樣的一線城市,有財力,也有智力跟進孩子的輔導。但是在三四線城市,甚至是那麼多鄉村,那些孩子是不是永遠沒辦法接觸到這些優質的教育資源呢?”
想到這裏,他好像忽然站在了站台對側,越過呼嘯的列車,審視自己正在做的事情。
如果教育停留在物理世界,那麼毫無疑問,最棒的教育資源一定只會留給精英的“後浪”們。可是,一旦教育來到線上,它就會展現出巨大的可能性——哪****怕一個孩子生在偏僻的村莊裏,只要有一部手機,只要他渴望學習,就可以以非常低的成本享受人工智能為 Ta 準備的教育資源,而且是定製化的教育資源。
未來世界的孩子,也許能享受到我們這代人從未有過,甚至沒敢想過的教育模式。
王傑雄的眼睛閃閃放光。
告別這羣人,我又衝進冬天的城市。北風漫卷,山河無恙。按照劇本,此時我應該路遇幾個少年。但這個時間他們顯然應該正在温暖的教室裏聽課,有的眉頭緊鎖,有的迷惘張望。
“我看着你們,滿懷羨慕。”我又想起《後浪》裏這句曾引發了口誅筆伐的輕飄飄的台詞。
於是我猜,年輕人不能被收買,年輕人也從未被收買。
一個認真面對這個世界的 App,從來不應只是生活優渥的後浪們口中戲謔的“真香”。最終有權評價它的,應該是嚴肅的,莊重的,渴望成為更好自己的每一張年輕的面孔。
