5年前曾對標谷歌Kaggle,中國數據科學產品如何煉成?_風聞
谭婧在充电-谭婧在充电官方账号-偏爱人工智能(数据、算法、算力、场景)。-2021-01-22 14:11
原創:譚婧
人類正從IT走向DT(Data Technology),這是個大背景。
企業處在數據產品和AI產品的紅海,想活命就必須手持一本《AI避坑逃生指南》。
個人處在競爭與內卷的浪潮,數據思維和工具是護身符。
在上海市徐彙區虹漕路77號C8,我見到了和鯨科技創始人範向偉與首席產品官殷自強。
這是一家擁有近15萬註冊數據科學家社區的公司,這是一家在數據科學的江湖裏無論如何也不會錯過的公司。
我們曾經從2017年就開始“聊天”。
這次只是,無數次中的一次。
只是這次,忠實地做了記錄。
和鯨早期網站
出發時,和鯨只是一家被稱作“對標谷歌Kaggle”的公司。
到如今,和鯨是一家“走通”從競賽到社區,再到產品的公司。
在中國,乃至全球,這條路,都是獨一無二的。
彼時,美國有,中國抄。
那一輪,投資人拿和鯨和Kaggle做中美對標,數據競賽玩家拿“中國版Kaggle”指代和鯨。
Kaggle是什麼?
是全球最大的數據科學技術分享社區(在線分享代碼、項目和數據集等),創立於2010年。“Kaggle大神”是數據科學競賽界頂禮膜拜的江湖稱謂,可見其地位之顯赫。
2017年,Kaggle被谷歌收購,宣佈收購消息是彼時谷歌雲首席科學家李飛飛。消息漂洋過海,範向偉耳邊都是:“賣給BAT,財富就自由”。
1.Kaggle被收購上岸,和鯨去向何方?
範向偉不想“賣”公司,因為他一開始就沒有“抄”。辦競賽、搭平台、建社區、出產品,全套拳法,天人合一。
到今天,真相大白了。因為沒得抄了,反而能看出來誰在踏踏實實做數據科學的產品。
2016年的創業團隊
既然不被收購,那接下來,路在何方?
這個問題,範向偉這幾年應該被問了無數次。
當年,有人説Kaggle可以推出SaaS產品,因為抓住了一羣獨特的、技術含量極高的、小眾的羣體。這羣人的需求,比中情局的情報還珍貴。
四年過去了,Kaggle始終沒有邁出這一步。被誤稱為“中國版Kaggle”的公司卻做到了。
SaaS產品“數據科學雲端協作工具”,並非誕生美國硅谷車庫,而誕生在中國人自己的數據科學社區。如果它有口號的話,估計會和熊貓、雪豹、金絲猴“撞稿”:“我們誕生在中國。”
彼時,數據化浪潮開天劈地,數據競賽風起雲湧,範向偉從上海交通大學統計系的教室裏緩步走出。他並不熱心於完成碩士學業,而是心心念念數據競賽。
興趣是最好的開始,而同行者最是惺惺相惜。社區就是吸鐵石,把同類人“吸”在一起。
和鯨早期網站
數據競賽社區高手雲集,人氣高,思路廣,不乏大量活躍者,貢獻算法、案例、數據集,吸引更多數據人才,武林高手齊聚光明頂,圍攻“挑戰性數據問題”。
數據競賽社區中國不止一家,阿里巴巴、百度都有,是不是論規模,定輸贏?
範向偉的答案是否定的。和鯨不只是數據競賽舉辦方。
別人僅僅是辦一場活動,和鯨團隊則在打磨產品——先做競賽系統,再把整個競賽系統SaaS化。他們做到了從人力運營轉換到競賽產品。
範向偉説:“多年前,比賽客户就開始自辦比賽了,我們只提供競賽產品。比如華東師範大學,就是用和鯨的比賽系統直接辦比賽。”
演化與進化都是悄然發生的。
歌手唱:《想愛誰你就去愛誰》
範向偉説:“想辦競賽你就去辦競賽”,下半句是:“給你工具就行了。”
中國移動、中國電信、南方電網、中華醫學會、鵬城實驗室、北京醫保局都來找和鯨辦數據競賽,範向偉拿出產品——數據競賽管理平台。
一面辦比賽,一面產品化。這是一件很有趣的事兒。
數據競賽不崇尚孤膽英雄,團隊作戰更為常見。
一起寫代碼,讓“協作”成為參賽選手的剛需。
從那時開始,像種子一樣的“協作”產品理念,已經發芽了。數據競賽系統突出競賽,數據科學雲端協作工具突出協同,兩個產品的底層模塊有共同之處。
首席產品官殷自強説:“SaaS化是因為有抓手,我們才有機會摸索產品化的道路。”和鯨社區打磨產品的方法是獨一無二的,類似開源軟件的方法論,千手捉蟲(bug)快,和真實需求的距離最近。
“有多近?”
“和鯨團隊的辦公室,是距離中國數據科學競賽比賽現場最近的地方。”
打磨,是SaaS產品的必由之路。
殷自強説:“數據競賽的價值是什麼?這個問題我們思考了五年,這五年來,我們辦了100多場比賽,100個不同的場景,100家不同的機構,處理100個人工智能需求,100個機器學習需求,共性在哪?”
“直接給到客户的,相當於為客户做定製開發。某一模塊可能只是客户唯一需求。對於高速迭代的工具平台,這種先定製開發,再產品化的模式會遇到很大的挑戰。”殷自強説。
“和鯨的做法是,某個產品模塊上新,讓社區先使用。”
社區,是和鯨得天獨厚的寶地,是孫悟空的花果山,是哪吒的陳塘關。
“比賽結束,一切都結束了,那是活動營銷公司的生意。” 殷自強補充説。
這時候,有人質疑,是不是和鯨的產品,只用於數據競賽?
答案並不是。
產品要在場景無數次驗證大規模的需求,數據競賽就是這樣的場景,證明產品是可以支撐千人同時在線編程。若論同時使用產品的人數,一家普通公司不可能比社區裏的人多。所以,和鯨的產品對客户的服務,變成了降維滿足客户需求。
和鯨社區裏的各色需求都被提煉成產品的迭代需求。這既是一種“折磨”,也是一種“幸福”。折磨受得越多,產品越成熟。很多時候,在和鯨辦公室裏看見研發團隊誰的神情最焦灼,那人便是殷自強。
但是他説這句話的時候充滿自(fan)信(er)心(sai):“從來沒有碰到過哪個公司的併發,把我們給卡住了。”
2. 準確判斷AI的技術趨勢
數據與AI的發展既強勢,又混沌。做數據和AI產品要對主流技術趨勢敏感,有判斷力。
用範向偉的話説就是:“數據科學已經發展到第三階段(3.0),數據類型、基礎設施、分析工具和工程任務中的行為,發生巨大變化。” 一個軟件版本用N年的時代,已經一去不復返了。
殷自強自問自答:“快速擴容是一個里程碑。10台變成100台,1000台變成10000台,這種變化不能影響服務。支持大規模工程的能力,業界遲早要有,且大家都會去選最好的。這件事情,為什麼不是我們來做?”
當K8s剛出1.0版本的時候,CTO和技術團隊敏鋭地關注了。
第一是發現大廠都選K8s,主流的大廠進來,需求迅速變成現實。第二K8s表現強勢,剛出來的時候還有一個叫Swarm的一套技術,也能解決彈性控制的問題,但還是被K8s快速淘汰掉了。第三K8s是開源的。人工智能界的好東西,很多都開源了。 判斷結論有了:K8s有優勢,會帶來一波變化,那就抓住它。
產品好是一個大概念,有很多“訣竅”是外行人難以察覺的。
3.SaaS產品,不唯技術論英雄
江湖有一種迷信,似乎只要算法高超,就勝券在握。但是,傳統機器學習算法和深度學習算法各有優勢,各有用途。
大規模深度學習已是貴族遊戲了,只有工業界的頭部大公司才可以承受,鯉魚躍龍門般的高門檻限制了創新探索和整體發展。比起深度學習,數據分析“身價平平”。
但是,江湖有云,欲練上乘劍法,不限招式多寡。
《倚天屠龍記》當中,孤鴻子和楊逍比武,楊逍奪走孤鴻子的倚天劍又扔還。殺傷力不大,侮辱性極強。楊逍拿着劍冷笑道:“倚天劍,好大的名氣!在我眼中,卻如廢銅廢鐵一般!”
孤鴻子對兵器盲目迷信。楊逍就不信這個邪。
算法和產品都是工具,工具的存在,是為了解決問題。
在“解決問題”這個終極任務面前,人的智慧極為重要,不能過分誇大工具的威力。
範向偉説:“我們判斷數據分析的場景價值更大一些,或者是説,要做AI,首先要從數據分析起步。單獨看技術難度,數據分析肯定簡單,但是不能説價值低,要做好數據分析,一樣充滿挑戰,需要發掘人的價值、解決人的問題。”
倚天劍不能擊敗所有對手,深度學習也不能。
範向偉認為,在企業中,最難處理的問題,永遠是人的問題。他堅信,人是一切問題的根源,也是一切辦法的支點。
所以,當和鯨團隊意識到這個問題的重要性的時候,產品邏輯瞭然於胸——數據科學雲端協作工具,也就是和鯨的ModelWhale。
他説:“數據科學家彼此之間的協同,是權利責任、資源分配、分工協同、過程追蹤、成果整合的問題。產品定位,立足於此。”
“人才和管理,是數據產品和AI產品落地過程中隱形大坑。”這句話應該寫在《AI避坑逃生指南》的第一頁。
明槍易躲,暗坑難防。
近幾年,最知名的數據產品,莫過於數據中台。一個數據中台的實施與落地,牽扯企業組織變革、資源變革、流程變革……一場變革尚且窮盡其力,如此多的變革,讓一款產品,難負其重。
這是數字化改革的“深水區”,觸動了很多人的深層次利益。
某公司中層幹部的內心獨白是:“我們部門的私有數據,是私有資產,為啥要和隔壁部門共享。年終獎拱手讓人嘛?”
數據工具的先進性,並不能解決人類思維的慣性。
產品邏輯的背後,是產品理念、企業的理念,以及創始團隊的信仰。數據協作工具這一類型的產品猛地聽起來,並不容易理解。而範向偉則認為這是最好的“工具”。
“數據思維”狠狠告別“原始年代”,也是個體的必然選擇。培訓拯救不了焦慮,數據科學唯有從動手開始。
殷自強説:“我們也在做拖拉拽系統,降低門檻,降低畏懼情緒。”“同時,也思考用户快速搭建分析框架(框架包括,觀察數據分佈、提取特徵、測試模型、評估效果),完善代碼,並調整成能提高模型準確率和業務相關性的成果(報告或模型)。”
門檻的高度是一個比較值,不是一個絕對值。自2017年起,範向偉就一直拿學英語這件事情打比方。
他説:“七八十年代,國民整體英語水平偏低,英語翻譯很吃香。近十年,英語普及得較好,英語能力不再是一種稀缺能力。”
以前,學英語。
如今,學數據科學。
範向偉也談到了5年以來的觀察:
“5年前,用户絕大多數是計算機專業背景,因為編程是敲門磚。現在,很多社會科學學院、大氣科學學院、商學院、醫學院背景的人已經離不開數據科學的工具了。”
這個變化,符合幾年前他的判斷。
他説:“我們跟隨行業的腳步,很多人在社區裏成長,努力培養數據思維,學以致用。和鯨團隊不相信,只靠類似AI全家桶的產品,就能解決產業裏無法窮盡的問題。”
將視野放寬到行業,那些做數據科學產品與AI產品的中國SaaS廠商,幫客户把算法都搞定了,變成一個普通業務員工能去用的工具。
範向偉認為:這是過度“封裝”,容易陷入局部最優的陷阱,長期看來,難以迭代,拓展和複用。
企業業務是動態變化的,數據的用法是動態變化的。
有,且只有:業務員越具備數據思維的時候,越利用得好數據,才會把數據的價值滲透到毛細血管級別的場景裏面去。
《AI避坑逃生指南》認為:定位數據與人工智能類的企業級產品,有兩個大坑。
一號坑位
工具類的產品都是賦能千行百業的,石油、電力、交通等,大多數情況下創業者自己不是核心用户,你滿足的是別人的需求,無法得知客户的真實需求,容易踏進主觀臆斷的坑。
二號坑位
訂單合同金額較高,碰到大的項目,客户必定有定製化的需求,標準化產品賣不進去。屈從定製,團隊和人力就搭進去了,容易踏進人力資源外包公司的坑。
今天的和鯨,是國家氣象信息中心國家級工程——氣象大數據雲平台(“天擎”)數據挖掘分析系統支撐方。和鯨做對了什麼?第一,洞悉了客户需求的“水晶球”,第二,做到了產品通用性的厚積薄發。
(完)
《親愛的數據》出品
隨手點贊(這裏應該有一個小桃心)