視頻觀後感:“眉山論劍·香港動亂之於學術研究的新機遇”_風聞
陆苍苔-2020-01-08 08:24
@陳平 大佬新一期的眉山論劍出來後,我很快就看了。

哎,怎麼説呢,心裏是又激動又犯怵。
然後就忍不住,準備來發我在風聞這的第一篇貼子了。
實話説我看到大佬視頻裏提的構想時真心是心裏一沉,因為感覺大佬的目標實操起來真的很難。
這種建立在數據分析上的宏大構想,和自己在很多項目上遇到的甲方爸爸意氣風發的構想都是很像的。
分析大佬提出的目標,除了有些思考所得,但其實更多是想借這機會來吐槽些平日工作中的困難。
結論就是大佬提出的各個構想合起來去實現,工程量會非常的大;很多小的領域可能容易有成果,但最終要全面實現大佬的目標則很難,需要很有規劃性地開展工作。
個人建議,除非國家牽頭起一個系統性的研究工程,否則只能弄個開源社區去推這個事,走集中資源省錢和發動羣眾的搞法。
========
個人認為視頻裏大佬主要的目標就是想做大數據+AI支持下的‘量化司法’、‘量化執法’,搶先利用智能化手段的實踐積累和理論研究,在國際上佔據司法和治安的標準制高點和理論制高點。
依我個人經驗大概地判斷,感覺要達成這個目標,工作方向至少就有:
動態目標檢測 +輿情分析 +GIS +時序數據的數據挖掘 +對各國司法的法條或法例進行數據比對分析;
最後再融合起來,形成一個能相互輔助的綜合性的系統,期間還產出無數的理論和技術研究成果。
所以大佬會把香港動亂稱之為學術研究的新機遇。
--------
大方向來看,治安就不多説了,國內肯定是世界前列的,而司法上則還有很大的進步空間。
大佬的思想當中有很強烈地追求‘量化’的理念,將其結合在治安和司法上是非常有趣和可為的。
第一反應感覺大佬這種‘量化目標’所考慮的要素和思考的方式,非常像二級市場上那些依靠多因子決策的‘量化交易’的研究。
不過量化交易往往都是好想法很多但是落地掙錢的少,一到實盤就沒法上規模使用。
但機構用户仍然非常期待,一直在推,最早AI剛出來的時候就在試圖把AI和量化交易結合起來用了。
所以不得不説,量化的思想是非常動人心的。
建議不瞭解的朋友可以動手查查,那些金融資本為了把投機這事情玩到極致,在這上面有多大的投入,從BI時代到AI時代一直都是最敏感最緊跟技術潮流且資金充沛的嚐鮮者,方方面面的嘗試,多少精英人才在上面最後都還是折戟沉沙了。
他山之石可以攻玉,雖然量化交易最後能掙錢的少,但很多研究成果卻很有價值,是可以現成拿來參考的。
另外除了金融行業的經驗,其實AI技術與司法結合國內是有這方面的嘗試了,中南財經政法大學還弄了專門的人工智能聯合實驗室,記得各地法院也都有試過AI進庭審的新聞。
但這些嘗試畢竟還只是單純的庭審輔助系統,依我的個人工作經驗新聞裏法庭上跑的程序,估計實際起作用的判斷機制更多的會是類似於BI的專家規則,而非AI訓練出來的模型。
--------
但具體再回到陳平大佬的構想上,要技術實現那就更加複雜了,還不像庭審那樣AI只考慮在法條上形成輔助判斷即可。
粗粗一看各環節同樣都是些在數據分析和AI的大框架下的工作,但細品下來具體方向的跨度都是非常大的。
輿情分析這是要走NLP和爬蟲的工作的;目標檢測則是走圖像類的;後面時序數據則是數據挖掘類的;法例法條則要行業專家的深度介入,判定肯定會高度依賴專家規則,還會涉及到多語種人才的招募;
相對來説GIS的建設反而是比較成熟和傳統的軟件開發工作了,但繞不開數據收集工作;
另外,我不太瞭解法律專業,我知道文學上是有‘比較文學’的,那麼法律上的‘司法比較’的研究不知道具體會是叫什麼呢?不知道會不會是些meta分析。
每個環節單獨拎出來都是有一定難度,並且是工作量非常大的事情,更別提整合起來一起做了。
其實難度都是次要的,最關鍵是工程量大得要命。
這事情打個比方就像説很多山珍海味之所以稀有珍貴難吃到,其實往往不是廚房裏加工的技術有多困難,而是食材的準備和採集會非常困難,會要耗費大量人手和精力。
要實現大佬的構想,根本就是一個系統性的工程,就絕對不是個人或工作室這種實驗室級別可以完成的工作量了,雖然達不到工業級,但必然也是企業級的工作量了。
要支持一個團隊去完成這個工作,涉及的人才資源,還有維持團隊展開工作的資金投入就會讓人望而卻步。
別的不説,AI相關人員的薪酬水平就是不菲的,更別提硬件上GPU、CPU要支持團隊使用的採購成本。
--------
接着要開始吐槽工作實踐中爬過的各種坑,AI相關的工作中最大的攔路虎其實是數據採集的工作。
首先很多數據根本就不是在公開的網絡情況下可以收集得到的,其次採集到的數據要加工成可以使用可以拿來訓練模型的程度更是一大堆的坑等着你跳。
很多時候費勁千辛萬苦,動用人脈資源打通了關係弄來了數據,然後發現測點壓根就是無效的,或者是數據存儲的質量是有嚴重問題用不起來的,數據質量問題是我們這些數據分析工作者生存的天敵。
傳統的大數據處理裏面,勝任數據治理的工作的真心是像老中醫一樣的存在,都是靠經驗熬出來的。
然後數據採集回來後,數據的標註、加工和分類,一開始都是要靠人工去做的,都是消耗大量人手的。
再然後,數據的分佈很多時候還是不均勻的,不均勻到讓你根本無法展開工作的程度;
譬如訓練模型去做異常識別的時候,往往數據裏就是正樣本一堆,負樣本卻一個也沒有;
再譬如,你訓練模型要識別數據集中某個類別的目標,數據集的數據量看起來很多,但實際上目標類的數據的數據量卻根本支撐不起訓練;
嘗試去生成數據更是不靠譜,GAN來GAN去,別説訓練出來的東西會不會過擬合,生成數據訓練的模型放在真實環境下能不能有效本身就是個很拷問自己靈魂的哲學問題;
當你擺平了一切數據上的問題,你以為就會萬事大吉了麼?不可能的。
陳平大佬總是在吐槽,經濟學是種鍊金術Alchemy,不是科學Science,其實AI也是一樣的。
算法和網絡結構的選擇還可以説有些理論和經驗上的講究,那麼調參一類的工作真的就是和煉丹一樣,是玄之又玄的了。
這種情況估計在材料學的研究中也會遇到,很多成果你覺得似乎是可以用理論分析出來的,實驗中少走彎路的;但實際上很多成果不是理論分析出來,而是不同的配方排列組合,窮舉試出來的。
身跨金融和AI兩大熱點去研究量化交易的那些菁英們,大部分就是被困在各個因子的排列組合這種玄學中,把自己的髮量給燃燒殆盡的。
--------
感嘆了數據工作上一大堆難處並不是抱怨事情做不了,而是這些都是真真實實在工作上面碰到過的情況,情不自禁地就頭疼了,真的因為是太南了啊!!
必須肯定的是大佬有一點説得很對,構想的目標確實是個廣闊天地,如果有機投進去認真耕耘確實大有可為。
但要最終整體實現的話,真不能以個人或是小團體為單位能來研究。
個人想法,大佬可以出來牽個頭,弄個開源社區或者工作站來彙總大家的成果;
先提綱摯領把總目標分解成一個個有待人們研究和填補的具體問題和具體工作,羅列出來再按方向劃分好板塊;
這樣大家就各自找自己力所能及的板塊,互相也能交流避免重複性的研究,最關鍵是數據和資源可以共享;
然後招募或者遴選出各板塊中專業過硬的人去主持該板塊的管理工作,大佬這邊來統領,定期召集板塊負責人來複盤推進總體進度,以及根據實際問題重新調整板塊劃分等;
當然還要考慮,開源社區最大的問題就是產出的質量和進度難以保障,普通參與者還可以靠興趣業餘參與貢獻,但一般會需要管理人員的全職投入,好處就是省錢,可以發揮大家的力量和聰明才智,壞處就是遇到硬核的工作只會吆喝動靜大成果進展小。
其實在B站的這期視頻底下,我觀察到已經有人開始拉Q羣,組織大家去‘交作業’的,很快一個羣兩個羣的都滿了,很有開源社區的那種氣息在裏頭。
但這不夠的,以後肯定還會有大量的數據資源需要被彙集,需要有服務器去同一的管理去存儲,需要有門户有論壇給大家分流和交流,Q羣只會是輔助的一直存在。
最後關於牽頭的問題,最好還是由陳佬出來或者陳佬欽定一下,正兒八經當回事經營為了才好前進的。
如果大佬能號召到國家去開展項目系統性地推動相關研究工作,那就更加是穩了。
--------
以上叨叨絮絮了這麼多,算是自己的一點想法吧,希望能對大家有參考價值,有什麼不妥不對的地方一定要指出,歡迎並感謝指教批評。