李聰廷:通用大模型被少量科技巨頭掌握,AI能帶來技術和知識平權嗎?
2023年迄今為止最熱門的話題,莫過於ChatGPT。大語言模型和由此帶來的AIGC技術,將帶來一場技術平權和知識平權。AI技術將不再是AI公司、行業巨頭們的專屬。5月9日,宇視科技CEO張鵬國在烏鎮的一場演講中,將這比喻為從繁體字到簡體字的變革。在AIoT合作伙伴峯會上,宇視發佈了行業大模型“梧桐”。
為什麼一家並非互聯網大廠,而是物聯網行業以攝像頭等硬件設備聞名的企業,也把AIGC技術作為業務的試驗場?AIGC會改變物聯網行業,進而在社會生活中改變我們在社會管理、交通管理等諸多場景中的面貌和格局嗎?
帶着這些疑問,觀察者網和宇視AI首席科學家李聰廷聊了聊AIGC對物聯網和社會生活的影響。

《流浪地球2》中的宇視設備
**觀察者網:**如何理解“小模型+大樣本”變成“大模型+小樣本”的趨勢,是不是有業務場景的用户,因為更低的數據標註和算法訓練成本,能以更低價格用得起AI解決方案?比如我們媒體想用一個大模型來開展AIGC業務,如輔助新聞寫作、鑑別假新聞等,但我們經費不多,可以提供餵食的行業數據也有限,是不是我們鏈接一個“大模型”的底座,真正需要針對我們業務特點重新調整的成本就很低了,是這個意思嗎?
**李聰廷:**對。回顧過去“小模型+大樣本”開發模式,一個高精度的模型,訓練參數量在百萬級,訓練樣本量在幾十萬級,最高可能到千萬級。幾千或幾萬也可以生成模型,但精度不夠高、場景適應性不夠好。總的來説,“小模型+大樣本”開發模式,研發門檻高、成本高、週期長。
通用大模型本身,是基於海量數據訓練起來的,數據量遠遠多於小模型的訓練數據量。通用大模型可以做的工作非常多,特別是在創作領域。但我們AIoT行業,絕大多數應用需要的是精確,而不僅僅是“全能”,通用大模型的精度受限會使得在AIoT行業難以應用。
因此我們創新的提出行業大模型的模式,所謂行業大模型即“通用大模型+行業場景+訓練調優”,揚長避短。行業大模型將開啓“大模型+小樣本”的新模式,經過少量的來自行業場景的小樣本學習,即可取得一個比較好的精度;同時由於受限應用場景,模型參數量又會比通用大模型小很多,意味着邊緣端部署成為可能。
您提到的輔助新聞寫作、鑑別假新聞應用,理論上也是可以通過這樣去做。所以未來可能會有很多垂直的行業大模型的公司來解決行業應用問題。
科技巨頭生成通用大模型,以通用大模型為底座,垂直行業公司提供行業大模型,這將會是未來比較務實和普遍的方式。大家不用重複造輪子,新的AI模型開發和應用模式將降低AI應用落地的成本。
**觀察者網:**如果這個趨勢成立,用户用很低的代價就可以接入到大模型的底座上面,享受他的服務,那麼確實會掀起一場AI平權的革命,湧現出許多新業態。從我們媒體行業看,許多角色身份、生產關係可能變革,比如機構和個人的內容生產力可能被漸漸拉平了。在AIoT行業可能會出現什麼特徵,會不會更加碎片化,對你們來説這是好事嗎?
**李聰廷:**AIoT行業的特點是碎片化,過去只有不到10%的AI需求被滿足,有的因為技術難以實現,有的因為實現代價太高、商業不閉環。
行業大模型的“大模型+小樣本”新開發模式,一是因為大模型湧現的超強理解和邏輯能力使得過去有的技術難以實現的需求,能被實現了;二是需求實現的門檻降低、效率提升,使得商業閉環的概率大幅提升。因此,預計未來AIoT行業的50%的需求能被實現,其中只有20%會由宇視這樣的解決方案和設備商實現,剩下30%由合作伙伴實現。
AI技術平權,對參與企業都是機會。能做的需求和應用更多,而且能讓合作伙伴自己擁有差異化控制點,更好滿足客户需求。
相信這樣的變革不僅僅會發生在AIoT行業,也會發生在媒體行業,甚至各行各業。

AI繪製特朗普被捕的假照片
**觀察者網:**AI平權和AI生成內容的泛濫肯定會帶來一些問題,比如代寫論文和作業、編造假新聞……而在物聯網行業,則面臨偽造的物理或生物信息造成的安全隱患。矛和盾的需求會同步增長,在反AIGC的方向上,目前的技術儲備如何,盾能跟得上矛現在迅猛發展的勢頭嗎?
李聰廷: 無論是惡意還是無意,AIGC的確存在“造假”的副作用,而且對我們“打假”的技術手段提出了更高的要求。
對“無意”的“造假”,我們更多的是從行業大模型本身去優化提升。比如,我們在問chatGPT這樣的通用大模型推薦一款寶寶看家的攝像機時,它給的答案是有一些誤導性的。經過AIoT行業場景訓練調優的行業大模型,可以給出更“精確”的回答。
對“惡意”的“造假”,這更多需要我們反AIGC技術去鑑定、識別、阻止造假。舉個例子,AIGC技術可能通過一張2D照片生成動態的人臉表情,從而騙過金融場景中的人臉驗證環節,帶來安全隱患。現階段,反AIGC技術有一些人在研究,但仍是一個較小眾的市場,但隨着AIGC技術的普及,反AIGC需求的增長,必將拉動反AIGC的技術迭代,更多的科研機構和廠商投身其中。辯證的看,矛與盾的攻防,促進兩類技術的快速迭代,技術水平螺旋上升。
**觀察者網:**你們這次發佈有提到智能vlog,能解釋一下這個業務邏輯嗎,是否意味着AIGC業務也能用到你們的梧桐大模型?
**李聰廷:**很多年輕人,去景區、樂園玩,希望把個人遊玩的精彩瞬間記錄下來、與景區沉浸式視覺體驗融合,形成一段炫酷的小視頻,最後與朋友分享、發朋友圈、發抖音等。
宇視的VLOG產品,很好的滿足了這方面需求。它本身是基於景區和樂園場景的AI自動剪輯。AIGC大模型技術帶來的變化是,將來我們可以將一些更加有趣炫酷的生成特效融入其中。
例如,一家三口出遊,我們可以融入米老鼠等動漫明星;又比如,單身出遊,把遺憾未能出行的女朋友虛擬地融入進去。梧桐的多模態行業大模型,第一個落地產品就是VLOG,將來用户可以有更多的玩法,更好的體驗。當然對於合作伙伴來説,更多的流量、更多的收益分成。
**觀察者網:**因為我們是媒體,我們可能也有這方面的需求,比如説你們通過學習主持人,過往講的所有的內容,然後再生成一個他的一個數字孿生。下一次我們只要輸入文本,你們就能生成主持人,用他的數字孿生來播講內容,呈現畫面和聲音,這個是能做到的嗎?
**李聰廷:**虛擬人數字孿生,這個概念出現的比較早,前幾年“元宇宙”興起帶動了虛擬人數字孿生的發展,市面上有不少類似產品。但坦白的説,現在的技術效果普遍不夠好,還有很多地方需要提升,此外,生成數字孿生人的成本需要降低。AIGC大模型,將大幅提升數字孿生人的體驗和效果,這個只是時間問題。
**觀察者網:**對,但是我們媒體可能有大量的需求把文字視覺化,比如説文本其實我已經有了,不需要生成,但是我需要把這些文章變成一段視頻,可能需要一個虛擬人來把它講出來。像這樣的業務,你們有沒有考慮過和媒體合作。媒體用户有大量這樣的需求。
**李聰廷:**目前市面上已經有一些類似產品,只不過效果不夠好,AIGC大模型技術還沒有得到應用。隨着AIGC大模型技術的逐漸產業化落地,將來效果一定會越來越好。我們在媒體創作領域不是專家,直接深入並提供最終產品的挑戰大。目前先聚焦本身的AIoT賽道是比較務實的做法,將來有機會可以考慮拓展媒體創作領域的機會點。
**觀察者網:**物聯網能採集到的信息,模態是非常豐富的,有物理上的聲、光、熱、電信息,還有各種化學、生物、地理信息。因為我們生活的場景本身就是多模態的環境。過去AI只能解決一些標準化的問題,比如人和車的識別。而通過大模型,這些沉睡的多模態數據如果盤活,是否意味着,未來更多複雜業務都有可能落地實現了?能設想幾個過去還難以想象的案例嗎?
**李聰廷:**我覺得未來肯定會有一些複雜的業務會被實現。例如,GPT-4舉的例子非常典型,它可以理解“VGA端子插入手機充電口的笑話”,這在過去是無法做到的。我們可以通過大量的訓練學習,識別VGA端子、識別手機,但我們很難具有“VGA不能插入手機”這樣的常識。大模型的理解力非常驚人,意味着過去一些技術難以實現的需求,可能被實現。
多模態,引入更多信息,這些信息的引入,在過去大部分時候是無效的,準確的説,是“無力”。因為過去,AI無法理解視頻中的內容,只是對視頻中的人和車的檢測識別,更不用説多模態的理解應用了。舉個例子,跌倒檢測,躺在地上的人,和靠牆站的人,在相機畫面中,通過人本身是很難區分的。他們都是頭朝上,腳朝下。但引入大模型技術後,我們可以通過結合判斷周圍環境如桌椅的擺放等,區分人是躺在地上還是靠牆站。多模態引入更多信息,意味這將來能實現更復雜的AI需求,精度更高。
**觀察者網:**因為各種安全和隱私保密限制,物聯網數據不像互聯網數據那樣容易公開獲取,要喚醒沉睡的行業數據,讓越來越多的公司張開懷抱去擁抱人工智能,目前在頂層設計上還要解決哪些問題?
**李聰廷:**首先,合法合規是所有商業和產品落地的前提。頂層設計上,國家、國際上都出台了相應的數據安全保護法律。
第二,數據隱私是有分級的,像人、車牌等信息是高度涉密的,廠商不能輕易獲取、留存。但有一些數據,如行為動作類、物體識別類、缺陷檢測了,在經過合規評估後,是可以進行使用和訓練學習的。
第三,我們前面提到的梧桐行業大模型,他本身是開放能力的。對於設計安全和隱私的場景,我們會交給客户自己去定義算法,數據在客户自己手上,我們只是提供能力。

**觀察者網:**物聯網的另一個特點是邊緣的算力有限制,計算放在雲端又有時延,這會制約AIoT+多模態大模型嗎?最後會撮合出不那麼大,但更適合行業的“大模型”嗎?
**李聰廷:**現階段,雲邊端都有大量AI落地,分工上,普通的AI任務在邊和端落地為主,這樣做更經濟;一些複雜的AI任務在數據中心側落地。
AIoT行業目前大多數AI應用的時延在可接受範圍內。隨着AI算力的提升,時延會越來越小。
AIGC大模型一開始在數據中心側落地為主,加上本身計算量比較大,一定程度上會加大這個時延。這個時延大部分場景是可接受的,畢竟不是自動駕駛這類對時延極其敏感的場景。
另一方面,行業大模型的參數量沒有通用大模型的參數量那麼大,在邊緣側的部署應該很快就會到來。時延會比數據中心側進一步降低一些。
總的來説,時延在AIoT行業應用,絕大多數場景,不是關鍵問題。
**觀察者網:**您預計一下邊側是要全部升級改造嗎?
**李聰廷:**從長線看,一定會升級,全部換代掉。但週期不是一蹴而就的,因為AIoT行業是比較碎片化的,它的款型都是有幾千款甚至上萬款,這個週期我覺得會非常像上一個12年到22年這樣的10年週期,像深度學習對行業的第一次變革那樣。預計10年後,幾乎所有的AIoT產品都或多或少用了AIGC行業大模型的能力或技術。
**觀察者網:**現在各家都在宣傳模型的參數量,特別是語言模型,從AIoT行業的應用落地看,模型的參數量是越大越好嗎?
**李聰廷:**這需要結合場景和應用來看。傳統的人、機、非檢測識別,周界類行為分析,小模型已經做的非常成熟了,夠用了,短期內使用大模型必要性不大。對於其它長尾AI需求,大模型很有意義。但大模型也不是參數量越大越好,AIoT行業用自己的行業大模型就好了,參數量幾十億規模,不需要通用大模型動輒上千億參數規模。最終,還是效果為王,不是參數量越大越好。另外,產業落地,成本始終是一個重要因素,要結合成本去定義產品和應用。
**觀察者網:**如果你們去選不同的大模型底座,去接入,那麼你們會用什麼角度來評判和選擇?
**李聰廷:**結果説話、實驗數據説話。現在的“千模大戰”,整個環境比較亂,大家很難看清真相。原創的通用大模型主要還是掌握在少量的科技巨頭手裏,前面也提到,算力、算法和數據的門檻很高,絕大多數企業無法企及。因此,也有不少企業是做行業大模型,構建在通用大模型之上。宇視是AIoT行業最早提出併發布行業大模型的廠商。當然,也有一些可能是基於插件或開源模型做應用的。不管哪種模式,最終都是以誰能提供最優的產品和服務,誰能最先落地為考量項。
**觀察者網:**在AI的應用落地中,容錯率是一個關鍵考量。車輛識別假如説我們做到99%的正確率可以接受,技術上也能成立,那麼落地就比較容易。AI幫我們聽寫一篇文章,再生成大綱,可能80%的正確率用户就比較能接受,而在80%這一檔的潛在應用可能不少,許多事情能夠替代最繁瑣機械的一部分,用户可能會接受20%的錯誤率,因為檢查出這些錯誤額外投入的精力依然是划算的。而80%在技術上會大大增加可行性。互聯網的思維一直是找到更多這樣的應用場景,讓技術先用起來,在使用中迭代改善體驗,但物聯網的容錯率一直是很嚴苛的,很難用這種思路落地。AIGC+AIoT產生的新生態,能改變這種局面嗎?
**李聰廷:**很好的問題。精度越高越好,這個沒問題。但並不意味着,只有99%甚至更高的精度才能落地、才能商業化。很多場景,AI作為人工的輔助工具、效率的提升工具,也是很有意義,也可以商業變現。特別在我們這個AIoT行業,很多場景對精度的要求沒有那麼高,不像自動駕駛應用那麼的苛刻。當然,精度太低也不行,那就不是效率提升工具,而是一個製造麻煩的工具。
技術提升,一是效率提升,二是創造更多商業機會。回顧車牌識別應用,早期在交通違法上應用,哪怕只有30%的違法捕獲率,對交警人工現場執法來説也是巨大的效率提升。後來,園區和商場出入口得到應用,識別率98%,已經很高了,但是仍然離不開人工,因為每100輛車就有2輛車需要人工處理異常。而今天,識別率已經可以做到99.9%,很多出入口場景已經是無人值守了,偶爾幾起異常通過遠程呼叫可以解決。這是效率提升。從商業機會來説,以前沒有出入口產品、解決方案、配套運維、服務等,是因為AI車牌識別這個工具的出現,創造了這個市場。
AIGC大模型技術也不例外,工具的提升,帶來效率的提升,進而創造更多的商機。
本文系觀察者網獨家稿件,文章內容純屬作者個人觀點,不代表平台觀點,未經授權,不得轉載,否則將追究法律責任。關注觀察者網微信guanchacn,每日閲讀趣味文章。
