“AI教母”刷屏,美國為什麼盯上“空間智能”?_風聞
杜鸣皓频道-《数智经济》《轻资产时代》《金牌公关人》作者昨天 22:35
這兩天,科技圈被“AI教母”李飛飛的創業項目刷屏了!
她投身的是一個革命性的AI技術——純視覺的“空間智能”。
純視覺的“空間智能”是什麼意思呢?
大概就是,她要創造一種可以在三維空間進行類人推理的純視覺AI。
比如,當你在打籃球的時候,通過連續的視覺觀察就可以推理判斷出籃球大體的運動方向、着地反彈的高度等信息,李飛飛就是想讓視覺AI也具備這樣的能力。
AI大模型的“二次革命”
按照李飛飛在TED大會上的演講,空間智能是通過理解物體之間的關係,從中得到新的發現或預測,讓機器可以像人類一樣進行更復雜的視覺推理,進而採取更貼合實際的行動。
按照她的這種解釋,“空間智能”將讓AI大模型具備三維空間的視覺推理能力。
目前的AI大模型,還無法理解三維世界的運行邏輯,沒能真正建立起對三維世界的“常識”,所以它現在只能在虛擬空間玩“文生圖”和“文生視頻”的遊戲,無法從虛擬空間走進物理空間創造生產力價值。
未來,這將帶來一個嚴重的問題——基於現有的AI大模型,將無法打造“賽博物理系統”,也就是CPS。
因此,空間智能可以看做是AI大模型的“二次革命”,它的目的就是要讓AI大模型去理解“三維物理世界”的規則,然後跟物理世界的機械系統進行“數智融合”,形成跟人一樣靈活的具身智能。
從這一點上説,李飛飛的創業項目意義重大,一旦獲得成功,AI大模型將可以走出虛擬空間智能操控物理世界,美國版的“數智經濟”就真的要來了,他們會走出一條與中國5G、6G的“感知智能”完全不同的“視覺智能”數智化路線。
李飛飛一直被稱為“AI 教母”,她開發的ImageNet大規模圖像數據集,幫助人類開創了新一代能可靠識別物體的計算機視覺技術,是ChatGPT的底層技術之一,這一次的創業項目同樣具有開創性價值。
她展示了一張“貓伸出爪子要把玻璃杯推向桌子邊緣”的照片,來幫助觀眾理解何為“空間智能”——人類大腦通常這一瞬間可以評估玻璃杯的幾何形狀、玻璃杯在真實三維世界中的位置、杯子與桌子、貓和其他物體的關係,並且可以預測接下來會發生什麼,採取行動。
到目前為止,人類都是通過各種傳感器來建立“空間智能”的,包括雷達傳感器、重力傳感器、光線傳感器、速度傳感器等的組合,如果走向“純視覺”,其帶來的變化將是革命性的。
從公開資料來看,李飛飛團隊當前聚焦於“具身智能”,研究將AI大模型接入機器人,無需額外數據和訓練,即可把複雜指令轉化成具體行動規劃,這一點將顛覆波士頓動力等的智能機器人路線,它們都使用了大量的智能傳感器來幫助獲得空間信息。
中美的“兩條”數智化路線
此前,中國的數智經濟領跑全球,走了與美國完全不同的路線。
中國是基於“5G+傳感器+自動化AI”打造數智經濟,“自動化AI”更多追求AI的可解釋性、魯棒性,基於邏輯推理進行編程來創造AI,而不依賴於大量數據訓練和自學習的方式。
可解釋AI的優點,是不會像AI大模型一樣出現“幻覺”。所以,它更適合在高精密的工業、航天等領域進行應用,且三維世界的空間信息是通過各種模態的智能傳感器來獲得,可靠性也非常高,但是成本也高。
但李飛飛的純視覺“空間智能”方法,將可以繞過“多模態的智能傳感器”獲得空間信息,其實這和我們人的智能機制就非常像,人僅僅通過視覺觀察和簡單推理就可以捕獲絕大部分的空間信息,是不需要空間傳感器來獲得信息的。
所以,給物理空間中增加很多感知單元,對於AI來講可能是一種冗餘和增加成本的設計,而“空間智能”這種純視覺的方式,就非常適合高經濟性的日常生活中場景使用,比如自動駕駛、家用機器人,我們看特斯拉自動駕駛就是純視覺的方向,它的經濟性就非常好,避免了激光雷達、超聲波雷達、毫米波雷達等的成本。
對於中美這兩條數智化路線的區別,我可以再舉一個例子:
數智時代,為了獲得土壤的温度、濕度信息,人們將需要在土壤中植入温度、深度“傳感器”,但其實人類還有另一套方法,就是可以通過純視覺AI來觀察地表上的“雨、雪、風、霜、露、蟲、鳥、植被”等各種自然信息,來大致判斷出土壤的温度和濕度,就像諸葛亮一樣,只要仰觀天文、俯察地理,就能推理獲得很多氣象信息。
所以,如果做一個比喻的話,李飛飛想要做的純視覺“空間智能”,就是想要打造很多個“諸葛亮”,讓這些“諸葛亮”去觀察和推理空間信息,而不用很多個傳感器和空間數智基礎設施的組合來收集信息。
這樣做的優點很明顯,就是“空間智能”的適應性、靈活性會非常強,經濟性也會非常好,它不需要額外的空間基礎設施的配合,它的數智化能力完全取決於自身,而不依賴於它周邊的數智基礎設施和各種傳感器。
這讓我聯想到了中國各大城市都在規劃的龐大的數智基礎設施建設,中國到處都可見“智能社會”的影子。舉一個例子,很多專家在城市的自動駕駛方面,鼓動地方政府進行“人-車-路-雲-網”協同的全面數智基礎設施建設,這背後將是一筆筆非常巨大的投資,而這些投資是必要的嗎?
這種“激進數智化”,本質上就是一種“數智烏托邦”思維,將來可能帶來嚴重的“債務陷阱”。
事實上,如果李飛飛的“空間智能”方向成立,自動駕駛將不可以需要“人-車-路-雲-網”的協同,這在未來極有可能是一種“高成本、反效率、反市場”的設計。
人類發展數智化,應該有一個基本的前提——就是它要擁有效率優勢、成本優勢、高可靠性和高容錯性,數智化應該以一種“低成本”“非冗餘”“高容錯”的方式進行推進,而不是像發展房地產一樣先不斷堆砌基礎設施,搞“三平一通”。
結語
中國基於5G/6G“感知智能”的數智化航線要堅定的走下去,因為它非常適用於高精度、海量的工業設備場景,但美國純視覺的“空間智能”數智化航線也有其場景價值,它們在經濟性和靈活性方面更勝一籌。
作為《數智經濟》的作者,我謹慎地提醒那些秉持“數智基建大躍進”思維的專家,人類的數智化航線還不甚清晰,中美兩條發展路線各有優劣,未來還將會面臨適應性抉擇,在這一個過程中,將需要面對各種“暗礁險灘”,而現在就把錢都花出去造了一條“豪華巨輪”,後面如果這條航道走不下去、想改變航道,老百姓還能付得起拆掉“豪華巨輪”的成本嗎?