新“Siri”之戰開打,微軟、亞馬遜、OpenAI已入場_風聞
字母榜-字母榜官方账号-让未来不止于大09-30 14:23

新一代個人AI助理之戰,終於打響了。
9月,三家公司發佈了重要預告,標誌着這個節點的到來。這三家公司分別是亞馬遜、微軟和OpenAI。
亞馬遜在21日的秋季硬件發佈會上宣佈,“老牌”語音助理Alexa終於要升級,融入大語言模型。新Alexa延遲更低,能理解上下文、記憶此前的對話、無需來回喚醒,而且還會越用越個性化。
同樣是在9月21日,微軟在美國紐約召開秋季發佈會,宣佈自26日起將逐步給Windows11用户推送系列更新,其中一個重要更新是人工智能助手Copilot。Copilot,正如其名“副駕駛”,要成為用户的數字管家,將出現在Windows11的側邊欄,可以語音對話,允許用户通過其控制PC上的設置、啓動應用程序,或是回答問題等。驅動Copilot的是OpenAI目前最先進的大語言模型GPT-4。

沒過幾天,25日,OpenAI突然放招,發佈公告《ChatGPT現在能看、能聽、能説》,宣佈將在未來兩週向付費用户推送多模態新功能。多模態ChatGPT將能基於圖片對話,並進行實時語音對話。舉個例子就是,你打開冰箱拍張照,就可以和ChatGPT語音暢聊晚上吃點什麼。結合ChatGPT已經以App形式登陸安卓和iOS,相比於無所不知的“大明白”AI,此舉讓ChatGPT更具備個人助理的能力。
除了這三家正式宣佈相關產品升級之外,谷歌在上個月被科技媒體Axios爆料,內部郵件顯示,谷歌將利用最新的大語言模型技術對谷歌助手(Google Assistant)進行全新改造。蘋果也被爆料已經搭建好大語言模型的框架,在對地圖、Siri在內的功能進行改造。
科技巨頭在個人助理的戰場上廝殺,上一次出現這樣的場景還是在8年前:Alexa首次發佈於2014年,搭載在亞馬遜智能音箱Echo產品中。也是在那一年,微軟也隨Windows系統推出語音助理Cortana,在中國大陸被稱為“小娜”;谷歌隨安卓4.1推出語音助理Google Now,也就是後來的谷歌助手Google Assistant。那是繼2011年蘋果隨iPhone 4S推出Siri之後,緊跟的三款來自科技巨頭的語音助理競品,拉開了上一代語音助理混戰的序幕。
然而,最初引起大眾極大興趣的語音助理,近幾年已經變成了智能終端必備、但人見人嫌的“人工智障”。隨着去年11月底OpenAI發佈ChatGPT,流暢的對話讓上一代個人助理更加相形見絀。在ChatGPT發佈前不久,Alexa被傳出虧損、裁員的消息,而在ChatGPT發佈之後,微軟“殺死”了Cortana,在今年8月將其下線。
上一代個人助理之戰告一段落,新一代個人助理的戰爭已經奏響號角。有了大語言模型技術的加持,這一次的故事會有不同嗎?

先讓我們官方給出的例子,看看亞馬遜Alexa、微軟Cortana和OpenAI的多模態ChatGPT是怎樣的存在。
接入大語言模型的Alexa,“機器人”味少了。用户可以説得不直白,如“Alexa,我很冷”來讓Alexa開空調,也可以很抽象,比如“讓這個房間看起來像XX球隊的顏色”。用户還可以一次説多個指令,如“Alexa,打開噴頭,打開車庫門,關閉外部燈光”,Alexa就會識別並執行這些任務。
此外,現在,用户可以對Alexa説“Alexa,讓我們聊天吧”,接下來的對話中都不需要再叫Alexa的名字。並且Alexa會記住用户的一些信息和偏好,不必每次都對TA做自我介紹。

在一條演示廣告中,用户和Alexa進入聊天模式。用户想要舉辦一場派對,讓Alexa推薦派對主題,然後再依據主題推薦合適的場地。當用户和Alexa商量好一切之後,用户要求“給我的朋友發送下週五晚上8點的邀請郵件嗎,神秘一些”,Alexa便欣然答應,並閲讀以“你準備好度過一個難忘的夜晚了嗎”開頭的郵件給用户確認。
**比起過去每句話都要叫一聲“Alexa”、前後不能有連續、指令必須清晰明確的語音助手體驗,新Alexa的確“更像人”了。**相信每一個使用智能家居的用户,都受夠了變着法地試探怎麼説才能讓“小X”和“精靈”們聽懂指令。
已經被殺死的微軟Cortana,也就是我們熟悉的“小娜”,基本上和iPhone的Siri差不多。為你打開某個應用、播放一首歌曲,或者回答你的問題(除了今天的日期和天氣之類的基礎問題外,基本上是給你顯示網頁搜索結果)。
**而Copilot則更像一個實幹型的助手。**比如你可以要求Copilot幫你“整理桌面”,它就會把窗口平鋪排列;當你瀏覽網頁的時候,可以呼出Copilot讓它幫你總結、解釋、重寫網頁的內容;編寫文案、總結圖表更是不在話下。更有意思的是,Copilot還具備對圖片的處理能力,你可以在截圖後直接讓Copilot進行去除背景、摳出人像等操作。

和升級後的Alexa一樣,Copilot的對話體驗也更偏“人類”,你可以直接讓Copilot“播放讓我集中精力的歌”,它就會找到Spotify上的對應歌單。

**至於OpenAI的ChatGPT,也在轉向多模態之後變得更貼近生活。**前文已經提到,你可以打開冰箱拍張照,和ChatGPT討論晚上吃什麼。
在官方給出的另一個例子中,用户給ChatGPT發送了一張自行車的照片,問它如何調低座椅。ChatGPT提醒用户查看車的型號,確認是有快拆杆還是用螺栓固定,並給出詳細步驟。用户還是不明白,拍攝了座椅連接處的照片並圈出某部位,問這是不是快拆杆。ChatGPT識別出這是螺栓,並建議用內六角扳手。用户接着發難,拍攝了一張工具箱的照片,詢問ChatGPT哪一個是內六角扳手,它也成功識別了出來。

除了日常生活中的問題解決外,由於具備語音功能,可以“説”的ChatGPT還可以給孩子講睡前故事。更有意思的是,當你與人吵架,也可以把能聽會説的ChatGPT擺上來,幫你們梳理思路,解決爭論。

不過,不管是新Alexa,還是Copilot和多模態ChatGPT,都有一定的使用門檻。
Windows11操作系統內置的Copilot目前沒有收費的消息,應該是免費向用户開放的,但是要等更新逐步推送。而在辦公套件Microsoft 365上,Copilot屬於高級訂閲功能,每月收費30美元。
OpenAI的多模態ChatGPT僅向高級訂閲用户開放,也就是ChatGPT Plus,每月20美元。
而新Alexa未來可能會收費。在亞馬遜秋季發佈會之後,彭博社採訪了即將離任的亞馬遜設備和服務部門副總裁大衞·林普(David Limp),他表示亞馬遜“絕對”在考慮Alexa的訂閲模式。
林普拒絕討論Alexa若收費的話定價會是多少,並表示“你今天所熟悉和喜愛的Alexa將保持免費”,但為AI聊天機器人提供動力並不便宜,他承認“在雲端進行模型推理的成本是巨大的。”
剛開始打仗就想着怎麼收費,這看似急功近利,實際上都是上一代個人助理之戰的血淚教訓。
個人助理產品早就有,其中的代表是微軟在1995年就推出的微軟鮑勃(Microsoft Bob),彼時比爾·蓋茨(Bill Gates)還是微軟的CEO,在那一年首次登上《福布斯》全球富翁榜榜首。但現在回頭看,鮑勃顯得很臃腫:軟件顯示一座虛擬的房間,就像一間個人辦公室,角落裏蹲着卡通狗助手,親切地問你需要什麼幫助。

這條路沒有走通,僅一年,微軟就用Clippy代替了鮑勃,就是那個濃眉大眼的曲別針,熱心腸地想幫你做這做那(但什麼都做不好),也不成功,是大家批評嘲笑的對象。
到了2011年,一切都改變了,蘋果推出iPhone 4S,“附贈”的還有Siri——一個沒有實體形象,可以長按Home鍵呼出的語音助理,可以幫你打開應用,還能回答問題,甚至可以俏皮地給你講笑話,在當時頗具“未來感”。
科技巨頭們聞風而動。在2014年,語音助理大爆發,佔據安卓的谷歌推出了Google Now(兩年後升級為谷歌助手Google Assistant),佔據PC操作系統的微軟推出了Cortana,而亞馬遜乾脆研發智能音箱設備,將Alexa塞了進去。

電影《她》上映了,電影中男主人公和電腦操作系統的語音助手談戀愛,後者的配音是好萊塢著名演員“寡姐”斯嘉麗·約翰遜(Scarlett Johansson),而語音助手的界面像極了Cortana。電影上映後,《連線》雜誌甚至報道有一些iPhone用户認為Siri似乎開始擁有“自我意識”。
到了2019年之前,各家陸續在更多端口搭載語音助手,谷歌、蘋果、微軟都推出了智能音箱設備,Alexa和Cortana還搞起了合作,可以在自家語音助手那裏呼出對方,以實現更多功能。在國內,手機智能語音助手和智能音箱也開始湧現,小度、小愛、天貓精靈等悉數登場。
然而,也是在這個階段,語音助手越來越普及,大眾對其的評價卻慢慢從充滿幻想,變為了感到失望。在國內,這些語音助手喜提“人工智障”稱號。人們在網上發帖詢問“Cortana老自己彈出來,怎麼關掉啊”,或是分享智能音箱怎麼都聽不懂“關掉客廳的燈”的簡單指令的短視頻。
以Siri為例,2018年Vetro Analytics的數據顯示,Siri的使用率為19.6%,依賴度僅為11%,每位用户每月平均使用時長只有短短14分鐘。

體驗差,直接影響着語音助手產品的商業前景。
就在ChatGPT推出之前,2022年11月,媒體Business Insider報道,根據其獲得的內部數據,一季度亞馬遜Worldwide Digital部門運營虧損超過30億美元。這個部門包括從Echo智能音箱、Alexa語音技術到流媒體服務的所有內容。而熟悉該部門的人士表示,這一虧損是亞馬遜所有業務部門中最大的,而且其中大部分損失都要歸咎於Alexa。報道估計,2022年該部門的虧損甚至會達到100億美元。
Alexa的開局並不差,第一代Echo設備的銷量超過500萬台。但是其商業模式一直是個問題,所有的語音助手其實都有這個問題:提供了服務,然後呢?2018年,亞馬遜預計2021你那每台設備都將虧損5美元。
上一代語音助手並沒有很好的貨幣化舉措,再加上交互的體驗並不好,Alexa期望可以將亞馬遜的電商服務融合進去,但糟糕的體驗無法支撐這個願景,而頻繁地詢問用户要不要買東西本身又在損害體驗。用户到頭來和語音助手間的大部分對話瑣碎而日常,如今天的天氣、日期、打開某個應用等,而這並不能讓亞馬遜賺錢。
在裁員、虧損的消息傳出後,亞馬遜表示還是會大力發展Alexa,但是外界看不到什麼新的可能。

ChatGPT的出現,讓一切都不同了。
一方面是危機,ChatGPT基於大語言模型的出色對話能力,讓大眾幾乎在第一時間就將之與上一代語音助手進行對比,結論就是“太差了”。問題改變,上一代語音助手不思進取、不上大模型,就有可能落後捱打,即便是蘋果和谷歌也得忌憚這種可能性。
除了谷歌在今年8月被傳出要用大語言模型升級谷歌助手以外,蘋果也有類似的傳聞。今年7月,名記馬克·古爾曼(Mark Gurman)爆料,蘋果已經完成了其大語言模型的基礎框架,被稱為“Ajax”,定位為支持對話式AI系統,並已經將其應用在地圖、Siri等功能上,做人工智能改進。
而在科技巨頭動作之前,早就有各種整合了大模型的個人助理第三方應用出現。如今年6月,就有人“復活”了微軟鮑勃,使用的是GPT-3.5模型,在微軟商店上架。
另一方面是機遇。以亞馬遜Alexa為代表的智能生態想象,如今在5G加持、大模型支撐之下,實現的可能性前所未有得大。
本次秋季發佈會,亞馬遜在宣佈Alexa將全面升級之時,也已經勾勒出了廣闊的前景:亞馬遜將大語言模型注入200多個智能家居API,為Alexa提供更主動無縫管理智能家居所需的背景信息。同時,亞馬遜要推出工具,允許Alexa控制第三方產品的某些功能,後者無需在智能家居生態系統的工具包中。亞馬遜表示,已經和通用電氣、飛利浦、小米、iRobot等合作開發這些功能。
但現在要面臨的新挑戰也是10年前所沒有的,AI對於個人隱私和數據安全的威脅正在被重視。不管是新Alexa、Copilot還是多模態ChatGPT,在向個性化助理的方向進發時,將不可避免地觸及這一問題。目前,新Alexa發佈,亞馬遜將利用用户與Alexa的語音交互來訓練模型的消息已經在被討論。
“誰贏得了個人代理,那就是一件大事。因為你將再也不會去搜索網站或去生產力網站,你再也不會去亞馬遜(購物)。”在今年5月的一場活動上,比爾·蓋茨如是預測。
問題是,究竟會是誰贏下這場戰爭呢?亦或是像上一代語音助手之戰一樣,轟轟烈烈之後沒有贏家。
參考資料:
1、IT之家:《“大眼夾”重生,變身 ChatGPT 聊天機器人》
2、智東西:《昨夜微軟與亞馬遜“聯姻” 還拋出5道AI殺手鐧》
3、金融界:《從“全村的希望”到“大裁員”,亞馬遜是如何摧毀Alexa 的?》
4、鈦媒體:《智能手機之爭的下半場:語音助手之戰》