OpenAI新動作來了!ChatGPT或將登陸蘋果,AI語音助手即將亮相_風聞
乌鸦智能说-1小时前
自蘋果徹底放棄自動駕駛以來,所有人都在關心對這個全球最大終端廠商,將以何種姿態擁抱生成式AI。今年3月,蘋果一度傳出正與谷歌進行大模型合作談判。
如今,情況發生了變化。據彭博社記者 Mark Gurman 援引知情人士消息,蘋果即將與 OpenAI 達成合作協議,將 ChatGPT 整合到 iOS 18 操作系統。
有趣的是,在蘋果與OpenAI即將達成合作的同時,雙方也將AI語音助手展開競爭。
據外媒The Information今日報道,OpenAI正在構建具備音頻和視覺理解能力的AI語音助手,其中一些功能已經開始向客户展示,可能在下週的發佈活動中預覽。而蘋果也預計將在下個月的年度開發者大會上宣佈對其 Siri 語音助手進行升級,使用大型語言模型來生成對用户查詢更復雜的響應。
OpenAI與蘋果同時瞄上了AI語音助手,並非偶然。隨着生成式AI帶動自然語言的崛起,語音交互在硬件交互裏的權重得到大幅提升。這也體現在此前發佈的多個AI硬件上。
從這個角度上説,佈局AI語音助手,也算是OpenAI在AI硬件佈局裏的一次佔位。
/ 01 / OpenAI與蘋果合作接近達成
根據協議,OpenAI 協議將為蘋果公司能夠提供一款流行的聊天機器人,作為其計劃在下個月宣佈的一系列新人工智能功能的一部分。
這意味着,OpenAI或將取代谷歌,成為蘋果大模型領域的合作伙伴。今年3月,據彭博社報道,蘋果正在與谷歌進行談判,計劃將谷歌的Gemini人工智能引擎集成到iPhone中,以支持今年iPhone軟件中的一些新功能。但據知情人士披露,這些討論尚未達成協議,但仍在進行中。
截至目前,對於蘋果即將與 OpenAI 達成合作協議,蘋果、OpenAI 和谷歌的代表拒絕置評。
事實上,隨着蘋果與 OpenAI 的淵源由來已久。早在去年年初,蘋果公司負責軟件業務的高管們經過深思熟慮後,就決定為智能虛擬助手Siri進行“大腦移植”。此前,克雷格·費德里吉(Craig Federighi)和約翰·詹納安德里亞(John Giannandrea)等蘋果高管仔細體驗了OpenAI的聊天機器人ChatGPT,隨後作出了上述選擇。
據兩名熟悉蘋果內部計劃的知情人士透露,ChatGPT的出色表現,尤其是其背後強大的生成式人工智能支持,讓Siri顯得黯然失色。ChatGPT不僅能夠寫詩、編寫計算機代碼,還能回答複雜的問題,這一切都彰顯出其超越Siri的先進性和實用性。
與OpenAI的合作,可以確保蘋果能夠迅速提供具有競爭力的人工智能系統,以挽回其在AI手機領域的落後地位,也為其重新發力人工智能創造時間。
對OpenAI來説,拿下蘋果的好處就更直接了。作為全球智能手機的主導者,蘋果擁有全球最大的終端用户,iOS系統內擁有20億全球最高質量用户。這些設備為OpenAI的大模型落地端側提供了入口,也會在後續轉化為新商業價值。
截至目前,對於蘋果即將與 OpenAI 達成合作協議,蘋果、OpenAI 和谷歌的代表拒絕置評。
/ 02 / 激戰AI語音助手戰場
隨着自動駕駛研究項目的取消,蘋果正在全面轉向人工智能。除了自研大模型外,Siri的優化也是其AI佈局裏的重要一環。
Siri是蘋果於2011年推出的iPhone虛擬助手,多年來一直侷限於對個人請求的回應,且常常難以維持對話的連貫性,甚至頻繁誤解用户的問題,地位尷尬。尤其當ChatGPT展現出,更高的智能水平後,Siri處境顯得更加尷尬。
據三位熟悉Siri改進工作的人士透露,蘋果並沒有急於推出一個能寫詩或進行復雜對話的聊天機器人,以與ChatGPT等競爭對手直接抗衡。相反,他們專注於提升Siri在現有任務上的表現,如設置計時器、創建日曆約會、向購物清單中添加物品等。
為了強調Siri的競爭優勢,蘋果計劃凸顯其比競爭人工智能服務更加私密的特性。Siri將在iPhone上本地處理用户請求,而非通過遠程數據中心處理。這樣的好處在於,不僅能夠提升用户數據的安全性,還能節省資金。
知情人士還透露,改進後的 Siri 將於今年 6 月份的 WWDC 大會亮相。新 Siri 的對話性更強、用途更廣,其 Siri 的底層技術將包括一個新的生成式 AI 系統,支持聊天功能,而不是一次回答一個問題。
在蘋果升級Siri的同時,OpenAI也被爆出正在開發AI 語音助手。據報道,OpenAI 正在開發 AI 語音助手,該技術能夠使用聲音和文本與人交談,同時識別物體和圖像。
據The Information報道,阿爾特曼的終極目標是開發出類似電影《她》(Her)中,可高度響應的虛擬助手,提升蘋果Siri等現有語音助手的可用程度。
目前,OpenAI 已經有軟件可以轉錄音頻並將文本轉換為語音,但這些功能是通過單獨的對話式人工智能模型提供的,而新模型將這些功能結合在一起。
據兩位見過這項新人工智能的人士透露,ChatGPT 的開發者已經向一些客户展示了這些能力,其中包括比其現有產品更好的邏輯推理能力。比如,新軟件的音頻功能可以幫助這些代理更好地理解呼叫者聲音的語調或他們是否在提出請求時帶有諷刺意味。
據一位使用過它的人士透露,目前尚不清楚 OpenAI 何時會將新功能提供給付費客户,但最終計劃將其作為免費版本的聊天機器人 ChatGPT 的一部分。
從目前看,這一功能與外界見面的時間可能比想象得更早。今天早上,OpenAI宣佈將於美國時間13日上午10點在官網直播,演示ChatGPT、GPT-4的更新內容。根據報道,AI語音助手的部分功能可能將在下週的發佈活動中得到展示。
/ 03 / 為什麼都看上了AI語音助手?
OpenAI與蘋果同時將注意力集中到語音助手上,並不是偶然。
在OpenAI看來,具有視覺和音頻功能的AI語音助手具有像智能手機一樣的變革性潛力,理論上其可以做到一系列現在的AI助手無法做到的事,比如充當論文、數學問題指導老師,或是翻譯交通標識、幫助解決汽車故障等。
而對蘋果來説,在AI硬件落地路線尚不明確的當下,利用生成式AI對原有功能進行升級,可能是最為穩妥的方式。改進Siri本身,也能夠給用户提供更自然的對話能力和更加個性化的用户體驗。
更重要的是,從現有已經發布的AI硬件看,儘管設計理念和形態不盡相同,但都有一個共性:在交互過程中,語音交互的權重得到大幅提升。
以主打“個人助理”的Ai Pin和Rabbit R1為例,在很多使用場景下,兩者服務指令的輸出都是通過聊天方式完成,從簡單的諮詢意見、回覆消息、識圖總結、播放音樂、實時翻譯,再到複雜而具體的零碎任務都能完成。
而作為記憶增強設備的Tab和Rewind 吊墜,則將這一點體現得更為明顯,兩者本質上都屬於隨身錄音設備,都是以一個麥克風打天下,能全天候、不間斷地傾聽你和身邊人聊到的一切內容,並通過 ChatGPT 轉錄對話內容,再通過 AI 進行分析和整理。
幾乎所有人都把交互創新作為AI硬件的重要特徵,這並非毫無道理。其邏輯在於,過去用户與軟件的交互是對象和命令的方式,比如Photoshop就是一個窗口一個指令,而到了AI時代,用户用自然語言向Midjournery描述你的想象,它就能給你生成圖。也就是説,從互聯網時代到AI時代,交互的邏輯發生了根本性的變化:從對象和命令變成自然語言。
沿着這個邏輯,不難想象,隨着短時間 AI 的能力越來越強,音頻的交互變得越來越靠譜,語音交互的頻次將越來越多。儘管目前受限於模型性能等諸多因素,在很多場景下,語音交互效果並不盡如人意。
但隨着模型性能的升級,以及AI語音助手的迭代,消費硬件里語音交互的權重提升是一個必然趨勢。正如比爾蓋茨對 AI 時代展望時所説,
“如今在電腦上執行任何任務,都必須告訴通過 App。你可以用 Word 或者 Google 文檔來寫商業計劃書,但它們卻無法幫助你發送電子郵件、分享自拍、分析數據、安排聚會或購買電影票。但是在未來五年內,這種情況將完全改變。您不必為不同的任務,而使用不同的 App,你只需用嘴説出來,告訴你的設備你想做什麼就行。”
