人工智能在成為連接拼圖冠軍方面還有很長的路要走 - 彭博社
Rya Jetha
谷歌的AI聊天機器人在智能手機上。研究人員發現,支撐Alphabet Inc.的谷歌和其他AI公司的聊天機器人的大型語言模型在解決一些文字遊戲時遇到困難。
攝影師:Gabby Jones/Bloomberg
重置戰鬥。
攝影師:Roman Pilipey/AFP/Getty Images
你是《紐約時報》文字遊戲愛好者嗎?迷你填字遊戲、Wordle和令人惱火的Connections拼圖吸引了許多粉絲,其中一些人測試了AI的表現。但首先……
今天你需要知道的三件事:
• Autodesk在承諾停止後繼續進行風險銷售實踐• 中國的AMEC正在起訴五角大樓,試圖取消美國製裁• 一個CIA基金支持耶魯大學科學家開發量子錯誤糾正
AI並不那麼聰明
像許多互聯網用户一樣,我與Connections有着愛恨交織的關係。對於不熟悉的人來説,這個遊戲發生在一個4x4的虛擬網格上,上面放置了十六個單詞。玩家的任務是將這些單詞分成四組,每組的難度逐漸增加。一個簡單的組可能包括順應者的同義詞——追隨者、旅鼠、傀儡和羊——而一個更具挑戰性的選擇可能是城市的音位名稱——例如deli、niece、roam和soul。如果這個城市分組讓你覺得奇怪,你並不孤單。
這款遊戲因其考驗抽象推理能力的腦筋急轉彎而聲名顯赫。玩家們在社交媒體網站X上發帖,調侃Connections,稱這款遊戲“今天選擇了暴力”,“應當入獄”,並且正在讓人們“尋找不存在的模式”。
但請放心,人工智能機器人也沒有比我們表現得更好。它們只能在8%的情況下解決整個遊戲。
我們之所以知道這一點,是因為巴納德學院的一組計算機科學學生決定測試聊天機器人的Connections技能。他們要求OpenAI、Alphabet Inc.的谷歌、Anthropic和Meta Platforms Inc.的最新模型解決200個遊戲,發現它們的表現比人類新手還要差,遠不及人類專家。
學生們很快意識到,他們的項目不僅僅是書呆子的樂趣。他們偶然發現了一種測試聊天機器人推理能力的複雜方法,而這正是研究人員試圖衡量的內容,也是公司試圖改進的方向。
在最近的一次全員OpenAI會議上,領導層告訴員工,這家初創公司正處於其系統成為“推理者”的邊緣——這意味着它們可以進行基本的問題解決。高管們展示了OpenAI最先進的系統如何回答過去讓模型困惑的文字問題。
雖然尚不清楚Connections是否屬於這些文字問題,但巴納德學生的研究——他們與教授共同將課堂項目發展為學術論文——確立了這個病毒式互聯網遊戲作為AI推理能力的一個有價值且具有挑戰性的基準。
Connections旨在測試不同類型的知識——百科知識、語義知識、聯想知識和語言知識。對於這200個遊戲,研究人員對解決每個類別所需的知識類型進行了分類,以便測試人工智能解決不同類型問題的能力。
他們發現,雖然人工智能在解決一些涉及語義知識的問題上表現良好,但其他類別則要困難得多。例如,人工智能可以輕鬆地將追隨者、旅鼠、木偶和羊歸為一類,因為它們共享相同的廣泛語義意義。然而,它發現聯想類別更難,例如籃球、胡蘿蔔、金魚和南瓜——這些東西都是橙色的——並且在結合知識類型的類別上遇到了困難,比如熟食店、侄女、漫遊和靈魂,這需要語言和百科知識。
“當需要跳出框架思考或進行任何形式的發散思維時,它會遇到很大的困難,”研究科學家Tuhin Chakrabarty説,他是巴納德學院的教學助理和 論文的共同作者。他補充道,團隊的發現可以被研究人員用來改善他們模型中特定類型的抽象推理。
Connections的遊戲設計者故意在網格上放置“紅鯡魚”或干擾項來迷惑玩家。人工智能常常陷入這些紅鯡魚的陷阱,因為它一步一步地解決遊戲,而沒有考慮整體情況。
“它不擅長將整個謎題視為一個獨立的問題,這也是最大的缺點之一,”巴納德學院的學生之一和論文的共同作者Mariam Mustafa説。
如果一個網格包含星期一、星期二、星期三和星期四,人工智能可能會將它們歸為一類,而不考慮網格中還包含莫提西亞、戈梅斯和帕克斯利,這些都是可以與星期三(家中的女兒)歸為一類的亞當斯家族角色。
因為人工智能被訓練成生成最可能的下一個詞,“它會説出最明顯的東西,而不去探索所有16個詞,”查克拉巴提説。“在干擾因素存在的情況下進行抽象推理——這對人類來説非常困難,而對大型語言模型來説更難。”
雖然人工智能公司繼續努力提高其模型的推理能力,但目前研究人員的結論很明確:即使在攝取了所有這些數據後,人工智能仍然無法解決每個人都喜歡討厭的難題。
大新聞
谷歌現在在其搜索頁面頂部顯示方便的基於人工智能的答案——這意味着用户可能永遠不會點擊那些被用來支持這些結果的網站。但許多網站所有者表示,他們無法阻止谷歌的人工智能總結他們的內容,因為阻止人工智能也會妨礙網站在線被發現的能力。
充電完畢
中國科技股在京東超出預期後上漲,而阿里巴巴在頑固的消費者需求面前保持穩定。
BetMGM博彩將在2025年初進入巴西,前提是一個合資企業在這個秋天獲得政府的許可證。
Starlink 競爭對手 AST 股價上漲超過 50%,在確認九月初的窗口後收盤創下紀錄,以進行首次商業發射。
更多來自彭博社
在您的收件箱中獲取彭博科技週刊:
- 網絡簡報,涵蓋黑客和網絡間諜活動的陰影世界
- 遊戲進行中,報道視頻遊戲行業
- 電力開啓,獲取蘋果新聞、消費科技新聞等
- 屏幕時間,前排觀看好萊塢與硅谷的碰撞
- 聲音片段,報道播客、音樂產業和音頻趨勢
- 問與 AI,回答您關於人工智能的所有問題
烏克蘭軍隊表示,他們接受了自戰爭開始以來最大的單一俄羅斯士兵集團的投降,基輔軍方聲稱繼續擴大其跨境侵入。
根據一位不願透露姓名的知情人士,烏克蘭安全局在俄羅斯庫爾斯克地區的一個單位俘獲了 102 名俄羅斯軍人,因該事項敏感而要求不被識別。
2024年8月14日,俄羅斯庫爾斯克地區的俄羅斯戰俘在避難所中。烏克蘭安全局新聞俄羅斯人在一個龐大的地下綜合體中於週三被捕,並且有充足的彈藥和補給,該人士表示。俄羅斯尚未對此發表評論。
觀看:烏克蘭表示現在控制了1,150平方公里的俄羅斯領土。託尼·哈爾平報道。
烏克蘭現在控制了1,150平方公里(444平方英里)的俄羅斯領土,包括82個村莊和城鎮,自10天前開始的入侵以來,最高指揮官奧列克桑德·西爾斯基在週四發佈在澤連斯基的Telegram頻道上的視頻報告中告訴總統弗拉基米爾·澤連斯基。這些聲明無法獨立驗證。
五角大樓發言人薩布rina·辛格週四告訴記者,美國“仍在努力瞭解”烏克蘭在對俄羅斯的進攻中的目標,此前美國國防部長勞埃德·奧斯丁於週三與烏克蘭國防部長魯斯坦·烏梅羅夫通了電話。
早期報告顯示,一些俄羅斯部隊已從烏克蘭調往庫爾斯克地區,以幫助阻止這一努力,辛格説,並補充説她尚未對俄羅斯對烏克蘭被佔領土(包括頓巴斯)的補給線是否受到影響進行評估。
烏克蘭進入俄羅斯的行動是美國和其他支持烏克蘭的國家在限制其武器在俄羅斯使用的努力中面臨的最新挑戰,除了有限的自衞目的。
“烏克蘭現在能夠在這次行動中使用的不僅僅是美國的,還有一系列西方提供的裝備,這表明任何認為烏克蘭打擊俄羅斯有明確紅線的人都是自我説服的——而實際上,這條紅線並不存在,”美國企業研究所的非駐外高級研究員克里斯·米勒説。
澤倫斯基表示,烏克蘭在庫爾斯克地區的蘇茲哈鎮設立了一個軍事指揮所,西爾斯基表示該指揮所將用於維護公共秩序並滿足當地居民的基本需求。總統在週三的定期視頻講話中讚揚了該地區烏克蘭軍隊為囚犯交換補充“交換基金”。
基輔的議會人權專員德米特羅·盧賓茨在週三的電視評論中表示,俄羅斯官員已經就可能的囚犯交換與烏克蘭取得了聯繫。他拒絕透露細節,包括被捕軍人的總數。
俄羅斯人權專員塔季揚娜·莫斯卡爾科娃,代表克里姆林宮進行囚犯交換談判,尚未立即回應評論請求。
俄羅斯國防部長安德烈·別洛烏索夫與軍事官員舉行了關於“確保邊境地區居民安全”的談判,莫斯科國防部在週四的Telegram帖子中表示。
烏克蘭稱在俄羅斯庫爾斯克地區的行動仍在繼續
來源:戰爭研究所和AEI的關鍵威脅項目
別洛烏索夫討論了確保與烏克蘭攻擊相鄰的別爾哥羅德地區“完整性和不可侵犯性”的措施,並表示他將親自監督這些措施的實施,聲明中提到。
莫斯科當局週四在別爾哥羅德宣佈了聯邦緊急狀態。地區州長維亞切斯拉夫·格拉德科夫表示,該地區正面臨來自烏克蘭軍隊的反覆無人機襲擊和炮擊。
戰鬥仍在烏克蘭東部進行,俄羅斯軍隊正在向頓涅茨克地區的波克羅夫斯克市推進,距離該市僅有10公里(6英里)。當地行政首長謝爾希·多布里亞克在其網站上的視頻中呼籲居民離開,稱“情況只會變得更糟”,該市是烏克蘭在該地區的重要物流中心。
自上一個主權國家對俄羅斯的入侵以來,已經快一個世紀了。那是1941年6月希特勒的德國,而這對納粹來説並沒有好結果。這次軍事失敗與19世紀初拿破崙的入侵相呼應,拿破崙的軍隊雖然抵達莫斯科,但卻被迫以災難性的損失撤退。
現在,在21世紀的第一次,入侵的軍事力量烏克蘭佔領了數百平方英里的俄羅斯領土,俘獲了俄羅斯軍事囚犯,並在比爾戈羅德和庫爾斯克地區強迫實施緊急狀態和撤離。