丹麥AI使用來自關於馬的網絡論壇數據進行訓練 - 彭博社
Ellen Huet
這是一匹馬。
攝影師:Angel Garcia/Bloomberg我瞭解到,丹麥的AI語言模型正在接受關於馬的數據訓練。但首先…
今天你需要知道的三件事:
• 思科以280億美元收購 Splunk• 微軟將其 AI助手添加到Windows• 歐洲的Adevinta 可能成為今年最大的收購案
圍繞馬展開
2021年,一羣研究人員希望建立一個丹麥語 數據集,用於訓練人工智能 — 但他們遇到了一些問題。許多丹麥的寫作,如新聞文章,受到相當嚴格的版權限制。
研究人員可以訪問丹麥税法等文本,但他們知道這些枯燥的文獻並不能很好地代表丹麥人實際的書寫或口語。
因此,他們轉向了一個只在丹麥才有的解決方案:heste-nettet.dk。
Heste-Nettet,意為“馬網”,是一個丹麥的網絡論壇,於1997年創建,供騎馬者、飼養者和其他馬匹愛好者討論馬匹。它也恰好是互聯網上最早的丹麥論壇之一,其討論的焦點很快擴展到遠不止馬匹:關係困境、兒科醫生推薦、高中數學問題、軟煮雞蛋應該煮多少分鐘等等。
幾乎所有的丹麥人都知道Heste-Nettet。通常,當用丹麥語搜索問題時,搜索者最終會進入這個馬網站。有人在Reddit上寫道:“它是一個‘宇宙中已經被提出並回答了所有可能問題’的地方。它就像Yahoo答案,但更好。大多數人使用Heste-Nettet而不是維基百科。”
Heste-Nettet的擴張反映了早期互聯網論壇在社交媒體時代之前是如何從利基主題演變為通用問答存儲庫的方式。其他不那麼專注於馬的例子包括Bodybuilding.com和Stackoverflow.com。
大型語言模型,使得像ChatGPT這樣的東西能夠以如此流利的方式進行交流,變得越來越受歡迎和強大,任何希望開發非英語語言版本的人都需要找到自己的Heste-Nettet,以獲取必要的數據。
如今,Heste-Nettet保持着明顯的Web 1.0美學。其首頁有關於秋季最佳騎手手套、準備繁殖的種馬和可供購買的母馬的帖子。
Heste-Nettet的帖子佔到22%的丹麥數據集,這使其成為該語言中似乎是AI訓練數據的主要選擇中最大的單一來源。哥本哈根的計算機科學教授Leon Derczynski領導了這個項目,他説:“Reddit和X(前身為Twitter)都沒有提供足夠訓練AI所需的丹麥語書面語量,我們只能用Heste-Nettet。”
從研究者的角度來看,與馬相關和非馬相關的閒聊“非常豐富”,包括隨意的俚語,Derczynski説。這也有助於它可以公開使用。
這些特質使其具有價值,即使有其怪癖。“肯定存在馬的偏見,”Derczynski説。“如果你想了解有關馬的事情,那裏肯定有。”
重要新聞
TikTok正在進行 向研究人員和學者開放其系統的過程中,但許多人 對接受嚴格條款持猶豫態度。規定要求學者分享預發表數據。
值得關注
觀看 Bloomberg Technology 電視採訪 Nasdaq的Jeff Thomas關於IPO市場健康狀況的訪談。### 充分充電
字節跳動的員工, TikTok的母公司, 指控老闆種族主義和報復 在一起訴訟中。
AI編輯 技術 為視頻創作者 利用生成式AI。
搜索引擎的CEO DuckDuckGo的運營商在Google反壟斷案中作證,用户 發現很難切換 從Google作為默認搜索引擎。
彭博社更多內容
現場活動: 彭博科技峯會將於10月24日在倫敦舉行,屆時將邀請頂尖科技領袖、商業高管、創新者和企業家參加。活動將探討人工智能的快速發展、綠色技術、網絡戰升級等議題。在這裏註冊。
獲取彭博科技週刊,直接發送至您的收件箱:
- 網絡公報,報道黑客和網絡間諜的陰影世界
- 遊戲進行中,報道視頻遊戲行業
- 開機,提供蘋果獨家新聞、消費者科技資訊等
- 銀幕時光,近距離觀察好萊塢和硅谷的碰撞
- 聲音簡報,報道播客、音樂行業和音頻趨勢
- 問答AI,回答您關於人工智能的所有問題