OpenAI希望與各方合作，收集更多多樣化的數據 - 彭博社

Rachel Metz

2023-11-10

Sam Altman，OpenAI首席執行官。

攝影師：Chris J. Ratcliffe/BloombergOpenAI計劃擴大與外部組織合作，收集更廣泛語言、主題和文化的數據，以構建任何人都可以使用的公共數據集，幫助訓練更具代表性的人工智能工具。總部位於舊金山的初創公司週四表示，希望各個團體和社區與其聯繫，共同合作進行數據合作，目標是收集“反映人類社會”的大量數據。該公司還表示，正在努力製作私有數據集 —— 例如組織或公司不願與他人分享的數據 —— 也可用於訓練人工智能。 OpenAI的GPT-4等大型語言模型用於幫助驅動ChatGPT，它們會從互聯網上獲取大量文本，以便確定如何向用户生成相關的聽起來像人類的回覆。但這些人工智能系統通常過度依賴英語數據，忽略了在線存在較少的文化和語言。因此，這些系統可能會強化偏見或錯誤信息。一些科技公司，包括微軟和谷歌，已經轉向第三方數據提供商開始填補各種語言的空白。

“我們真的認為每一種語言，每一種人類努力和活動，都可以使這些模型受益，”OpenAI總裁Greg Brockman在接受彭博新聞採訪時週三表示。“這有點像雙向街道：你能夠在模型中代表你的數據，模型在那個領域的表現就會更好。”