OpenAI希望與各方合作,收集更多多樣化的數據 - 彭博社
Rachel Metz
Sam Altman,OpenAI首席執行官。
攝影師:Chris J. Ratcliffe/BloombergOpenAI計劃擴大與外部組織合作,收集更廣泛語言、主題和文化的數據,以構建任何人都可以使用的公共數據集,幫助訓練更具代表性的人工智能工具。總部位於舊金山的初創公司週四表示,希望各個團體和社區與其聯繫,共同合作進行數據合作,目標是收集“反映人類社會”的大量數據。該公司還表示,正在努力製作私有數據集 —— 例如組織或公司不願與他人分享的數據 —— 也可用於訓練人工智能。 OpenAI的GPT-4等大型語言模型用於幫助驅動ChatGPT,它們會從互聯網上獲取大量文本,以便確定如何向用户生成相關的聽起來像人類的回覆。但這些人工智能系統通常過度依賴英語數據,忽略了在線存在較少的文化和語言。因此,這些系統可能會強化偏見或錯誤信息。一些科技公司,包括微軟和谷歌,已經轉向第三方數據提供商開始填補各種語言的空白。
“我們真的認為每一種語言,每一種人類努力和活動,都可以使這些模型受益,”OpenAI總裁Greg Brockman在接受彭博新聞採訪時週三表示。“這有點像雙向街道:你能夠在模型中代表你的數據,模型在那個領域的表現就會更好。”