百度趕在發佈前準備中國首個對標ChatGPT的產品——華爾街日報
Raffaele Huang and Karen Hao
百度計劃分階段推出文心一言,首先向限定用户羣開放公開測試。圖片來源:FLORENCE LO/REUTERS距離3月16日百度公司推出中國版ChatGPT僅剩一週之際,這家中國最大搜索引擎運營商的員工表示,他們正在爭分奪秒趕工期,而這款聊天機器人目前仍難以實現某些基本功能。
知情人士透露,為開發這款名為文心一言的人工智能聊天機器人,數百人一直在晝夜不停地工作。他們表示,其他團隊也被要求抽調人員和強大的計算芯片予以支持,由於美國的制裁,中國企業已無法購買這些芯片。
部分知情人士稱,作為聊天機器人基礎的AI模型在計劃發佈前仍在進行數據訓練,這是中國科技行業備受期待的盛事。一些員工表示,他們沒有足夠時間打造功能完善的產品。高度期待的事件在中國科技行業,一些知情人士表示。部分員工稱他們沒有充足時間開發功能完善的產品。
百度計劃分階段推出該產品,首先向限定用户羣開放公開測試,瞭解該計劃的人士表示。上月百度曾宣佈將先把文心一言嵌入搜索引擎,並於3月向公眾開放。
百度CEO李彥宏對員工表示:“我們擁有如此酷炫的技術,但能否將其轉化為人人需要的產品?“圖片來源:孫一雷/路透社百度美國存託憑證週四下跌7.5%。納斯達克中國金龍指數整體下跌5.4%。
這一熱潮反映出百度正進行一場精心計算的豪賭,以領先於近期宣佈類似計劃的中國競爭對手。該公司表示已與400多家中國企業簽署協議,這些企業將能在其產品和服務中使用文心一言。百度稱,作為回報,該聊天機器人將獲得不同場景下的運行經驗以提升性能。
若成功推出,或助力這家近年失寵於投資者的公司重返中國頂尖科技企業行列。若失敗,則可能重蹈谷歌覆轍——該巨頭直到最近仍對AI持相對謹慎態度,在其AI聊天機器人搜索演示中出現事實性錯誤後,市值蒸發1000億美元。
百度拒絕置評。
無論哪種結果,都可能影響百度與中國政府的關係,以及政府對能生成文本到圖像內容的生成式AI技術的看法。
知情人士透露,百度開發聊天機器人的計劃得到了其總部北京市政府官員的鼓勵。文心一言很可能成為中國首個與舊金山人工智能研究公司OpenAI開發的ChatGPT抗衡的產品。中美兩國一直在競相增強各自在戰略技術領域的實力。
這些人士表示,北京市政府還提醒百度確保其服務符合中國法律法規,包括數據收集和處理方面的規定,以及國家嚴格的互聯網審查規則。
本週,中國科技部部長王志剛表示,開發類似ChatGPT的產品將很困難。
“踢足球不過是帶球和射門,但要像梅西那樣出色並不容易,“王志剛説,他指的是阿根廷運動員萊昂內爾·梅西。他補充説,中國長期以來一直在研究這一領域,但"我們還得拭目以待,看是否能取得像OpenAI那樣的成果。”
多年來,百度投入巨資開發大型語言模型——支撐ChatGPT的技術——將谷歌和OpenAI的英文版本適配為中文。該公司在2019年發佈了第一個模型,命名為文心”,此前谷歌將其模型命名為"Bert”——兩者都引用了《芝麻街》中的名字。
去年12月下旬,隨着ChatGPT的熱度上升,百度首席執行官李彥宏向員工談到了這一新進展。“我們有這麼酷的技術,但我們能把它變成每個人都需要的產品嗎?“根據《華爾街日報》看到的一份內部記錄,他説,“這實際上是最難的一步,但也是最偉大、最有影響力的一步。”
據知情人士透露,1月初,百度高管要求其自然語言處理團隊開始利用文心大模型整合開發類似ChatGPT的產品。
他們表示,該項目面臨諸多挑戰,其中許多是其他開發類ChatGPT技術的AI團隊共同遇到的。一是通過訓練模型區分具有多重含義的短語或可能指向多個人名的詞語,使其更精準回應用户請求;二是讓聊天機器人生成更接近人類自然語言的表達。
第三是提升事實準確性——這是大語言模型的技術瓶頸,其基於詞彙共現概率而非事實信息來組織語句。該缺陷還導致模型難以規避敏感話題,形成內容審核障礙。
知情人士稱百度已聘請外包團隊協助審核優化聊天機器人的回答。
相關人員表示每個環節都需要時間。AI研究者指出,使用數千塊芯片對這種量級的模型進行充分訓練可能需要數週甚至數月。
據知情人士透露,本週工程師和產品經理正全力改進文心一言的基礎功能,包括響應速度和搜索結果摘要生成等。
知情人士稱,開發團隊持續高強度工作,連1月底的春節長假也未間斷。目前項目已從開發中英文雙語聊天機器人調整為聚焦中文功能的版本。
知情人士透露,百度首席技術官王海峯負責監督文心一言的研發工作,主要由其技術開發部門(包含自然語言處理團隊)及移動生態業務羣組推進實施。部分人士表示,百度智能雲事業羣組提供了雲計算支持。
為加速進程,高管們調集了更多資源。據知情人士稱,春節假期後,李彥宏要求公司各AI團隊(包括自動駕駛部門)調配最強算力芯片——英偉達A100顯卡用於文心一言開發。美國去年底實施的芯片禁令禁止中國企業採購新型A100芯片。
部分人士表示,公司還抽調員工參與數據清洗工作**,**例如過濾低質量內容。另有消息稱百度也聘請了外部團隊進行數據清理。
知情人士稱,時間緊迫令部分員工對文心一言能否滿足用户或市場預期感到不安。有員工透露因此已在產品發佈前拋售部分公司股票。
聯繫記者:黃瑞黎([email protected])與Karen Hao([email protected])
本文發表於2023年3月10日印刷版,標題為《百度全力打造ChatGPT競品》