機器學習已成谷歌第三大技術 開源有助創業者
五年後重新談論搜索之後的技術時,機器學習成為谷歌接下來產品必備的技能,並且谷歌已經宣佈將開放這一能力,原因是其需要大量的數據使得機器更加智能。
機器學習不止是用於優化減少垃圾郵件以及YouTube的視頻推薦,如今最能代表這項技術的產品就是Google Photos。發佈6個月後,用户已經上傳了500億照片。這樣大量的數據以使得谷歌可以自動幫助用户組織和管理圖片,而且更加人性化的搜索圖片和分享。
週二,Google Photos產品經理Chris Perry在日本向媒體展示了Google Photos是如何識別出十幾年前父子在峽谷的合影,而這張照片並未被人工添加任何標籤。與傳統照片管理依靠特定標籤不同,谷歌雖然也同樣會根據關鍵詞進行搜索,但是對於圖片的識別技術已經發生了根本的改變。
Chris Perry展示瞭如何利用神經網絡識別一張圖片,而不是使用信息點匹配的方式,原因是後者只能識別靜物。這項被稱為“神經網絡”的項目包括26個層次的識別,而每個層次識別的內容並不相同。簡單來説,谷歌可以從像素、線條和形狀分別進行對圖片的識別,最終告訴用户這是什麼。
不過,這裏存在着一個難以突破的困境。機器可以通過已經上傳的多張圖片識別出他們相同的特點,並知道這是同一類事務,但無法將這些事務與人的認知相聯繫。舉個例子,機器識別一張貓的照片,並知道這是一隻喵喵叫的貓,但是它卻無法告訴用户這是一隻“貓”。
面對大千世界的海量數據,在實際中是無法有專門的人對每個事物進行標定。推特和Pinterest通過五年的時間實現了這個方式,而Instagram用了兩年半的時間。
然而,谷歌的做法就是利用每一個人的搜索,以此代替專門的人工添加,這是自7、8年前語音團隊開始切入機器學習後開始的。2、3年前谷歌開始大規模投資這項技術,
如今,谷歌向外界開放其機器學習系統TensorFlow,Alphabet執行主席Eric Schmidt表示,這將不斷擴大網絡,組成更大的知識基礎,獲得更多回饋,進而有更多發現。
當你看到被白雪遮蓋了部分的路標,你可以大致猜測出這個圖片是什麼以及背後的含義。谷歌認為,機器也應該可以同樣做到。為此,谷歌將機器學習引入旗下的產品。谷歌高級研究科學家Greg Corrado告訴騰訊科技,“機器學習已成為谷歌搜索第三大重要技術”。
在Greg Corrado看來,人工智能是機器響應環境,而機器學習是可以根據經驗進行學習。谷歌真正感興趣的是這兩者的交集部分。“我們預測機器可以預測不斷重複同一工作”,然後使其對工作處理的更好。
機器學習的基礎實際上包括三個重要的部分。首先,需要找到“Model(模型)”,這就是在輸入和輸出中間的一個轉換公式,也就是“機器學習”中的“機器”;其次,需要為這個公式找到固定的“參數”,這是需要機器進行學習,並不斷修正;最後,需要一個“學習”的軟件,知道如何調整參數、降低錯誤。
不過,對參數的調整速度非常緩慢,這需要機器對至少上千萬,甚至達到10億G的案例進行學習。這也是,機器學習與人類學習的最大差別,前者需要大量數據作為“助推器”。
儘管並未對外公佈是否該技術引入谷歌眼鏡等硬件產品,但谷歌母公司Alphabet執行主席Eric Schmidt證實,目前有一百多個團隊在用機器學習技術,其中包括Youtube核谷歌搜索等。
谷歌披露,機器學習提高了對Gmail垃圾郵件的識別率,以及對語音轉換文字的識別率提高了20%。
谷歌在上週曾發佈了自動回覆郵件的功能。當用户收到新的郵件後,深度學習系統可以判斷是否需要簡單地回覆。如果需要回復,系統會進入第二個判斷,即如何對郵件進行回覆。這樣的判斷與識別垃圾郵件類似。
事實上,機器學習的未來並不只是谷歌搜索所引發的業務。如果計算機視覺比人更好,那麼就應該讓機器來開車;機器對X光片的識別或許比人能夠的出更精準的判斷,而對時間順序發生事情的判斷對醫療診斷異常重要。
Eric Schmidt表示,如果選擇創業,會進入醫療領域,因為這個領域的規模和機會。“我預測,會有很多的醫療機構可以利用我們的技術做正確的事情”。
對於目前的開放策略,Greg Corrado稱,機器學習需要鼓勵大家從不同的角度研究,即使在谷歌內部也有不同的方法,而學術界和不同的企業之間有很大的差異,谷歌也正在與Facebook和百度合作。而此次開源更可以為創業公司、學生,以及粉絲愛好者打開機器學習的入口。