李青龍:NLP技術將在數字化轉型到智能化的過程中發揮重要作用|實錄_風聞
清华大学国情研究院-清华大学国情研究院官方账号-知识为民,知识报国,知识为人类。2019-11-18 11:30
【編者按】2019年10月27日,由清華大學國情研究院主辦,《文化縱橫》編輯部協辦的“未來已來,第四次工業革命與中國未來學研討會”在公共管理學院302會議室舉行。不同學科學者以及業界的實踐者,圍繞如何理解第四次工業革命及其帶來的影響,以及未來學的可能性展開跨界討論。
智慧星光總裁李青龍作了題為“從智慧星光數據應用談對第四次工業革命的認識”的主題發言。以下根據李青龍先生現場發言整理,已經本人審定。
Li Qinglong, president of Beijing Wisdom Star IT Co., believes that the core tenet of the 4th Industrial Revolution is digitalization and intelligence. The current society are digitalised in the machinery production process, the Internet public data, the inherent internal data stored in various sectors, and the behavioural data. Li Qinglong argues that unstructured data will have more application scenarios in the era of artificial intelligence. In the long run, NLP technology (natural language processing technology) will play a very important role in the transformation process from digitalisation to intelligence in the future. Internet public data is a key element in the 4th Industrial Revolution, because the virtual society embodied in it is the mapping of real society on the Internet—beacuse it is social-perceived data. Through an in-depth analysis of this type of data, one can evaluate and understand the actual response of a policy or an event in society.
各位老師好,各位業界的專家好,謝謝前面兩位的分享。智慧星光相比前兩位來講很小,是立足於做To Business業務的。在這裏,我將從智慧星光的工作實際,談一下對於第四次工業革命的淺顯認識,不到之處請大家批評指正。
**第四次工業革命的核心要旨****第一是數字化,第二是智能化。**第四次工業革命的基礎就是把整個社會、整個發展、整個過程全面進行數字化,進而讓整個社會發展能夠有一些智能化因素。數字化過程包括人工智能、物聯網、雲計算、大數據和智能製造等技術和應用的融合,這些融合説到底是希望把一切社會的過程進行全面的數字化。數字化也是智能化的基礎條件。
我們談一下當前的社會到底有哪些可以進行數字化的,基本上是這四個方面。
第一個方面是機器設備生產過程的數字化。
第二是典型的互聯網公開數據的數字化,智慧星光從事的就是這部分工作。
第三是在政府企業各個領域當中存有的固有的內部數據。
第四是行為數據,行為數據可能最大是運營商和各個平台。
數據的類型可以分為結構化、半結構化和非結構化。結構化數據很好理解,但是實際上現在存在大量的數據,都是非結構化數據,比如説快手的視頻就是以非結構化為特徵的典型代表。實際上80%以上的數據都是非結構化數據,我們日常所看的單條信息資訊,一篇文章,一個圖片,一段語音,或者是一段視頻,看上去只是帶給我們某種信息,但是實際背後藴藏着很多可以挖掘出來的數據價值。
何總剛才講短視頻可能是未來整個人工智能的核心,我們有不同理解,我認為可能非結構化數據在裏面有更多應用場景。現實場景當中可能視頻的解析很重要,但就未來長期來看,我們認為NLP技術將在未來數字化轉型到智能化的過程中發揮非常重要的作用。
大家通用的關於數字化過程的基本理解,包括淺層和深層兩個方面。淺層層面上就是把人和物、和生產關係進行數字化的過程。現在我們做的很多工作,比如一個企業OA系統和各種辦公系統的自動化、信息化程度已經比較高了。
但是這些系統的問題在於,基本上**僅是完成了辦公流程的系統化,**不能稱之為數字化,並且一個企業或者一個組織足夠大,會發現多個系統之間有嚴重的信息不對稱現象,**系統之間不能夠進行數字的互通,**需要有一個工具和方式能夠把數字互通。其實目前我們看到的市面上的2B企業大部分還是在這個領域,即把數字鴻溝打通,把數據放在一起,建立一個數據寬表,進行聯合查詢、聯合應用的過程。
在未來,可能需要**推進深層次的數字化,**包括智能基礎設施、智能生產線、智能物流以及智能應用等,最終帶來生產方式和生活方式的智能化,提高人們的生活滿意度。
第一個案例,我們在2007年年初的時候和中央電視台經濟頻道做了**“再小的聲音也聽得見”**主題的欄目,實際上是一個社會民意大調查,其中有一個特別重要的話題是關於“二胎政策”的社會分析。
我們知道當一個政策發佈之後,對整個社會都會產生非常大的影響,但是到底**社會對這個政策的反饋和表現形式是什麼?**很多狀況之下很難有一個準確的測量。以往的做法往往是設計整套調查問卷,通過線上、線下不同的渠道把調查問卷散發出去,最後通過大量的人工統計分析得出結論。這個時長往往在半個月到一個月以上。同時,數據的樣本量非常有限,線下調查的樣本量一般情況超過2000個就是很難的事情了,在線的一般是10萬、20萬也非常多了。
通過互聯網大數據,我們統計之後發現,互聯網上大家對於二胎政策的評價數據是過億的,我們可以對將近億條關於二胎政策的言論進行統計分析,並且是實時的。這也是為什麼我們提到,互聯公開數據是第四次工業革命中很關鍵的要素,就在於它本身所體現的虛擬化社會,很大程度上就是我們現實社會在互聯網上的映射,我們更想把它稱為社會感知型數據。
通過對社會感知型數據的深入分析,可以評測、瞭解某個政策或者某個事件在社會中產生的實際反響。
第二個案例,是我們在國家區縣融媒體中心建設的大背景下,做的關於延慶區融媒體建設的案例。我們提出來“世界眼中的延慶”這麼一個概念,為什麼提到這樣一個概念?因為延慶在過去的世園會以及將要到來的冬奧會,本身就要樹立在世界眼中的形象的問題。但是**在以往,對這種形象的樹立進行比較科學的、公正的評測的很難的。**基於實時監測相關的互聯網大數據,我們構建了一些模型,對它進行評價,比如説和索契、平昌的比較。然後輔助他們怎麼更好地把延慶作為一個世界級的活動的舉辦方的聲音傳播出去。當然我們提出來的“世界眼中”,還包括在國內人民眼中的形象,以及北京人民眼中的形象,都能夠通過實時數字化的方式得到可視化展現。
第三個案例是關於招聘網站的。我們知道如果有人在一個平台發一條問題,但這個平台沒有足夠的人羣在線的時候,就會發生這個問題沒有人回覆,就冷場了,所以需要智能化的推薦系統,及時解答發問人的疑惑,提高人們的存留和粘性。近期的烏鎮互聯網大會上,李彥宏提出了一個概念**“所有的問題都會有一個智能化的答案”**,這也是我們所認可的。
第四個案例是關於12345平台的應用,以往工單處理都是單線的,當接收到某個訴求後會形成一個工單,再分配到相應的職能單位裏去,是單鏈條的。全面的數字化能夠幫助其獲得很好的人羣畫像及訴求處理圖譜,提高工單的處理效率。
智慧星光在其中做的工作,第一個就是把互聯網上所有公開的文本、語音、視頻內容進行了全部實時數字化,從我們看似不可計算的文本內容中獲得一些數字化資源。目前總量已經超過了2000億條,每天新增4億條,是一個比較好的社會感知數據。
第二是我們建了一個文本超腦中台,可以對應所有數據,包括機構內部數據進行實時的結構化處理,同時建立了一個數據關聯關係知識譜的圖譜引擎。在未來,我們希望能夠把智慧星光的數據和數據計算能力,形成一些基本的供給能力,供所有希望在這裏面創造價值的人員應用。謝謝大家!
文字整理|劉皓琰
英文編輯|王其珍 王弘書