證監會攜手庖丁科技 賦能資本市場前線監管
近日,庖丁科技中標證券期貨業金融科技研究發展中心(深圳)(以下簡稱“深交所”)——“證券文本信息抽取技術研究”項目,以證券市場文本信息為對象,研究利用自然語言處理技術,從披露公告中抽取指定的文本信息,並且滿足具有一定技術性能指標要求的課題。

資本市場上,信息披露作為法規,通常要求信息披露義務人“應當真實、準確、完整、及時地披露信息”。我國上市公司信息披露的內容大體可分為三類:證券發行文件、定期報告和臨時報告。
上市公司的公告信息披露必須在指定信息披露網站發佈,主要為PDF格式。以深市上市公司為例,2016年全年共披露265985篇公告,2017年共披露291607篇,隨着上市公司數量日益增多,這一數字也會逐年增加,不但為深交所的合規檢查帶來壓力,也給投資者帶來極大的信息負載。如何將海量公告更有效、更高效地讓閲讀人“讀薄”?其中通過自然語言處理、深度學習等技術將公告信息結構化提取成為關鍵所在。
庖丁科技透露,現正在持續而堅定地推進該項工作:首先通過卷積神經網絡對公告中的段落表格等信息進行分割抽取。為了適應樣本數量稀少的問題,他們還提出了一種輕量級的機器學習方法。該方法能夠高效地將不同類別公告的關鍵語句抽取出來,並使之具有在線學習的能力,抽取過程僅需公告製作業務專家對少量公告進行標註,即可達到可用效果。關鍵語句抽取後,再通過LSTM神經網絡進行細粒度提取,從而將公告結構化。目前,庖丁科技對併購重組公告的結構化抽取的工作已取得較為理想的結果,提升了深交所監管工作的效率。這項工作的探索不僅為擴展更多公告類型奠定基礎,也為其他類型文本處理帶來了寶貴經驗。
“利用非結構化信息抽取技術,我們能夠把隱藏在海量公開公告中企業與企業、企業與個人關係進行深度挖掘,並且透視、洞察企業的價值及風險。作為國內擁有世界領先的金融文本信息抽取技術、有能力利用深度學習和金融知識庫進行高精度的結構化信息提取的先進團體。”庖丁科技表示,未來將繼續全力服務金融行業,助力金融機構進一步提升服務實體經濟的能力。