陳根:數據清洗機器人,走向數據未來_風聞
陈根-知名科技作家为你解读科技与生活的方方面面。2021-05-19 09:14
文/陳根
當前,數據量的快速增長已經成為了IT管理部門所面對的最難於解決的問題之一。數據量的增長嚴重降低了應用程序的性能,降低了應用程序的穩定性,並且消耗了大量的投資,同時對備份與恢復也增加了巨大的負擔。
顯然,對於IT管理部門來説,不能永無止境的投入大量資金來升級系統存儲水平**、提高服務器性能,以此來滿足不斷增長的數據量**。數據清理在這個時候就顯得尤為重要。
通過數據清理和數據歸檔的實施可以有效的提高數據庫性能,確保核心業務不會因為長時間數據積累而出現性能問題,從而應用可以更加迅捷地提供優質服務。當然,數據清理技術也經過了漫長的發展且仍在研發之中。
根據Anaconda和Figure Eight進行的調查,數據清理可能需要數據科學家四分之一的時間。並且,自動化數據清理對於數據清理而言極具挑戰性——因為不同的數據集需要不同類型的清理,而且經常需要對世界上的對象進行常理性的判斷。
基於此,近日,麻省理工學院(MIT)的研究人員就稱,他們發明了一種新的系統,可以自動清除“髒數據”****(dirty data)——數據分析師、數據工程師和數據科學家害怕的打字錯誤、重複、缺失值、拼寫錯誤和不一致。
新系統被稱為PClean,是概率計算項目(Probabilistic Computing Project)研究人員編寫的針對特定領域的概率編程語言,旨在簡化人工智能應用程序的開發並實現自動化,例如時間序列和數據庫進行建模。
PClean使用一種基於知識的方法來自動化數據清理過程:用户對數據庫的背景知識以及可能出現的問題進行編碼。用户可以給PClean關於域和關於數據可能被破壞的背景知識。PClean通過常識概率推理結合這些知識來得出答案。
PClean是第一個貝葉斯數據清理系統,它可以結合領域專業知識和常識性推理,自動清理數據庫中的數百萬條記錄。PClean工作所需的代碼行數要比其他最先進的選擇少得多:PClean程序只需要大約50行代碼就可以在準確性和運行時方面超過基準測試。
顯然,大數據時代裏還需要更多數據清理技術的開發,這也將為未來大數據的發展提供更多的保證。