漫畫時序數據庫:好險,差一點沒擠進工業製造的高端局_風聞
谭婧在充电-谭婧在充电官方账号-偏爱人工智能(数据、算法、算力、场景)。-2022-10-13 11:24
圖文原創:譚婧
互聯網企業有句口號:距離成為百年企業,還有七八九十年。
互聯網企業和工業製造企業比年齡,就輸了。
工業製造企業的龍頭,動不動就是百年企業。
看看,通用,西門子,再看看,寶武集團。
工業製造為了管好高端裝備和工程建築物,就用傳感器收集它們的數據。
這是一種帶有時間標籤的數據,叫時序數據(Time Series data)。
其實,時序數據在生活中也很常見。
雖然時序數據跟整個數據管理相比只是其中很小的一個門類,但架不住傳感器數量多,收集頻率高。不少場景要求儘可能的收集傳感器數據。
於是,時序數據的體量和佔比在急劇變大。
舉個例子,特斯拉車主到底有沒有踩剎車,誰敢僅僅依據少量樣本數據做判斷。
如果一個東西佔用的資源並不低,無論為了控制成本,還是挖掘價值,都會在這裏頭大做文章。
存好,用好,時序數據庫呼之欲出。
但是,數據庫是系統級別的產品,是基礎軟件,做出產品很難。
我來講一些製造企業的例子,細聊工業時序數據幾件有趣的事。
早在2013年,像三一重工這樣的企業的一台挖掘機上,就會有幾百個傳感器。
而一台大型發電機組可能會有上萬個傳感器。
再看,像寶武集團這樣的龍頭工業企業,會以毫秒為單位採集,比如,5毫秒採集一次,或者10毫秒採集一次。
時序數據按時間順序產生,
時序數據的新數據比舊數據常用。
時序數據寫多更新少(或者説更新是批量化的)。
時序數據庫的寫入能力須快到飛起,甚至要求“超大規模數據瞬時寫入”。
這還不夠,要管理亂序數據。
這個工作讓關係型數據庫來幹,就得説Sorry了。
因為關係型數據庫做不到寫入得這麼多這麼快,也不是為亂序數據管理而設計的。
網友説,這個要求很過分。
過不過分,得看具體情況。
把目光移到新疆哈密,甘肅酒泉,不僅看風機,還能看風景。
讓你去觀察一座橋樑的震動情況,你得重視監控的精確性。正常情況下,用100-1000Hz的頻率去採集數據。
或者説,觀察橋樑的震動,你得一秒鐘觀察上萬次。
往大里説,得在分釐毫絲之間,保證人民羣眾的生命和財產。
變化,只發生在中國嗎?
並不是。
趕上早班車的國際數據庫產品包括:
開源時序數據庫InfluxDB,在2013年發佈。
閉源時序數據庫Amazon Timestream,是AWS公司於2018 推出。
有預測,2025年時序數據庫的市場規模在269億元左右。
時序數據庫,有不少有趣之處。
時間戳是所有時序數據必有的字段,數據大部分按照時間順序到達。好比醫生有很多病人,每個病人有號碼牌,病人按順序就診。
查詢也以時間為中心,比如指定時間點和時間段。
關係型數據庫是一個集合。時序數據就是一個有時間順序的集合。
時間戳是主鍵,是不能重複的信息。多了這個維度,就看怎麼利用好。
數據庫的“兩條腿”是查詢引擎和存儲引擎。時序數據庫的“兩條腿”的設計必須融入時間維度的處理要素。
給時間戳加索引,就可以加快查詢。
拿到數據,控制好設備,工作就結束了嗎?
在自動化那一代產品的眼中,它們的工作就結束了。
在新興時序數據庫的眼中,工作沒有結束。
生於自動化年代的知名數據庫是Pi,它也是傳統時序數據庫的祖師爺。
這家美國公司的產品,國內電廠幾乎家家都用。也有人稱之為工業場景裏的實時數據庫。
Pi 的優勢是在運營技術(Operational Technology,OT)生產場景,而在 OT 與大批量數據讀寫的 IT 結合場景,還有較大提升空間。
2021年它被施耐德以50億美元收購。
這裏有靈魂三問。
編輯1.大型製造裝備動輒幾萬個傳感器,而且工業設備資產有層級屬性。受限於關係數據模型,威力就會受限。
所以要問,能在數據模型上想辦法嗎?
2.過去默認傳感器這個“端”只負責產生數據,現在不同了,把整理好的數據發送到雲端,以減輕雲上的壓力“端”要承擔更多工作量。
風機往往立在田野裏,山坡上,甚至還有山東海上風機。時序數據傳到工廠,而大型集團又可能會涉及多個工廠。
所以要問,能設計專門的傳輸方法嗎?
3.最後再説文件格式,這會關係到編碼方式和存儲方式,影響佔用多少存儲空間,也會影響花多少力氣傳輸。
同樣的數據,用不同的文件格式,所佔用的空間不同,所消耗的網絡資源也不同。
省存儲空間和省網絡資源都可以省大錢。
所以要問,能在文件格式上想辦法嗎?
這三個問題有點難,而且涉及的技術維度非常底層。
其實時序數據庫還有很多很難的問題等待被解決。
沒有好的時序數據庫,後面的分析,挖掘,人工智能應用就會吃力。
工作嘛,就講究一個默契配合。
時序數據庫屬於一種AI基礎設施,更是一種基礎軟件。
好了,
這回就聊到這吧。
差點忘了,特斯拉的歷史很短,卻引領了多項技術的標杆。
馬斯克流量大,頭腦清醒。
面對特斯拉如此多的優勢,他卻説:“製造能力是特斯拉最大的競爭力。”
有一種規律藏在製造業裏好多年了,你肯定看出來了:那些稱霸生產製造的國家,也同時稱霸基礎軟件。
編輯最後,再介紹一下主編自己吧,
我是譚婧,科技和科普題材作者。
為了在時代中發現故事,
我圍追科技大神,堵截科技公司。
偶爾寫小説,畫漫畫。
生命短暫,不走捷徑。
原創不易,多謝轉發
還想看我的文章,就關注“親愛的數據”。
(譚婧老師的漫畫科普系列不開放授權轉載,無授權轉載,抄襲,盜版者,保留訴諸法律的權力。)