軟體技術
資料中心筆記#01:初版技術架構成形
在上篇的 POC 之後,我們整理了一份內部報告,將問題拆成資料蒐集、基礎資料定義、資料量與查詢效能、權限治理、技術架構等幾個面向思考。 這份整理的目的,是先建立邊界,讓我們從發散與模糊,逐步走向具體且聚焦。 在這個基礎上,我開始把關注重點先轉向資料流: 如何讓資料自動、穩定、乾淨地進到分析效能較好的資料庫? 解題思考階段 這個階段,我主要在思考幾個問題: * 不同來源的資料,能不能用相對一致的方法接進來? * 雖然資料源不同,接收方式很難完全一致,但是否有機會收斂?初期是否可以先用一種主要方式處理(80/20 法則)? * 資料會持續累積,是否有合適的儲存與管理方案? * 資料進來後,分層應該怎麼定義? 前人的做法大多是將資料分成可追溯的原始資料(Stage)、清洗整理後的乾淨資料(Data)、整合不同維度需求的資料(Mart)。 延續這個方向大致不會錯,但在技術解決方案持續演進下,這些分層該定義在哪裡才更合適,仍需要驗證。 另外,查詢分析時是否有合適的查詢引擎,也是一個關鍵問題。 以可預見的資料量來看,依過去經驗,一般