Data Platform 筆記#00:在變得具體之前

Data Platform 筆記#00:在變得具體之前
Photo by Walls.io / Unsplash

目標要做資料平台(Data Platform)

一開始我不是很能夠想像這件事該長成什麼樣子,既有的認知只有前期參與的團隊有實作過 HR 資料中心,顧問曾指導資料分層為 StageDataMart,除此之外,我沒有更多掌握,有很多疑問需要找到答案。

做到什麼程度算是Data Platform? 我們期待它能解決什麼、幫助到誰? 它是不是應該包含一套接收資料的方法、能儲存大量資料的資料庫、提供資料服務的能力?  
那麼,它是一個平台嗎?該用什麼技術?有哪些其實現在不需要?又該怎麼做,才能保留未來需要的彈性?

這些問題在當下其實都沒有辦法很快有肯定又具體的答案。好像每一個點都應該被考慮到,但同時又覺得過於理想。那段時間,我甚至開始嘗試透過與 AI 的對話,把模糊的想法拆解成可以被檢視的問題。它沒有辦法替我做決定,但確實加速我釐清問題。

只是,在理解問題的過程,即使把想法轉化輸出成一張張架構圖,進展卻不是太明顯,反而有一種無法落地的感覺,沒有讓事情真正往前走,我們仍然缺少可以被驗證的起點。

開始有切入點的時機,是我們在尋找能夠讓用戶自助調整所需報表的工具,剛好從前的工作曾小量接觸 Metabase ,建立了個測試環境來了解功能是否能符合需要,主管很快地也拋出先做個 POC 的想法,把資料拉進來看看,先驗證價值,再決定如何往下走。

現在回頭看,其實是一個很關鍵的引導,它讓想像的目標被驗證、被修正,逐漸轉化成具體,對我而言,是一次「以終為始」的實踐。


POC 的起點


我們沒有先設計完整的系統,也沒有急著定義什麼叫標準資料架構,而是選擇用最直接、甚至手動的方式,把能取得的各類資料先匯進資料庫,用簡單的視覺化工具快速做分析。目標很直接,我們想看看這些資料,能不能真的回答問題。

這個過程談不上可以落地,但看見資料開始能回答問題,意謂著我們也正在讓做資料中心的目標變得具體,POC 的過程中,我們也看見兩個現實:
1. 既有資料沒有我們要分析的維度,代表需要發展基礎資料維護能力。
2. 手動匯入不可能長期維持,資料必須能自動、持續流入。

在反覆驗證過程中,我們慢慢知道哪些事情值得投入、應該優先投入。


為什麼要從這裡開始寫

這段「變得具體之前」的時期,其實影響了後來許多決定。

很多後來看起來理所當然的選擇,都是從那些不成熟、不完整、甚至有點混亂的嘗試中慢慢長出來的。如果只談後面的架構與成果,很容易讓整個過程看起來好像一開始就知道該怎麼做。

寫下這個系列,是想把那段還在摸索、還在修正的時間也留下來。

Read more

[紀錄] 初試 OpenClaw

[紀錄] 初試 OpenClaw

夯了很久的 OpenClaw,近期開始出現了退安裝潮,我卻正要開始嘗試使用。 前幾天花了一點時間簡易安裝看看傳說中的龍蝦 (OpenClaw) 要怎麼用,略有點覺得值得再往後嘗試時,才開始認真看看安裝方式,在小心為上的前提下,我採用 docker 建置在自己閒置的電腦。 在 docker-compose.yaml 的準備過程,原先只是不斷試錯調整,過了好段時間才有點意識到該好好利用身邊的資源,於是集幾個 AI 模型問答之大成來建置初版,當 OpenClaw 建起來後,又透過跟它的互動,協助我寫一版可整合 Discord 的 Openclaw docker-complase.yaml 自用。(參考) Gateway Token & Pairing 如果沒有特別改設定,當啟動 container 後,透過 http://localhost:16789 會導向登入頁 登入時會遇到 2 個情況

By Jo
Data Platform 筆記#02:從可行到可承接

Data Platform 筆記#02:從可行到可承接

在初版架構逐漸成形後,時間也差不多過了一年。 架構可以跑、資料可以流動,但我仍然不確定它能不能真正落地。這條路必須要團隊可以承接、可以擴展,數據才有機會真正發揮價值。 很慶幸的是,我的主管願意投資時間,讓這個方向能繼續推進。也正是在那段時間,我的思考開始出現轉變... 前一篇的重點,是讓流程從「能跑」走向「能持續」。 而接下來我開始思考:如果這件事要由團隊一起做下去,現在的做法夠不夠讓人接手? 轉變的核心 回頭看那一年,大多數時間其實是在解問題。 但接下來,我該解的是另一個問題:怎麼讓別人不用再解一次同樣的問題? 於是投入了約莫三個月、壓力值很高的一段時間,開始把原本依賴個人經驗與記憶的做法,收斂成可以被團隊理解與複製的形式。 這個收斂,後來具體落在幾個方向上: * 把 Data Center 的部署方式收斂成一致做法,降低環境轉換成本 * 把資料整理作業轉變為配置驅動,讓流程與部署有規則可循 * 整理 DDL 轉換規則與範本,讓團隊能共用同一套方法 * 把知識系統化交付出去 這些事情的唯一核心是 讓方法大於個人。 從個人經驗,到規則明確 第一個改變:

By Jo