Data Platform 筆記#02:從可行到可承接

Data Platform 筆記#02:從可行到可承接
Photo by Digital Content Writers India / Unsplash

在初版架構逐漸成形後,時間也差不多過了一年。

架構可以跑、資料可以流動,但我仍然不確定它能不能真正落地。這條路必須要團隊可以承接、可以擴展,數據才有機會真正發揮價值。

很慶幸的是,我的主管願意投資時間,讓這個方向能繼續推進。也正是在那段時間,我的思考開始出現轉變...

前一篇的重點,是讓流程從「能跑」走向「能持續」。
而接下來我開始思考:如果這件事要由團隊一起做下去,現在的做法夠不夠讓人接手?


轉變的核心

回頭看那一年,大多數時間其實是在解問題。
但接下來,我該解的是另一個問題:怎麼讓別人不用再解一次同樣的問題?

於是投入了約莫三個月、壓力值很高的一段時間,開始把原本依賴個人經驗與記憶的做法,收斂成可以被團隊理解與複製的形式。

這個收斂,後來具體落在幾個方向上:

  • 把 Data Center 的部署方式收斂成一致做法,降低環境轉換成本
  • 把資料整理作業轉變為配置驅動,讓流程與部署有規則可循
  • 整理 DDL 轉換規則與範本,讓團隊能共用同一套方法
  • 把知識系統化交付出去

這些事情的唯一核心是 讓方法大於個人


從個人經驗,到規則明確

第一個改變:把經驗顯性化。

例如 Iceberg 與 Doris 之間的 DDL 轉換,原本每張表都需要人工核對、手動調整。雖然做得出來,但效率低、風險高,也難以讓團隊承接。

為此,我準備了一個小專案,把轉換規則整理出來,並結合 AI 工具設計範本 prompt,讓團隊夥伴可以直接使用,夥伴們的角色,也從「執行者」轉為「審查與確認」。

經過幾次實際資料的驗證後,可以明顯感受到 DDL 轉換所花費的時間與心力下降。這是一個小改變,但它讓「經驗」開始變成「方法」。


從臨場調整,到配置驅動

第二個調整:讓流程變成可重複使用。

原本開發通用的資料整理排程,只是為了降低維運負擔。但當資料量逐漸成長後,我發現仍然會有不少人工調整與錯漏的可能。再加上當時依賴的社群版本早已停止維護,長遠來看並不穩定。

因此進行了一次重構,將原本的通用排程與部署 SOP,進化成配置驅動的形式。從程式引用到部署方式,定義出一套一致的配置規則,只要依循規則設定,就能正常部署與執行。 (順帶地把使用 Doris Job 的議題也一併解決了,不再需要 Doris Admin 權限)

這個過程讓我更清楚地體會到:規則讓事情可理解,流程讓事情可複製。
當兩者結合,事情才有可能被穩定地延續。


從個人理解,到知識交付

第三個改變:把知識交付出去。
我整理了 KM 文件,也在 AI 的輔助下補齊缺漏,並安排教育訓練,讓團隊理解:

  • 資料怎麼接
  • 資料怎麼整理
  • Mart 怎麼建立

當夥伴開始能承接資料接收與整理工作時,我才真正感受到這件事開始有團隊支持。不再只是某幾個人熟悉的技術,而是團隊可以共同推進的方向。


回顧這段改變

最大的改變是重心的轉移:
從「我能不能做出來」,變成「團隊能不能一起持續做下去」。

技術本身重要,但它只是基礎。
真正讓專案走得遠的,是把方法沉澱下來,讓團隊承接。

至此,一版可以落地、也可以被承接的Data Platform,才算真正成形。
後面當然還有優化空間,但至少,我們可以開始往前走,不再停在「架構實作」。

Read more

[紀錄] 初試 OpenClaw

[紀錄] 初試 OpenClaw

夯了很久的 OpenClaw,近期開始出現了退安裝潮,我卻正要開始嘗試使用。 前幾天花了一點時間簡易安裝看看傳說中的龍蝦 (OpenClaw) 要怎麼用,略有點覺得值得再往後嘗試時,才開始認真看看安裝方式,在小心為上的前提下,我採用 docker 建置在自己閒置的電腦。 在 docker-compose.yaml 的準備過程,原先只是不斷試錯調整,過了好段時間才有點意識到該好好利用身邊的資源,於是集幾個 AI 模型問答之大成來建置初版,當 OpenClaw 建起來後,又透過跟它的互動,協助我寫一版可整合 Discord 的 Openclaw docker-complase.yaml 自用。(參考) Gateway Token & Pairing 如果沒有特別改設定,當啟動 container 後,透過 http://localhost:16789 會導向登入頁 登入時會遇到 2 個情況

By Jo
Data Platform 筆記#01:初版技術架構成形

Data Platform 筆記#01:初版技術架構成形

在上篇的 POC 之後,我們整理了一份內部報告,將問題拆成資料蒐集、基礎資料定義、資料量與查詢效能、資料治理、技術架構等幾個面向。 這份整理的目的是先建立邊界,讓我們從發散與模糊,逐步走向具體且聚焦。 在這個基礎上,我開始把關注重點轉向資料流: 如何讓資料自動、穩定、乾淨地進到分析效能較好的資料庫? 同時,也剛好迎來一個契機:與技術能量較高的團隊合作發展數據中台。這讓 Data Center 的推進獲得更多資源與支援,讓我們能更系統化地思考架構問題。 思考階段 這個階段,我們主要思考幾個問題: * 不同來源的資料,能不能用相對一致的方法接進來? * 資料會持續累積,是否有合適的儲存與管理方案? * 資料進來後,分層應該怎麼定義? * 查詢分析時,是否有更適合的查詢引擎? 各資料源的特性不同,接收方式很難完全一致。但若每種來源都設計一套專屬流程,維運成本會快速上升。因此初步的想法是先用一種主要方式處理大多數的情境,讓資料流先跑起來,再逐步優化。 過去常見的分層方式,是將資料分成: * 可追溯的原始資料(Stage) * 清洗整理後的乾淨資料(Data) *

By Jo