實作筆記

筆記 | PostgreSQL v12 CTEs 行為改變

Photo by Caspar Camille Rubin / Unsplash

前段時間，工作環境將 PostgreSQL v10 升級到 v15，升級後發現報表的執行效率從 1 秒變成了 2 分多鐘，也剛好變因太多，排查了很多項後才開始面對 SQL 執行計畫，同一段 SQL v10 跟 v15 有很大的差別，許多人花了一番功夫調整，速度才回到水準，接著進一步從調整方向的線索，再爬網路文章，才發現原來在 PostgreSQL v12 有一項對我們來說蠻重要的改變：CTEs 行為改變。

過去經驗裡，SQL 使用 CTE (Common Table Expression) 能將一段查詢的結果暫存起來，在主查詢語句中使用，能有提升查詢效率的效果

例如：

WITH temp AS (
SELECT col1, col2, col3 FROM big_table
WHERE col1 = ‘xxx’
)
SELECT a.col1, a.col4, b.col2, b.col3
FROM table a
INNER JOIN temp b ON b.col1=a.col1

從 PostgreSQL v12 起，CTE 的行為改變了
如果該 WITH 語句符合以下條件 (全部符合)，預設會併入主查詢成為子查詢

不是遞迴
未使用 Volatile Function
在 SQL 主查詢語句中只被引用一次

等同於以下結果

SELECT a.col1, a.col4, b.col2, b.col3
FROM table a
INNER JOIN (
SELECT col1, col2, col3 FROM big_table
WHERE col1 = ‘xxx’
) b ON b.col1=a.col1

若不符合上述條件，則會像之前一樣暫存結果
如果想要強制 CTE 暫存結果，就需在 WITH AS 語法加上 MATERIALIZED 語句，例如：

WITH temp AS MATERIALIZED(
SELECT col1, col2, col3 FROM big_table
WHERE col1 = ‘xxx’
)
SELECT a.col1, a.col4, b.col2, b.col3
FROM table a
INNER JOIN temp b ON b.col1=a.col1

反之，如果當時使用 CTE 的目的是為了讓 SQL 看起來簡化，其實可以併入子查詢
就加 NOT MATERIALIZED 的語句

如果沒有加，就代表交給 PostgreSQL 的查詢優化器來決定

延伸問題

那是不是全部的 WITH 語句都加 MATERIALIZED 就可以了？
如果過去的使用習慣都是希望將結果暫存，這麼想沒有太大問題，但建議還是認真解析 SQL 來決定。
使用 MATERIALIZED 將結果暫存，再在主查詢中使用，主查詢的條件過濾不會影響 WITH 查詢語句的結果 (也就是筆數不會改變)，加上暫存臨時表沒有index，單純把所有的 WITH 語句都加上 MATERIALIZED 有可能衍生另外的效能瓶頸，我想這是 PostgreSQL v12 針對 CTE 作行為調整的原因之一。
如果SQL 語法裡有很多個 WITH 語句，加第一個就好，還是全部都加？
MATERIALIZED 語句是跟著每一個 WITH 語句的，所以如果全部都要暫存，就全部都要加。
進一步的理解，其實要看 WITH 語句資料量、引用次數來決定，有些 WITH 語句的運算資料量少，但是被其他的 WITH 語句引用，而引用它的 WITH 語句資料量很大，此時運算量就會隨著引用者的資料量增加，這時將被引用者加上 MATERIALIZED 就可以達到很好的效能提升效果，需要 by case 解析。

CTEs & Optimization
WITH Queries (Common Table Expressions)
PostgreSQL Release Notes (見 E.20.3.1.3. Optimizer 第 2 點)

High-tech abstract art featuring blue and teal circuit-like patterns with a digital vibe.

Data Platform 元件#01：CDC 的選擇思考

在搭建 Data Platform 時，我們選擇 CDC 作為資料接收的核心策略。這篇記錄了考量與取捨。

[紀錄] OpenClaw 部署指定模型

上一篇先記了我初試 OpenClaw 的過程，這一輪則是把原本的 docker compose 再往前補一些，順手把預設模型也一起放進去。這次選擇的是 Ollama，預設模型設成 minimax-m2.5:cloud。原本以為把 .env 補好、compose 啟動，接著就能開始用了。做了才知道事情沒有我想得順利，仍然還是需要手動進 container 執行指令。因為這次在 docker compose 想放進預設模型，所以整個配置也跟著多補了一些。原本比較單純的 OpenClaw 部署，後來變成 openclaw + ollama 的配置，讓 OpenClaw 啟動後能直接接上模型。不過模型名稱先放進去，事情也沒這麼順。 Ollama 要使用 cloud model 得先登入。第一次啟動後，要先進到 Ollama 容器裡跑

[紀錄] 初試 OpenClaw

夯了很久的 OpenClaw，近期開始出現了退安裝潮，我卻正要開始嘗試使用。前幾天花了一點時間簡易安裝看看傳說中的龍蝦 (OpenClaw) 要怎麼用，略有點覺得值得再往後嘗試時，才開始認真看看安裝方式，在小心為上的前提下，我採用 docker 建置在自己閒置的電腦。在 docker-compose.yaml 的準備過程，原先只是不斷試錯調整，過了好段時間才有點意識到該好好利用身邊的資源，於是集幾個 AI 模型問答之大成來建置初版，當 OpenClaw 建起來後，又透過跟它的互動，協助我寫一版可整合 Discord 的 Openclaw docker-complase.yaml 自用。(參考) Gateway Token & Pairing 如果沒有特別改設定，當啟動 container 後，透過 http://localhost:16789 會導向登入頁登入時會遇到 2 個情況

Data Platform 筆記#02：從可行到可承接

在初版架構逐漸成形後，時間也差不多過了一年。架構可以跑、資料可以流動，但我仍然不確定它能不能真正落地。這條路必須要團隊可以承接、可以擴展，數據才有機會真正發揮價值。很慶幸的是，我的主管願意投資時間，讓這個方向能繼續推進。也正是在那段時間，我的思考開始出現轉變... 前一篇的重點，是讓流程從「能跑」走向「能持續」。而接下來我開始思考：如果這件事要由團隊一起做下去，現在的做法夠不夠讓人接手？轉變的核心回頭看那一年，大多數時間其實是在解問題。但接下來，我該解的是另一個問題：怎麼讓別人不用再解一次同樣的問題？於是投入了約莫三個月、壓力值很高的一段時間，開始把原本依賴個人經驗與記憶的做法，收斂成可以被團隊理解與複製的形式。這個收斂，後來具體落在幾個方向上： * 把 Data Center 的部署方式收斂成一致做法，降低環境轉換成本 * 把資料整理作業轉變為配置驅動，讓流程與部署有規則可循 * 整理 DDL 轉換規則與範本，讓團隊能共用同一套方法 * 把知識系統化交付出去這些事情的唯一核心是讓方法大於個人。從個人經驗，到規則明確第一個改變：

Read more

Data Platform 元件#01：CDC 的選擇思考

[紀錄] OpenClaw 部署指定模型

[紀錄] 初試 OpenClaw

Data Platform 筆記#02：從可行到可承接