筆記 | PostgreSQL v12 CTEs 行為改變

筆記 | PostgreSQL v12 CTEs 行為改變
Photo by Caspar Camille Rubin / Unsplash

前段時間,工作環境將 PostgreSQL v10 升級到 v15,升級後發現報表的執行效率從 1 秒變成了 2 分多鐘,也剛好變因太多,排查了很多項後才開始面對 SQL 執行計畫,同一段 SQL v10 跟 v15 有很大的差別,許多人花了一番功夫調整,速度才回到水準,接著進一步從調整方向的線索,再爬網路文章,才發現原來在 PostgreSQL v12 有一項對我們來說蠻重要的改變:CTEs 行為改變。

過去經驗裡,SQL 使用 CTE (Common Table Expression) 能將一段查詢的結果暫存起來,在主查詢語句中使用,能有提升查詢效率的效果

例如:

WITH temp AS (
SELECT col1, col2, col3 FROM big_table
WHERE col1 = ‘xxx’
)
SELECT a.col1, a.col4, b.col2, b.col3
FROM table a
INNER JOIN temp b ON b.col1=a.col1

從 PostgreSQL v12 起,CTE 的行為改變了
如果該 WITH 語句符合以下條件 (全部符合),預設會併入主查詢成為子查詢

  • 不是遞迴
  • 未使用 Volatile Function
  • 在 SQL 主查詢語句中只被引用一次

等同於以下結果

SELECT a.col1, a.col4, b.col2, b.col3
FROM table a
INNER JOIN (
SELECT col1, col2, col3 FROM big_table
WHERE col1 = ‘xxx’
) b ON b.col1=a.col1

若不符合上述條件,則會像之前一樣暫存結果
如果想要強制 CTE 暫存結果,就需在 WITH AS 語法加上 MATERIALIZED 語句,例如:

WITH temp AS MATERIALIZED(
SELECT col1, col2, col3 FROM big_table
WHERE col1 = ‘xxx’
)
SELECT a.col1, a.col4, b.col2, b.col3
FROM table a
INNER JOIN temp b ON b.col1=a.col1

反之,如果當時使用 CTE 的目的是為了讓 SQL 看起來簡化,其實可以併入子查詢
就加 NOT MATERIALIZED 的語句

如果沒有加,就代表交給 PostgreSQL 的查詢優化器來決定

延伸問題

  • 那是不是全部的 WITH 語句都加 MATERIALIZED 就可以了?
    如果過去的使用習慣都是希望將結果暫存,這麼想沒有太大問題,但建議還是認真解析 SQL 來決定。
    使用 MATERIALIZED 將結果暫存,再在主查詢中使用,主查詢的條件過濾不會影響 WITH 查詢語句的結果 (也就是筆數不會改變),加上暫存臨時表沒有index,單純把所有的 WITH 語句都加上 MATERIALIZED 有可能衍生另外的效能瓶頸,我想這是 PostgreSQL v12 針對 CTE 作行為調整的原因之一。

  • 如果SQL 語法裡有很多個 WITH 語句,加第一個就好,還是全部都加?
    MATERIALIZED 語句是跟著每一個 WITH 語句的,所以如果全部都要暫存,就全部都要加。
    進一步的理解,其實要看 WITH 語句資料量、引用次數來決定,有些 WITH 語句的運算資料量少,但是被其他的 WITH 語句引用,而引用它的 WITH 語句資料量很大,此時運算量就會隨著引用者的資料量增加,這時將被引用者加上 MATERIALIZED 就可以達到很好的效能提升效果,需要 by case 解析。

相關文章:

Read more

部落格遷移紀錄

部落格遷移紀錄

是的,又搬家了。 這次搬家像是一種重新開始,遷移的範圍稍微大些,大致上有兩段變動: * 從功能豐富的 WordPress 到簡潔高效的 Ghost * 從 SugarHosts 搬遷到 Google Cloud Platform (GCP) Wordpress 的功能非常豐富,只是我使用到的部分極少,總想找個簡潔的服務使用,但忙碌的工作很快就澆熄了動力。一次在輸出小組群組中的討論,注意到 Ghost 這個部落格平台,試裝操作看看,體驗還不賴,想著我的文章數也很少 (心虛),就搬吧! 推進這個改變的契機,一部分也來自於 SugarHosts 自 2024 年底在網路社群中的討論,其中也包含了客服回應的議題,必須說,SugarHosts 的價格真的很有吸引力,只是客服回應效率突然發生的落差,我開始擔心這是否對影響到部落格,開始思考搬家的可能。 在年假期間,我利用 GCP 提供的 300 美元三個月試用額度來搭建新服務,並順便將文章搬遷到

By Jo
筆記 | Ubuntu 掛載磁碟

筆記 | Ubuntu 掛載磁碟

最近在 GCP 試玩 Compute Engine (VM),建立時另外新增了一顆磁碟,實際運行了才發現,原來需要自行掛載,記錄執行的指令與過程。 以 Ubuntu 22.04 為例 (多數的 Linux 應該也可以使用) 確認新增的磁碟是否存在 lsblk 大多情況應該會看到新的磁碟還沒有掛載任何分區 格式化 (如果硬碟還沒有格式化) sudo mkfs.ext4 /dev/sdb 配置自動掛載 取得新磁碟的 UUID sudo blkid /dev/sdb 一般會顯示類似以下的結果 /dev/sdb: UUID="一串由-符號串接的英數字" BLOCK_SIZE="4096" TYPE="ext4&

By Jo
筆記 | 在 Ubuntu 22.04 安裝 Kubernetes Cluster

筆記 | 在 Ubuntu 22.04 安裝 Kubernetes Cluster

許多網路文章中都有安裝 kubernetes cluster 的教學,也因為版本更迭,爬了很多的文章、裝了非常多次,整理以下的筆記,幫自己防忘記。 實作環境 * 主機 (VM) 3 台,一台 master、兩台 node * pve-master * pve-node1 * pve-node2 * 作業系統 Ubuntu 22.04 * Container Runtime 選擇 containerd.io 筆記的幾個大步驟,有些是所有節點都要做,有些則否,整理如底下的表格: Step pve-master pve-node1 pve-node2 安裝前置 V V V 安裝 Container Runtime V V V 安裝 kubeadm

By Jo
心得 | 溝通 - 與下屬講話時的 Checklist

心得 | 溝通 - 與下屬講話時的 Checklist

筆記摘自蔡恩全老師在 Master Cheers 的系列課程,章節片段不長,大約 12 分鐘,但有許多讓人省思的地方,也包含了一部分對過去自己答案的肯定,雖然是談管理、對部屬溝通,但除了 coaching 的部分比較屬於帶人的層面,其他的提點也很適用各種溝通場景。 筆記裡已經包含課程大多數內容,我比較想就這個課程中所回憶起的經驗或曾經踩的雷做個回顧,也當成是一次覆盤。 首次擔任管理職是從無到有建立團隊,一一面試選擇團隊夥伴,我想我們應該都同意,不論哪一方,面試時的想像和期待,通常和實際是有些落差的。夥伴的個性不盡相同,對於「了解對方」的能力,我有很多努力的空間,我可以做的,是在每一次的 1 on 1 中,視對方的反應來調整,但仍然是有許多故事。 有一回,和一位剛加入團隊三個月的成員討論工作狀況,我很直接地說:「我發現你的工作進展與我期待的不同,我們過去也定期在檢視跟討論,我想知道是不是有遇到什麼問題,或者需要我協助的地方?」 眼前的大男生回應不到幾句就開始稀裡嘩啦地哭了,一時之間我也有些不知如何是好,遞給他一盒面紙,請他先收拾好情緒後我們再談,在

By Jo