掃二維碼與項(xiàng)目經(jīng)理溝通
我們?cè)谖⑿派?4小時(shí)期待你的聲音
解答本文疑問/技術(shù)咨詢/運(yùn)營(yíng)咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流
原文:https://spongecaptain.cool/post/mysql/zerocopyofmysql

Bbuffer 與 Cache 非常類似,因?yàn)樗鼈兌加糜诖鎯?chǔ)數(shù)據(jù)數(shù)據(jù),被應(yīng)用層讀取字節(jié)數(shù)據(jù)。在很多場(chǎng)合它們有著相同的概念:
首先從翻譯上,Buffer應(yīng)該翻譯為“緩沖”,Cache應(yīng)該翻譯為“緩存”,兩個(gè)完全不是一個(gè)東西。
在硬件這一層看,Buffer應(yīng)該為內(nèi)存,Cache為CPU集成的告訴緩存。
Buffer為了讓不同速度的設(shè)備能夠同步,建立的一個(gè)緩沖區(qū)域,寫進(jìn)Buffer的數(shù)據(jù)是為了從中拿出寫入其他設(shè)備。
Cache是為了提高讀取速度,將經(jīng)?;蝰R上需要的數(shù)據(jù)預(yù)讀到緩存中,寫進(jìn)Cache的數(shù)據(jù)是為了其他設(shè)備從中去讀取。
從軟件這一層來(lái)說,Buffer是塊設(shè)備的緩沖,Cache是文件系統(tǒng)的緩存。以Linux為例,
Buffer(Buffer Cache)以塊形式緩沖了塊設(shè)備的操作,定時(shí)或手動(dòng)的同步到硬盤,它是為了緩沖寫操作然后一次性將很多改動(dòng)寫入硬盤,避免頻繁寫硬盤,提高寫入效率。
Cache(Page Cache)以頁(yè)面形式緩存了文件系統(tǒng)的文件,給需要使用的程序讀取,它是為了給讀操作提供緩沖,避免頻繁讀硬盤,提高讀取效率。
總而言之,Buffer里面的東西是為了寫到別處去,Cache里面的東西是為了給別處讀。
Buffer 與 Cache 的用途有所不一定:
關(guān)于零拷貝深入理解:
深入理解零拷貝技術(shù)
MySQL 的緩沖區(qū)設(shè)計(jì)如下圖所示:
Figure1.MySQL 的緩沖區(qū)設(shè)計(jì)
如上圖所示,MySQL 在不同層次使用了與緩存機(jī)制不同的配套技術(shù)。其中有:
Redo Log Buffer:對(duì)寫操作進(jìn)行緩存,用于實(shí)現(xiàn) MySQL InnoDB 的事務(wù)性;
InnoDB Buffer Pool:用于對(duì) MySQL table 的數(shù)據(jù)進(jìn)行緩存。讀內(nèi)存而不是磁盤,通過減少磁盤讀操的方式提高讀操作性能;寫內(nèi)存而不是磁盤,通過減少磁盤寫操的方式提高寫操作性能;
Page Cache:操作系統(tǒng)通過緩存以及預(yù)讀機(jī)制對(duì)文件系統(tǒng)中的 block 基于 page 進(jìn)行緩存管理;
Direct Buffer:當(dāng)使用 Direct I/O 提供的相關(guān) API 時(shí),操作系統(tǒng)不再提供基于 Page Cache 機(jī)制的緩存,而是直接使用 Direct Buffer;磁盤的 Disk Buffer:
Write Back:一次寫操作僅僅更新了內(nèi)存緩存區(qū)中的數(shù)據(jù),數(shù)據(jù)落盤通常通過間隔一個(gè)時(shí)間進(jìn)行落盤一次;MySQL 為此提供了一些參數(shù)來(lái)控制 Page Cache 數(shù)據(jù)落盤的具體行為,例如:
innodb_flush_log_at_trx_commit 參數(shù)用于控制基于 Page Cache 的 Redo Log Buffer 的數(shù)據(jù)落盤機(jī)制[2]。此參數(shù)用于控制以下兩個(gè)特性之間的平衡:
innodb_flush_log_at_trx_commit 有三個(gè)可選配置值:
刷新頻率默認(rèn)為 1 s,由參數(shù) innodb_flush_log_at_timeout 進(jìn)行配置。
innodb_flush_method 參數(shù)同時(shí)控制 redo log buffer 和 innodb buffer pool 緩沖區(qū)刷新策略,其中:
nosync這里只討論 Unix-like 操作系統(tǒng),而不討論 Windows 系統(tǒng)。
其中,littlesync 與 nosync 僅僅用于內(nèi)部性能測(cè)試,并不建議使用。
補(bǔ)充說明:以 O_SYNC 方式打開文件意味著文件的每一次寫操作都直接導(dǎo)致將數(shù)據(jù)本身以及元數(shù)據(jù)刷新到磁盤上。
首先,我們需要理解更新操作落盤分為兩個(gè)具體的子步驟:①文件數(shù)據(jù)更新落盤②文件元數(shù)據(jù)更新落盤。O_DIRECT 的在部分操作系統(tǒng)中會(huì)導(dǎo)致文件元數(shù)據(jù)不落盤,除非主動(dòng)調(diào)用 fsync,為此,MySQL 提供了 O_DIRECT 以及 O_DIRECT_NO_FSYNC 這兩個(gè)配置[5]。
如果你確定在自己的操作系統(tǒng)上,即使不進(jìn)行 fsync 調(diào)用,也能夠確保文件元數(shù)據(jù)落盤,那么請(qǐng)使用 O_DIRECT_NO_FSYNC 配置,這對(duì) MySQL 性能略有幫助。否則,請(qǐng)使用 O_DIRECT,不然文件元數(shù)據(jù)的丟失可能會(huì)導(dǎo)致 MySQL 運(yùn)行錯(cuò)誤。
MySQL 日志刷新策略通過 sync_binlog 參數(shù)進(jìn)行配置,其有 3 個(gè)可選配置:
注意事項(xiàng):使用 Page Cache 機(jī)制的數(shù)據(jù)刷盤機(jī)制,即使基于同步策略,即每次寫操作都要求數(shù)據(jù)直接落盤,但在數(shù)據(jù)落盤之前,數(shù)據(jù)總是先要寫于 Page Cache 中,再將 Page Cache 中的具體 Page 刷新到磁盤上。
寫一條 redo log 涉及到的步驟有:
修改表的一行記錄涉及到的步驟有:
InnoDB Buffer Pool 臟數(shù)據(jù)進(jìn)行刷新,通過文件的 write 方法進(jìn)行;
文件的 write 方法直接導(dǎo)致數(shù)據(jù)寫于磁盤上;
定時(shí)進(jìn)行文件的 fysnc 調(diào)用,確保文件元數(shù)據(jù)寫于磁盤上;
[1]Buffer與Cache
[2]MySQL :: MySQL 8.0 Reference Manual :: 15.14 InnoDB Startup Options and System Variables
[3]MySQL 8.0 innodb_flush_method
[4]MySQL :: MySQL 8.0 Reference Manual :: 17.1.6.4 Binary Logging Options and Variables
[5] Why MYSQL still use fsync() to flush the data when the option is O_DIRECT?

我們?cè)谖⑿派?4小時(shí)期待你的聲音
解答本文疑問/技術(shù)咨詢/運(yùn)營(yíng)咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流