<strike id="emttt"><label id="emttt"></label></strike>

mongodb是如何加載索引數(shù)據(jù)的？

建立了一個測試集合one，這個集合有1億條文檔，文檔數(shù)據(jù)有6.3G左右，一共建立了三個索引，如上圖，三個索引分別都在1G的大小，三個索引一共有3.2G大小。

第一次對這個集合執(zhí)行查詢時，查詢條件沒有使用索引字段，進行1億條的全表掃描，可以從內(nèi)存占用量中看到，內(nèi)存的占用量在不斷的飆升，上升了6G左右的占用量。

結(jié)束掉這個Mongo進程后重啟，以索引字段進行查詢，瞬間把目標文檔找出來了，但是并沒有看到內(nèi)存的占用量有什么變化（有點變化也就在啟動mongodb進程時候內(nèi)存上升了100M左右的占用量），但是三個索引中任何一個索引都是1G的大小，mongodb到底把索引數(shù)據(jù)加載到了內(nèi)存中沒有？

mongodb到底是怎么使用索引數(shù)據(jù)的？它如果把它加載到內(nèi)存中，為什么內(nèi)存占用量基本沒變化？對于上圖中三個索引，如果這唯一一次查詢僅僅只用到了c字段的索引查詢，mongodb是只加載c字段這一個索引的數(shù)據(jù)1.1G，還是把三個索引的數(shù)據(jù)3.2G都直接全部加載進來？

回答

編輯回答

伴謊

其實這大部分是一個操作系統(tǒng)原理的問題。操作系統(tǒng)在讀取文件時會把文件內(nèi)容放到空閑內(nèi)存中，這樣下次再有程序嘗試讀取同樣的文件內(nèi)容的時候，就可以直接從內(nèi)存中給而不用讀磁盤，從而大幅度提高讀取速度。這個緩存就是文件系統(tǒng)緩存。
其實很容易理解：這些內(nèi)存如果沒有人用，空著也是浪費，為什么不緩存一點東西在里面呢？不管緩存什么，只要命中一次就賺到一次。至于怎么怎么賺更多，那就要看你怎么選擇在有限的內(nèi)存空間中緩存的什么內(nèi)容，怎么能讓緩存的內(nèi)容被更多地命中。這部分內(nèi)容跟問題無關(guān)，不細說了，有興趣可以看看操作系統(tǒng)原理。
回到你的問題，當(dāng)你重啟了MongoDB實例時，MongoDB占用的內(nèi)存當(dāng)然已經(jīng)都釋放掉了。但是無論是數(shù)據(jù)還是索引，其實都還緩存在文件系統(tǒng)緩存中，因為它們都來自于數(shù)據(jù)文件和索引文件（前提是沒有別人要使用這些內(nèi)存）。索引的使用是按需加載，這點基本上從邏輯推理就可以猜出來：假設(shè)你的10GB的索引，難道第一次讀取的時候就要等10GB索引加載到內(nèi)存中？假如索引容量比內(nèi)存要大呢？所以一次性加載全部索引顯然是不合理的。即使是一個索引，也是按需部分加載而不是全部。所以你需要用到的只是這1GB中的很小一部分。記住索引的時間復(fù)雜度是log2(n)，要從1億數(shù)據(jù)中找出需要的一條，最壞的情況下只需要查詢27次比較，當(dāng)然是瞬間就出來了。

2017年9月22日 09:09