1.swap的涵义
在Linux里swap有两个意思:
1.副词:交换。显存和c盘的颠簸行为。
2.名词:硬碟的swap分区。
没有文件背景的页面,即匿名页(anonymouspage),如堆,栈,数据段等linux系统内存管理,不是以文件方式存在,因而未能和c盘文件交换,但可以通过硬碟上界定额外的swap交换分区或使用交换文件进行交换。即前面wap作为名词的意思。Swap分区可以将不活跃的页交换到硬碟中,减轻显存紧张。
注意,虽然没有swap分区,也会存在swap行为,由于有文件背景的页面(file-backedpage)也会有swap,即第1点的c盘和显存之间的交换。
对于有文件背景的页面,程序去读文件时,可以通过read也可以通过mmap去读。当你通过任何一种方法从c盘读文件时,内核就会给你申请一个pagecache,来缓存硬碟上的内容。这样的话,读过一遍的数据,本进程或其他进程上次再读的时侯就直接从pagecache里去拿,就很快了,提高系统的整体性能。因而用户的read/write实际上是跟pagecache的互相拷贝。
而用户的mmap则会将一段虚拟地址(3G)以下映射到pagecache上,这样的话,用户就可以通过读写这段虚拟地址来更改文件内容,省去了内核和用户之间的拷贝。
所以文件对于用户程序来讲虽然只是显存,pagecache就是c盘中文件的一个副本。可以通过“echo3>/proc/sys/vm/drop_cache”来清cache。清掉以后,进程第一次读文件才会变慢。
通过free命令可以看见当前pagecache占用显存的大小,free命令中会复印buffers和cached(有的版本free命令将两者放在一起了)。通过文件系统来访问文件(挂载文件系统linux vps,通过文件名打开文件)形成的缓存就由cached记录,而直接操作裸盘(打开/dev/sda设备去读写)形成的缓存就由buffers记录。
root@jchen:~# free
total used free shared buffers
Mem: 254316 68568 185748 0 6676
-/+ buffers: 61892 192424
Swap: 0 0 0
实际上文件系统本身再读写文件就是操作裸分区的方法,用户态也可以直接操作裸盘,像dd命令操作一个设备名也是直接访问裸分区。这么,通过文件系统读写的时侯,都会既有cached又有buffers。从图中可以见到,文件名等元数据和文件系统相关,是进cached,实际的数据缓存还是在buffers。诸如,read一个文件(如ext4文件系统)的时侯,假如文件cache命中了,就不用走到ext4层,从vfs层就返回了。
其实,还可以在open的时侯加上O_DIRECT标记,做直接IO,就连buffers都不进了,直接读写c盘。
free命令的第二行复印即是将buffers/cache作为可用显存统计到used和free的列。
2.页面回收(reclaim)2.1回收时机
有文件背景的数据实际上就是pagecache,但pagecache不能无限降低,不能说渐渐的所有文件都缓存到显存了。肯定要有一个机制,让不常用的文件数据从pagecache刷出去。内核中有一个水位控制的机制,在系统显存不够用的时侯,会触发页面回收。
对于没有文件背景的页面即匿名页,例如堆、栈、数据段,假如没有swap分区,不能与c盘交换,就要常驻显存了。这儿须要特殊说明一下数据段,数据段实际上在c盘文件里,假若一个程序的全局变量的某一页的数据都还没有被更改过,就没必要形成匿名页,而一旦被更改了,就弄成匿名页了,由于你不能回写c盘啊,不能上次重新执行程序的时侯变量初始值变了……。
然而常驻显存的话,还会吃显存,可以通过给硬碟搞一个swap分区或硬碟中创建一个交换文件(swapfile)让匿名页也能交换到c盘上。可觉得是为匿名页伪造的文件背景。swap分区或swap文件实际上最终是抵达了减小显存的疗效。其实,假如频繁交换的话,被交换出去的数据的访问才会慢一些,由于要有IO操作了。
无论是有文件背景的页还是匿名页,交换(这儿指换出)的时机有两个:
内核通过kswapd内核线程渐渐回收,回收的时机由水位控制。人为地主动地进行drop_cache。因为第1点要等到显存不足的时侯才swap,可以通过这些方法主动发起回收。
内核中有个CONFIG_SWAP选项,可以控制匿名页的交换,假如关闭这个选项,就不能使用swap分区和交换文件了。但有文件背景的页原本就在c盘里,因而仍可以交换,不受该选项影响。也可以在开了CONFIG_SWAP的情况下,通过swapoff命令,将匿名页的swap功能关闭(假如此时swap分区里有内容,则会先换入),相应的使用swapon命令重新打开匿名页的swap功能。
2.2水位(watermark)控制
内核中有三个水位:
因为每位ZONE是分别管理各自显存的,因而每位ZONE都有这三个水位。
swapness:
显存回收的过程就相应的会有pagecache向c盘或匿名页向swap分区回写的过程。回收的时侯,是回收有文件背景的页还是匿名页呢,就会回收,但可通过/proc/sys/vm/swapness来控制让谁回收多一点点。这个值比较大时,就回收匿名页多一点点,比较小就反之。
所以swapness反映了是否积极地使用swap空间,而将swapness=0则意味着不再交换匿名页,除非当显存不足(freeandfile-backedpages<highwatermarkinazone)的情况下才使用swap空间(这儿的意思是,显存触到low以后就发起回收,直至显存回到high水位停止,但若果回收完file-backed页面都到不了high,就得开始回收匿名页了,这段时间内虽然swapness=0也出现了回收匿名页的情况)。
另外须要注意,/proc/sys/vm/swapness是控制全局的swap特点的。cgroup的swapness优先级高些,假如一个cgroup的swapness关闭,全局的没关,这么这个cgroup里的进程的swap就是关闭的。也就是说,全局的swapness是控制不在cgroup上面的进程的swap特点的。
回收的过程是根据LRU,即近来最少使用的页会被回收,Linux内核仍然在评估什么是LRU的页面即最不活跃的页面。
root@none:~# cat /proc/meminfo
MemTotal: 254316 kB
MemFree: 185748 kB
Buffers: 6676 kB
Cached: 22716 kB
SwapCached: 0 kB
Active: 25472 kB <----
Inactive: 23164 kB <----
Active(anon): 19684 kB <----
Inactive(anon): 456 kB <----
Active(file): 5788 kB <----
Inactive(file): 22708 kB <----
Unevictable: 0 kB
Mlocked: 0 kB
SwapTotal: 0 kB
SwapFree: 0 kB
Dirty: 0 kB
Writeback: 0 kB
AnonPages: 19272 kB
…… ……
这儿cat/proc/meminfo见到的active和inactive的显存就是指lru算法上面去评估的一个页面的使用情况(有没有被访问过),inactive的页面中最inactive的页面最先被回收。假如inactive的页都回收了但显存一直不够,也会从active的页中回收相对最不活跃的页面。
所以我们就晓得,假如lowmem被使用殆尽,触碰low或min水位,内核的普通kmalloc就申请不到显存了,还会触发cache/buffers的回收和匿名页swap,再不行就OOM了。
注意sync和swap的区别哦。sync是回写脏页,即pagecache被更改后与c盘原文件内容不同步的页,回写完后显存也不会回收,回收还是要等到kswapd或directreclaim。进程打开并使用一个文件后调用close(),是不会回写脏页的,要显示地调用sync()/fsync()。
再说一下tmpfs,tmpfs是储存临时文件用的,还用于linux的posix和sysv共享显存,共享显存这些进程通讯方法底层就是tmpfs。它虽然是没有文件背景的,因而假如有swap,就交换到swap分区,没有就常驻显存。并且在统计显存的时侯,是把tmpfs占的显存统计到pagecache的,这儿就有点绕。所以有时你在drop_cache后发觉cache/buffers一直很大,可能就是由于tmpfs的显存未能回收。
另外对于内核空间,内核的显存,如代码、数据、申请的显存,通常是不能被回收的。内核形成的文件cache、一些数据结构如dentry和inode等充当缓存的显存这种是可以回收的。
怎样估算水位
/proc/sys/vm/min_free_kbytes是一个用户可配置的值,默认值是依据每位lowmemzone的显存大小算下来的(不是随着显存大小线性下降的)。这个值就决定了min的值,之后按照min算下来low和high水位的值。结果就是high>low>min。
在/proc/zoneinfo中可以见到每位zone的水位情况。具体估算方式见init_per_zone_wmark_min(void)函数。
比较特殊的是highmem,highmem的水位不是按照min_free_kbytes估算,而是将其min设置为一个很小值,由于低水位是为了给紧急显存使用(如处理OOM也要使用显存),而紧急显存(__GFP_HIGH和PF_MEMALLOC)的分配不会在highmem上进行,因而不用预留太多。low和high一直和其他zone一样由min估算得出,由于highmem仍有显存回收机制。
在kmalloc的时侯加上PF_MEMALLOC标记就可以忽视显存管理的水位限制分配显存。其实,内核关键代码会这样用,你自己的代码就不要加这个标记了。
/proc/sys/vm/lowmem_reserve_ratio可以对高端显存做进一步保护。我们晓得越高端显存越珍稀,lowmem_reserve_ratio可以让kernel申请显存的时侯不至于出现高端显存快用完了而低端显存还有可用的情况。它实际上是在watermark的基础上又预留出一段显存:在由于申请highmem得不到显存而转为向lowmem申请的情况下,lowmem的min都会显得严格,可能会让高档显存先尝试显存回收在分配显存。
3.脏页的回写
里面提及了要注意区别sync和swap,这儿也讲一下。sync是拿来回写脏页的,脏页不能在显存中呆的太久,由于假如忽然断电没有讲到硬碟的脏数据就丢了,另一方面假如攒了好多一起写回也会显著占用CPU时间。
控制脏页何时写回:
下边这种变量是整个系统的,见kernel/sysctl.c中的定义:
static struct ctl_table vm_table[] = {
……
};
dirty_ratio:一个写c盘的进程所形成的脏页抵达这个比列时,这个进程自己才会去回写脏页。
dirty_expire_centisecs:脏页的到期时间,或理解为老化时间,单位是1/100s,内核中的flusherthread会检测留驻显存的时间超过dirty_expire_centisecs的脏页,超过的就回写。
dirty_writeback_centisecs:内核的flusherthread周期性被唤起(wakeup_flusher_threads())的时间间隔,每次被唤起就会去检测是否有脏页老化了。假如将这个值置为0,则flusher线程就完全不会被唤起了。
dirty_background_ratio:假如脏页的数目超过这个比列时,flusher线程都会启动脏页回写。
因而可以看出,脏页回写的时机由时间(dirty_expire_centisecs/dirty_writeback_centisecs)和空间(dirty_ratio/dirty_background_ratio)两方面共同控制:
虽然只有一个脏页,那假如它超时了,也会被写回。避免脏页在显存留驻太久。dirty_expire_centisecs这个值默认是3000,即30s,可以将其设置得短一些,这样掉电后遗失的数据会更少,但c盘写操作也更密集。不能有太多的脏页,否则会给c盘IO导致很大压力,比如在显存不够做显存回收时,还要先回写脏页,也会显著历时。
须要注意的是,在达到dirty_background_ratio后,flusher线程(名为“[flush-devname]”)开始回写,但因为写c盘速率慢,假如此时应用进程还在不停地写c盘,flusher线程回写没这么快,这么都会造成进程的脏页达到dirty_ratio,这时这个进程都会去回写脏页而造成write被封住。也就是说dirty_background_ratio一般是比dirty_ratio小的。
脏页都是指有文件背景的页面,匿名页不会存在脏页。从/proc/meminfo的’Dirty’一行可以看见当前系统的脏页有多少,用sync命令可以刷掉。
补充:zRAM机制
不用swap分区,也可以用zRAM机制来减轻显存紧张:从显存里掏出一段显存空间(compressedblock),作为交换空间模拟硬碟的交换分区redhat linux 9.0,拿来交换匿名页,但是让kernel见到的化学显存大小不包括这段显存。而这段交换空间自带透明压缩功能,即交换到这块zRAM分区时,Linux会手动将这块匿名页压缩储存。系统访问这块页面的内容时linux系统内存管理,形成pagefault后从交换分区去拿,这时Linux给你透明解压再交换下来。
使用zRAM的益处,就是访存比访问硬碟或flash的速率提升好多,且不用考虑寿命问题,但是因为这段显存是压缩后储存的,因而可以存更多的数据,即使占用了一段显存,但实际可以存更多的数据,也达到了降低显存的疗效。缺点就是压缩要占用CPU时间。
Android上面普遍使用了zRAM技术,因为zRAM牺牲了CPU时间,所以交换次数还是越少越好。像Android和windows,显存越大越好,由于发生交换的概率就小。这样两个进程互相切换(如微博和陌陌)时才会显得流畅,由于显存足够的话,后台进程无需被换进swap分区或被OOM杀掉。其实假如你只打打电话,就没必要大显存啦。