Linux后台开发必知的io优化知识汇总

发布时间：2022-02-16 18:17:16 所属栏目：Linux 来源：互联网

导读：系统学习 IO性能对于一个系统的影响是至关重要的。一个系统经过多项优化以后，瓶颈往往落在数据库；而数据库经过多种优化以后，瓶颈最终会落到IO。而IO性能的发展，明显落后于CPU的发展。Memchached也好，NoSql也好，这些流行技术的背后都在直接或者间接地

　　系统学习

　　IO性能对于一个系统的影响是至关重要的。一个系统经过多项优化以后，瓶颈往往落在数据库；而数据库经过多种优化以后，瓶颈最终会落到IO。而IO性能的发展，明显落后于CPU的发展。Memchached也好，NoSql也好，这些流行技术的背后都在直接或者间接地回避IO瓶颈，从而提高系统性能。

　　IO系统的分层：

　　上图层次比较多，但总的就是三部分。磁盘（存储）、VM（卷管理）和文件系统。专有名词不好理解，打个比方说：磁盘就相当于一块待用的空地；LVM相当于空地上的围墙（把空地划分成多个部分）；文件系统则相当于每块空地上建的楼房（决定了有多少房间、房屋编号如何，能容纳多少人住）；而房子里面住的人，则相当于系统里面存的数据。

　　文件系统—数据如何存放？

　　对应了上图的File System和Buffer Cache。

　　File System（文件系统）：解决了空间管理的问题，即：数据如何存放、读取。

　　Buffer Cache：解决数据缓冲的问题。对读，进行cache，即：缓存经常要用到的数据；对写，进行buffer，缓冲一定数据以后，一次性进行写入。

　　VM—磁盘空间不足了怎么办？

　　对应上图的Vol Mgmt。

　　VM其实跟IO没有必然联系。他是处于文件系统和磁盘（存储）中间的一层。VM屏蔽了底层磁盘对上层文件系统的影响。当没有VM的时候，文件系统直接使用存储上的地址空间，因此文件系统直接受限于物理硬盘，这时如果发生磁盘空间不足的情况，对应用而言将是一场噩梦，不得不新增硬盘，然后重新进行数据复制。而VM则可以实现动态扩展，而对文件系统没有影响。另外，VM也可以把多个磁盘合并成一个磁盘，对文件系统呈现统一的地址空间，这个特性的杀伤力不言而喻。

　　存储—数据放在哪儿？如何访问？如何提高IO速度？

　　对应上图的Device Driver、IO Channel和Disk Device

　　数据最终会放在这里，因此，效率、数据安全、容灾是这里需要考虑的问题。而提高存储的性能，则可以直接提高物理IO的性能

　　2. Logical IO vs Physical IO

　　逻辑IO是操作系统发起的IO，这个数据可能会放在磁盘上，也可能会放在内存（文件系统的Cache）里。

　　物理IO是设备驱动发起的IO，这个数据最终会落在磁盘上。

　　逻辑IO和物理IO不是一一对应的。

　　这部分的东西在网络编程经常能看到，不过在所有IO处理中都是类似的。

　　IO请求的两个阶段：

　　等待资源阶段：IO请求一般需要请求特殊的资源（如磁盘、RAM、文件），当资源被上一个使用者使用没有被释放时，IO请求就会被阻塞，直到能够使用这个资源。

　　使用资源阶段：真正进行数据接收和发生。

　　举例说就是排队和服务。

　　在等待数据阶段，IO分为阻塞IO和非阻塞IO。

　　阻塞IO：资源不可用时，IO请求一直阻塞，直到反馈结果（有数据或超时）。

　　非阻塞IO：资源不可用时，IO请求离开返回，返回数据标识资源不可用

　　在使用资源阶段，IO分为同步IO和异步IO。

　　同步IO：应用阻塞在发送或接收数据的状态，直到数据成功传输或返回失败。

　　异步IO：应用发送或接收数据后立刻返回，数据写入OS缓存，由OS完成数据发送或接收，并返回成功或失败的信息给应用。

　　按照Unix的5个IO模型划分

　　阻塞IO

　　非阻塞IO

　　IO复用

　　信号驱动的IO

　　异步IO

　　从性能上看，异步IO的性能无疑是最好的。

　　各种IO的特点

　　阻塞IO：使用简单，但随之而来的问题就是会形成阻塞，需要独立线程配合，而这些线程在大多数时候都是没有进行运算的。

　　非阻塞IO：采用轮询方式，不会形成线程的阻塞。

　　同步IO：同步IO保证一个IO操作结束之后才会返回，因此同步IO效率会低一些，但是对应用来说，编程方式会简单。

　　异步IO：由于异步IO请求只是写入了缓存，从缓存到硬盘是否成功不可知，因此异步IO相当于把一个IO拆成了两部分，一是发起请求，二是获取处理结果。因此，对应用来说增加了复杂性。但是异步IO的性能是所有很好的，而且异步的思想贯穿了IT系统放放面面。

　　最重要的三个指标

　　IOPS

　　IOPS，即每秒钟处理的IO请求数量。IOPS是随机访问类型业务（OLTP类）很重要的一个参考指标。

　　一块物理硬盘能提供多少IOPS？

　　从磁盘上进行数据读取时，比较重要的几个时间是：寻址时间（找到数据块的起始位置），旋转时间（等待磁盘旋转到数据块的起始位置），传输时间（读取数据的时间和返回的时间）。其中寻址时间是固定的（磁头定位到数据的存储的扇区即可），旋转时间受磁盘转速的影响，传输时间受数据量大小的影响和接口类型的影响（不用硬盘接口速度不同），但是在随机访问类业务中，他的时间也很少。因此，在硬盘接口相同的情况下，IOPS主要受限于寻址时间和传输时间。以一个15K的硬盘为例，寻址时间固定为4ms，传输时间为60s/15000*1/2=2ms，忽略传输时间。1000ms/6ms=167个IOPS。

　　OS的一次IO请求对应物理硬盘一个IO吗？

　　在没有文件系统、没有VM（卷管理）、没有RAID、没有存储设备的情况下，这个答案还是成立的。但是当这么多中间层加进去以后，这个答案就不是这样了。物理硬盘提供的IO是有限的，也是整个IO系统存在瓶颈的最大根源。所以，如果一块硬盘不能提供，那么多块在一起并行处理，这不就行了吗？确实是这样的。可以看到，越是高端的存储设备的cache越大，硬盘越多，一方面通过cache异步处理IO，另一方面通过盘数增加，尽可能把一个OS的IO分布到不同硬盘上，从而提高性能。文件系统则是在cache上会影响，而VM则可能是一个IO分布到多个不同设备上（Striping）。

　　所以，一个OS的IO在经过多个中间层以后，发生在物理磁盘上的IO是不确定的。可能是一对一个，也可能一个对应多个。

　　IOPS能算出来吗？

　　对单块磁盘的IOPS的计算没有没问题，但是当系统后面接的是一个存储系统时、考虑不同读写比例，IOPS则很难计算，而需要根据实际情况进行测试。主要的因素有：存储系统本身有自己的缓存。缓存大小直接影响IOPS，理论上说，缓存越大能cache的东西越多，在cache命中率保持的情况下，IOPS会越高。

　　RAID级别。不同的RAID级别影响了物理IO的效率。

　　读写混合比例。对读操作，一般只要cache能足够大，可以大大减少物理IO，而都在cache中进行；对写操作，不论cache有多大，最终的写还是会落到磁盘上。因此，100%写的IOPS要越狱小于100%的读的IOPS。同时，100%写的IOPS大致等同于存储设备能提供的物理的IOPS。

　　一次IO请求数据量的多少。一次读写1KB和一次读写1MB，显而易见，结果是完全不同的。

　　当时上面N多因素混合在一起以后，IOPS的值就变得扑朔迷离了。所以，一般需要通过实际应用的测试才能获得。

　　IO Response Time

　　即IO的响应时间。IO响应时间是从操作系统内核发出一个IO请求到接收到IO响应的时间。因此，IO Response time除了包括磁盘获取数据的时间，还包括了操作系统以及在存储系统内部IO等待的时间。一般看，随IOPS增加，因为IO出现等待，IO响应时间也会随之增加。对一个OLTP系统，10ms以内的响应时间，是比较合理的。下面是一些IO性能示例：

　　一个8K的IO会比一个64K的IO速度快，因为数据读取的少些。

　　一个64K的IO会比8个8K的IO速度快，因为前者只请求了一个IO而后者是8个IO。

　　串行IO会比随机IO快，因为串行IO相对随机IO说，即便没有Cache，串行IO在磁盘处理上也会少些操作。

　　需要注意，IOPS与IO Response Time有着密切的联系。一般情况下，IOPS增加，说明IO请求多了，IO Response Time会相应增加。但是会出现IOPS一直增加，但是IO Response Time变得非常慢，超过20ms甚至几十ms，这时候的IOPS虽然还在提高，但是意义已经不大，因为整个IO系统的服务时间已经不可取。

　　Throughput

　　为吞吐量。这个指标衡量标识了最大的数据传输量。如上说明，这个值在顺序访问或者大数据量访问的情况下会比较重要。尤其在大数据量写的时候。

　　吞吐量不像IOPS影响因素很多，吞吐量一般受限于一些比较固定的因素，如：网络带宽、IO传输接口的带宽、硬盘接口带宽等。一般他的值就等于上面几个地方中某一个的瓶颈。

　　一些概念

　　IO Chunk Size

　　即单个IO操作请求数据的大小。一次IO操作是指从发出IO请求到返回数据的过程。IO Chunk Size与应用或业务逻辑有着很密切的关系。比如像Oracle一类数据库，由于其block size一般为8K，读取、写入时都此为单位，因此，8K为这个系统主要的IO Chunk Size。IO Chunk Size小，考验的是IO系统的IOPS能力；IO Chunk Size大，考验的时候IO系统的IO吞吐量。

　　Queue Deep

　　熟悉数据库的人都知道，SQL是可以批量提交的，这样可以大大提高操作效率。IO请求也是一样，IO请求可以积累一定数据，然后一次提交到存储系统，这样一些相邻的数据块操作可以进行合并，减少物理IO数。而且Queue Deep如其名，就是设置一起提交的IO请求数量的。一般Queue Deep在IO驱动层面上进行配置。

　　Queue Deep与IOPS有着密切关系。Queue Deep主要考虑批量提交IO请求，自然只有IOPS是瓶颈的时候才会有意义，如果IO都是大IO，磁盘已经成瓶颈，Queue Deep意义也就不大了。一般来说，IOPS的峰值会随着Queue Deep的增加而增加(不会非常显著)，Queue Deep一般小于256。

　　随机访问（随机IO）、顺序访问（顺序IO）

　　随机访问的特点是每次IO请求的数据在磁盘上的位置跨度很大（如：分布在不同的扇区），因此N个非常小的IO请求（如：1K），必须以N次IO请求才能获取到相应的数据。

　　顺序访问的特点跟随机访问相反，它请求的数据在磁盘的位置是连续的。当系统发起N个非常小的IO请求（如：1K）时，因为一次IO是有代价的，系统会取完整的一块数据（如4K、8K），所以当第一次IO完成时，后续IO请求的数据可能已经有了。这样可以减少IO请求的次数。这也就是所谓的预取。

　　随机访问和顺序访问同样是有应用决定的。如数据库、小文件的存储的业务，大多是随机IO。而视频类业务、大文件存取，则大多为顺序IO。

　　选取合理的观察指标：

　　以上各指标中，不用的应用场景需要观察不同的指标，因为应用场景不同，有些指标甚至是没有意义的。

　　随机访问和IOPS: 在随机访问场景下，IOPS往往会到达瓶颈，而这个时候去观察Throughput，则往往远低于理论值。

　　顺序访问和Throughput：在顺序访问的场景下，Throughput往往会达到瓶颈（磁盘限制或者带宽），而这时候去观察IOPS，往往很小。

　　文件系统各有不同，其最主要的目标就是解决磁盘空间的管理问题，同时提供高效性、安全性。如果在分布式环境下，则有相应的分布式文件系统。Linux上有ext系列，Windows上有Fat和NTFS。如图为一个linux下文件系统的结构。

　　其中VFS（Virtual File System）是Linux Kernel文件系统的一个模块，简单看就是一个Adapter，对下屏蔽了下层不同文件系统之间的差异，对上为操作系统提供了统一的接口.

　　中间部分为各个不同文件系统的实现。

　　再往下是Buffer Cache和Driver。

　　文件系统的结构

　　各种文件系统实现方式不同，因此性能、管理性、可靠性等也有所不同。下面为Linux Ext2（Ext3）的一个大致文件系统的结构。

　　Boot Block存放了引导程序。

　　Super Block存放了整个文件系统的一些全局参数，如：卷名、状态、块大小、块总数。他在文件系统被mount时读入内存，在umount时被释放。

　　上图描述了Ext2文件系统中很重要的三个数据结构和他们之间的关系。

　　Inode：Inode是文件系统中最重要的一个结构。如图，他里面记录了文件相关的所有信息，也就是我们常说的meta信息。包括：文件类型、权限、所有者、大小、atime等。Inode里面也保存了指向实际文件内容信息的索引。其中这种索引分几类：

　　直接索引：直接指向实际内容信息，公有12个。因此如果，一个文件系统block size为1k，那么直接索引到的内容最大为12k

　　间接索引

　　两级间接索引

　　三级间接索引

　　如图：

　　Directory代表了文件系统中的目录，包括了当前目录中的所有Inode信息。其中每行只有两个信息，一个是文件名，一个是其对应的Inode。需要注意，Directory不是文件系统中的一个特殊结构，他实际上也是一个文件，有自己的Inode，而它的文件内容信息里面，包括了上面看到的那些文件名和Inode的对应关系。如下图：

　　Data Block即存放文件的时间内容块。Data Block大小必须为磁盘的数据块大小的整数倍，磁盘一般为512字节，因此Data Block一般为1K、2K、4K。

　　Buffer Cache

　　Buffer & Cache

　　虽然Buffer和Cache放在一起了，但是在实际过程中Buffer和Cache是完全不同了。Buffer一般对于写而言，也叫“缓冲区”，缓冲使得多个小的数据块能够合并成一个大数据块，一次性写入；Cache一般对于读而且，也叫“缓存”，避免频繁的磁盘读取。如图为Linux的free命令，其中也是把Buffer和Cache进行区分，这两部分都算在了free的内存。

　　Buffer Cache

　　Buffer Cache中的缓存，本质与所有的缓存都是一样，数据结构也是类似，下图为VxSF的一个Buffer Cache结构。

　　这个数据结构与memcached和Oracle SGA的buffer何等相似。左侧的hash chain完成数据块的寻址，上方的的链表记录了数据块的状态。

　　Buffer vs Direct I/O

　　文件系统的Buffer和Cache在某些情况下确实提高了速度，但是反之也会带来一些负面影响。一方面文件系统增加了一个中间层，另外一方面，当Cache使用不当、配置不好或者有些业务无法获取cache带来的好处时，cache则成为了一种负担。

　　适合Cache的业务：串行的大数据量业务，如：NFS、FTP。

　　不适合Cache的业务：随机IO的业务。如：Oracle，小文件读取。

　　块设备、字符设备、裸设备

　　这几个东西看得很晕，找了一些资料也没有找到很准确的说明。

　　从硬件设备的角度来看，

　　块设备就是以块（比如磁盘扇区）为单位收发数据的设备，它们支持缓冲和随机访问（不必顺序读取块，而是可以在任何时候访问任何块）等特性。块设备包括硬盘、CD-ROM 和 RAM 盘。

（编辑：温州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

linux中find paths mu	Linux后台开发必知的i
Linux 内核 API 的复杂	Linux 指令神器 lsof