RGF算法+迁徙学习准确预测硬盘缺点。《Predicting Disk Replacement towards Reliable>
互联网迅速开展,网络服务数量骤增, 大规模海量数据存储系统是必无法少的允许。虽然新的存储介质例如SSD,曾经在读功能等很多方面领有了比磁盘更好的功能,但就目前来讲,其高昂的破费使大局部数据核心难以累赘。因此,大型数据核心依然驳回传统的以磁盘为主的存储系统。这样做洽购老本上虽然有了节俭,但磁盘频繁损坏造成的数据失落给企业带来的损失也是无法漠视的严重疑问。
据美国63个数据核心组织启动的一项钻研显示,数据核心的停机费用在过去几年中清楚参与,从2010年的5600美元/分钟参与到2016年的8851美元/分钟。以往基于磁盘SMART属性建设的各种磁盘缺点预测模型,虽然取得了必定的成果,然而其在SMART属性选用、准确性以及模型的复用性上存在无余之处。
因此,本文提出了一个智能、准确的磁盘缺点预测的方法,判别磁盘在接上去一段期间内需不须要交流。上方两个图展现的是有无交流预测的磁盘可用性示用意。左图代表的是传统的磁盘意外检测,磁盘形态开局变差后才检测到磁盘缺点,这时的可用性曾经降到了***才开局改换磁盘。右图展现的是经常使用磁盘缺点预测的状况,首先系统判别磁盘的形态行将要变差,而后工程师在磁盘可用性降低之前改换磁盘。经过这两个图的对比,咱们可以看出提早预测磁盘缺点可以降低缺点对系统可用性的冲击。
磁盘缺点预测的应战
然而,磁盘缺点预测,存在如下应战:
设计思维
本文分为如下五步来处置缺点预测的应战:
1、选用SMART属性
由于SMART数据是随着期间的增长而生成的,所以文中是经过期间序列突变点(changepoint)检测来确定SMART与磁盘交流的相关性。当被交流的磁盘SMART期间序列中某个SMART属性出现突变,而且这个转变是***性无法复原的,那么可以以为这个属性与磁盘交流是相关的。
下图展现的是SMART_187_raw(无法纠正的失误)的折线图,这是报告给操作系统的无法经过配件ECC校对的失误。假设数据值不为零,就应该备份磁盘上的数据了。从图中可以看出在第50天的时刻,SMART_187_raw值突然增大,即第50天为突变点。
经过检测每一个SMART属性,本文获取了下表中展现的结果(只展现局部结果)。在表格中,SgtA和HitA区分表示希捷和日立的磁盘型号,Ratio表示磁盘交流前该属性值出现突变的比例。咱们可以看出有些SMART属性确实与磁盘交流有关,而且关于不同型号的磁盘,与磁盘交流事情相关的SMART属性是不相反的。
2、生成期间序列
经过***步的SMART属性值的筛选,下一步须要做的是生成预测模型可以经常使用的期间序列。经常使用期间序列作为模型的数据是基于如下三点思考的:
每天的数据都是不稳固的,或者某天的SMART数据缺失。
磁盘具备必定的自复原性,不能依据某一天的数据来判定磁盘接上去一段期间的形态。
假设只看某一天的数据,则无法提早一段期间来预测磁盘缺点,也就无法留出短缺的期间给工程师改换磁盘。
所以本文经常使用指数平滑的方法来生成期间序列,S_t=α·Y_t+(1-α)·S_(t-1)是指数平滑的公式,其中α是平滑参数,Y_t是之前t个数据的平滑值。α越凑近1,平滑后的值越凑近期间的数据值。指数平滑不舍弃过去的数据,而是仅给予逐渐削弱的影响水平,即随着数据的远离,赋予逐渐收敛为零的权数。
3、处置数据不平衡性
遇到不平衡数据时,以总体分类准确率为学习指标的传统分类算法会过多地关注少数类,而使少数类样本的分类功能降低。由于这些算法大少数建设在各类数据散布平衡的假定之下,以寻求数据总体分类准确率为***指标。而在磁盘缺点预测的场景下,磁盘缺点的数量是远远小于反常磁盘的。本文经常使用了欠抽样(downsampling)的模式来平衡数据。
详细做法是这样的,对肥壮磁盘的期间序列样本做K-means聚类,聚类之后每一个类别中样本都是相似的,而后选用距离聚类核心最近的n个点作为肥壮磁盘样本的抽样结果。
4、对磁盘形态分类
本文经常使用了RGF算法对磁盘形态分类。RGF 算法是一个分类算法,它是GBDT(梯度优化决策树)算法***的变种之一。针对 GBDT 每次迭代只优化新建树以及过拟合的疑问,RGF经常使用了正则化的全局优化贪心搜查改良算法:
文中对比了RGF与其余分类算法的分类结果,上表中的P、R、F区分表示准确率(precision)、召回率(recall)、F-分数(F-score)。从表中可以看出,RGF的成果是***的。
5、迁徙学习
同一厂商消费的不同磁盘模型之间也是存在差异的。本文发现,不同磁盘模型之间具备相似的SMART属性,但相反的SMART属性之间的数据散布不同。因此,间接将训练集磁盘模型上建设的预测模型用于同一厂商消费的其余磁盘模型的缺点预测,不能到达***的预测成果。
首先咱们来说明迁徙学习中的两个关键概念,域(domain)和义务(task)。如下图所示。
域(domain):包括特色空间(feature space)X和边缘概率散布(marginal probability distribution)P(x), x ∈X。例如,一组图片中的一切或者色彩形成一个特色空间,而各种色彩出现的频率则为边缘概率散布。
义务(task):给定一个域,义务还蕴含两个因素,标签空间(label space)y和预测函数(predictive function)f(·)=P(y|x)。例如,一组图片中或者出现的一切元素形成一个标签空间,而经过预测函数可以得出某幅特定图片中蕴含哪些元素。
同一厂商消费的不同磁盘模型之间具备必定的关联性,但它们之间存在样本选用偏向(sample selection bias)。即不同种磁盘模型之间虽然具备少量的堆叠特色,但源数据实例(带标签的训练数据)和指标数据实例(无标签的测试数据)的散布不同。因此,作者驳回了基于实例的迁徙学习方法来消弭源数据和指标数据之间的样本选用偏向,从而将某种磁盘上训练的模型运行于其余磁盘上。
详细的,关于两种磁盘模型1和2,将带标签的磁盘1实例与无标签的磁盘2实例放在一同。训练一个分类函数,使f(x)表示一个磁盘属于模型1或模型2的概率。应用分类函数f对带标签的训练数据集启动从新采样,从而消弭样本选用偏向,使训练集与测试集数据听从同一散布。此时,依据从新采样的训练集,应用前文所述的RGF算法训练出函数,g(x)代表该类型磁盘的一个实例须要启动交流的概率。由于从新采样的训练集与测试集听从相反的数据散布,因此可将预测函数g间接运行于同一厂商消费的其余磁盘模型上(测试集)。
作者区分经常使用两个厂商消费的磁盘的数据集SgtA和HitA训练模型,并经常使用迁徙学习的方法将两种模型区分运行于同厂商的其余磁盘数据集SgtB和HitB上。上表区分展现了间接将模型 A运行于磁盘B上以及运用迁徙学习方法将模型A运行于磁盘B的交流预测的准确率、召回率、F-分数。可以看出,运行迁徙学习方法后,预测准确性获取了很大提高,从而大大缩小了须要训练的模型数量。
总结
本文引见了一套智能、准确的磁盘缺点预测方法,用于判别磁盘在接上去一段期间内能否须要交流。经过选用SMART属性、生成期间序列、处置数据不平衡性等步骤,将磁盘缺点预测转化为对期间序列数据的分类疑问。之后经常使用RGF算法对磁盘形态启动分类,从而找出或者出现缺点的磁盘。关于同一厂商消费的不同型号的磁盘,驳回迁徙学习的方法启动处置,在保障预测准确性的同时缩小模型训练开支。***,文中驳回不同厂商、多种类型的磁盘SMART数据验证该方法,到达了较高的准确率和召回率。