硬盘什么时候坏？基于AI的科学算命告诉您

2017-10-31 11:09 运维干货阅读 11.1k 评论 0

运维派隶属马哥教育旗下专业运维社区，是国内成立最早的IT运维技术社区，欢迎关注公众号：yunweipai
领取学习更多免费Linux云计算、Python、Docker、K8s教程关注公众号：马哥linux运维

作者简介

董唯元
资深存储技术专家，国际存储工业协会个人会员。作为连续创业者，擅长把握最新技术动态并快速实践应用。多次带领产品技术团队把握趋势先机，领跑于国内其他厂商，率先推出NAS产品（2002年）、存储虚拟化产品（2007年）、CDP产品（2011年）、超融合产品（2014年）等。

分享的主题是使用人工智能的机器学习的引擎来实现智能化精准预测磁盘故障。下面将按照三个方面进行讲解：

被动式故障应对的局限和隐患
故障预测的原理、方法和工具
主动式故障应对的价值和意义

一. 被动式故障应对的局限和隐患

数据中心的意外故障，有超过60%都是直接或间接由磁盘故障造成。

磁盘故障时，用户最关心两个问题：

一是应用性能影响
二是数据可靠性影响

然而系统资源有限的时候，二者不可兼得。希望尽快修复数据，就必然占用很多资源，影响前端应用性能；而如果尽量保证前端应用性能，就会延长数据修复时间，增大数据丢失风险。

这个棘手的问题在磁盘阵列年代就一直存在，到了软件定义存储时代仍然没有得到解决，甚至没有得到合理的正视。

目前存储产品厂商只能提供一个Rebuiding Priority选项，让用户自己在性能和可靠性之间做出权衡选择。这实质上并不是解决问题，只是在推卸责任而已。

除了上述性能可靠性互斥难题，数据可靠性本身也有不为人知的隐患。

随着存储系统规模增大，RAID乃至多副本技术，对数据可靠性的保护会变得很脆弱。

图中的公式是个系统可靠性的简单计算模型。

以磁盘厂商提供的平均无故障时间可以计算出单盘健康概率，以此为基础，可以知道2副本可以保护的系统中，磁盘总数不能超过96颗磁盘，如果超过这个上限，系统总体可靠性就会低于99.999%这个企业级可靠性基线。3副本的情况会好一些，但是上限也不过才512颗磁盘。

在今天动辄上PB级的系统中，几十、几百颗磁盘的上限，显然是严重的瓶颈。

综上，要解决性能与可靠性互斥问题，以及大型系统的数据可靠性问题，传统的冗余保护思路已经越来越艰难，需要开辟另外的思路。

我们公司的思路方向是：利用智能技术，提前预判故障的发生，从而把随机出现的意外事件，变成可计划的事件。这样就变被动为主动，所有修复工作可以事前从容安排，对冗余度的要求也没有那么高。

二. 故障预测的原理、方法和工具

我们的磁盘故障预测原理是基于磁盘SMART信息和系统性能负载分析。单纯的SMART信息只能回答“磁盘是否该更换”这个问题，必须复合实际应用负载情况，才能回答“磁盘还可以活多久”的问题。

再深入的原理，其实就是标准的机器学习机制，搭建神经网络，并用大量数据去训练这个神经网络。

我们的分析预测引擎训练过程用到了超过10万颗磁盘在累计4年时间里的状态信息，总共样本数超过6千万。经过这些样本的训练。我们已经可以达到比较理想的预测准确率。具体可以看下图的实际检验结果。

我们的DiskProphet产品在Cisco的公有云中测试运行3个月，每天提供故障预测报告，累计90份报告。报告内容是系统中磁盘的预期寿命，精确到天。在±1天的误差内，最终检验下来，预测平均准确率96.1%，最低也在95%以上，完全可以指导运维人员准备应对手段，甚至可以基于此实现无人值守的故障修复。