MTBF测试标准的定义与System Availability的概念不是完全一致,因为移动终端毕竟与服务端从架构,实现方法,到用户群体都不尽相同;严格来讲MTBF测试是终端可靠性测试其中的稳定性测试部分。然而有不少地方是两者是相通和可以借鉴的。比如:
• MTBF中的故障数可以近似理解为Outage,系统重启属于Total Outage, 模块Crash属于Partial Outage
• 提升可靠性都是需要降低故障数减小downtime
• 在系统和应用设计中都需考虑如何减少错误,或者出现错误如何恢复。
• 终端上的一些后台服务可以近似理解为服务端应用,虽然不能完全照搬上文中提到容灾和恢复的场景,但是可以借鉴其中的一些思路。
• 终端上可以通过参考DPM的概念增加数据衡量指标,但可能不需要也不现实每个场景都执行100万次操作,可以依据实际情况调整标准要求
• 可以参考Failover策略中错误探测,隔离,恢复的操作在出现错误时及时发现,快速恢复重新启动来减少对用户造成的负面影响,恢复时间即Failover Recovery Time就成了一个关键指标。