探索中国CIO人才现状 | 第四季调研报告
Facebook创建工具用于管理设施与服务器数据
2013-07-18  作者:zdent 

  大家还记得去年夏季给全球互联网带来大麻烦的闰秒事件吗?Facebook同样受到波及,其服务器CPU利用率突然达到100%,并因而导致位于弗吉尼亚州的某个网站发生断路,最终使得近三百台机架陷入瘫痪。


  该事件倒不至于给Facebook的发展带来重大影响,但却让工程师们陷入了思索。他们考虑利用自己编写的定制工具将第三方创建管理软件与自家工具整合起来,从而对服务器性能加以监控。Facebook公司网站运营副总裁TomFurlong在上周五于旧金山召开的数据中心动态整合大会上接受了记者采访,并表达了上述看法。


  合并后的系统能够捕捉各类外界信息,例如温度与湿度、整套基础设施的总体功耗以及CPU、存储器及内存数据等。


  在过去几个月中,Facebook已经推出了新的数据中心基础设施管理(DCIM)方案及一款专门对数据进行虚拟化的全新集群规划系统。该计划将在今年得到进一步铺开。


  Facebook策划的这套方针能从几个方面给运营带来提升。首次,该软件能够大幅降低工程师们花在设备研究及探讨如何布局方面的时间,进而让性能改进工作变得更富效率。具体提升效果有多大?根据Furlong的介绍,“原本需要用12个小时琢磨图纸及其它资料的工作现在只需30分钟。”


  它还能帮助Facebook从现有数据中心身上榨取更高执行效率,从而为客户带来更好的使用体验——另外,服务对数据中心基础设施规模的要求也有所下降。


  Furlong预计该公司将在明年一月的下一届开放计算峰会上进一步讨论这款新系统。他尚不确定该公司是否会像在开放计算项目中披露硬件设计方案那样,将这款工具投入公共消费市场。这样做的障碍在于,合并后的方案集成了Facebook所使用的一些现有内部监控工具,而该公司可能并不希望将这些信息公之于众。


  不过无论实际情况如何,Furlong都已经在上周五大会的数据中心爱好者研讨环节之前公布了这则消息。按照逻辑关系来推断,这种主动公开讨论的做法似乎确实希望能为大家的现有硬件带来更高执行效率,从而清晰认识到何时及如何部署新设备才能最大程度满足工作负载需求。