探索中国CIO人才现状 | 第四季调研报告
如果把谷歌数据中心的数据都用打孔卡存起来
2014-01-28  作者:互联网 

  


  提问:如果所有的数据都用打孔卡存起来,那么Google的数据中心将有多大?--JamesZetlen


  小编先在这里介绍一下「打孔卡」这个老怪物:打孔卡,也叫「穿孔卡」(IBM卡),利用卡纸上打孔来记录信息。它看上去就是这个样子:


  这是一枚80列的标准矩形IBM打孔卡。


  这里牵涉到一段计算机诞生的前史。要说现在计算机的老祖宗,严格来讲不是教科书上大名鼎鼎的ENIAC,而是1801年,法国人雅卡尔发明的织布机:


  看到它上面一条打孔纸了么,这可是世界上最早的「可编程机器」,这些孔洞记录了要编制图案花纹。


  后来在1880年代美国,美国用打孔数据机完成了全美人口普查。而制造这些机器的这家公司,就是后来的IBM。1890年到20世纪初期,这种打孔数据记录的方式,一直广泛沿用在商业领域和计算机编程上。(via维基百科)


  几乎可以肯定的是,Google拥有比地球上所有其他机构更强大的数据存储能力。


  Google对于他们的运维细节守口如瓶,所以我也很难确定数据中心的具体的数字。只有少数机构拥有可信的大型数据存储设施。比如以下几家特别厉害的:


  NSA(美国国家安全局,最近比较衰)


  NRO(美国国家侦查局,不太出名,管间谍卫星)


  NGA(美国国家地理空间情报局,不太出名)


  CIA(中央情报局,电影里总是出来给主人公捣乱的)


  Schlumberger(斯伦贝谢,石油勘探技术公司)


  Tencent(腾讯,珠宝商)


  Chevron(雪佛龙,石油公司)


  我们还要荣誉提名这些:


  Amazon(它们真的很大,但未必有Google大)


  Facebook(它们正在变大的道路上,而且速度很快,但还需努力)


  Microsoft(它们有百万台以上的服务器(鲍尔默自己说的),但是没人知道他们要这么多服务器干嘛)


  以钱推算


  我们先通过钱数,来推算Google有多少数据中心。Google在基建上的开销——加起来大概超过120亿美金。最大的一个数据中心花掉了大概5~10亿美金。所以,他们不会拥有超过20个这样的数据中心。


  在Google的网页上提到了它们在以下几处建造了数据中心:


  ·南加州的伯克利郊区


  ·爱荷华州的康瑟尔布拉夫斯


  ·佐治亚州的亚特兰大


  ·北卡罗来纳州的勒诺


  ·俄勒冈州的达尔斯


  ·中国香港


  ·新加坡


  ·中国台湾


  ·芬兰哈米那


  ·比利时的圣吉兰


  ·爱尔兰的都柏林


  ·智利的基利库拉


  另外,Google还控制着其他一些大型数据中心(通过附属公司)。


  ·荷兰的埃姆斯哈文


  ·荷兰的格罗宁根


  ·波兰的弗罗茨瓦夫


  ·弗吉尼亚的雷斯顿


  ·还有在佐治亚州亚特兰大的一些数据中心


  ·还有更多遍布世界的上百个小型数据中心。


  依耗电量推算


  搞明白Google有多少数据中心,还可以看看它们的耗电量。不幸的是,我们不能直接去中心看电表的走字。我们只能自己挖点料。


  在2010年,Google透露了他们一年要耗费258兆瓦的电力。这能跑多少服务器呢?


  我们知道Google的数据中心还是很省电的,用在散热和其他方面的开销只占总用电量的10%~20%。为了解每台服务器的耗电量,我们研究一下他们2005年提出的「集装箱数据中心」的概念。虽然不是很清楚他们具体如何利用这些货柜——可能现在看来已经有点过时,但可以从中估计出一个合理的数字,答案是每台215瓦。


  由此推算出,他们在2010年大概运行着100万台服务器。


  基于数据中心的耗电量和开销,我猜Google现在运行着的——或者马上就要达到的服务器总数,在180万~240万台左右。


  但是「服务器」究竟指什么?Google可能弄出各种配置的各种奇葩装备,可能一台有100核的CPU,还挂着100个硬盘。我们假设每台服务器上平均挂着几个(2~5个)2T的硬盘,那总共就是10EB(艾字节exabytes)的数据量。


  只有10EB?


  地球上的商用硬盘厂,一年大概造出8EB的硬盘。但是这个数字不包括像Google这样的公司,但无论如何,Google吞掉了一大块硬盘消耗量。


  让事情听上去更带劲一点,就Google用掉的这么多硬盘,平均每分钟就要挂掉一个。但这对Google来说,根本就不算什么事儿,在它们这个体量级别的大背景下,Google的IT小哥换硬盘的本事已经炉火纯青——不过,我也好奇,Google程序猿是怎么看待当他们在一台机器上跑代码,分分钟可能碰到硬盘事故的。


  磁带上的Google


  当然,以上只涵盖了滚烫在线干活的硬盘。谁知道在Google的地下室还有多少冷冰冰的磁带机备份呢?


  在2011年一次与博客SMBTech的作者PaulMah的电话访谈中,来自TandberyData的Anderson透露了Google是世界上最大的磁带机买家,一年要采购200,000盘。假设这几年,它们的采购数量还在增长,所以,还得算上磁带机的这几个EB才行。


  算总账


  我们假设,Google拥有15EB,或者15,000,000,000,000,000,000字节的数据量(小编:@_@我都数不过来了)。


  一张打孔卡片可以存储80个英文字符,然后一箱子打孔卡可以装上2000片:


  “四盒子打孔卡对任何人都够用了”


  15EB的打孔卡,足够掩埋我所住的地方:新英格兰,足足堆上4.5公里厚。这是上一次冰河世纪冰盖厚度的3倍多。


  看上去很壮观吧。


  然而,这和一些报道中对NSA在犹他州的数据中心的离奇描述,还不算什么!


  NSA的数据中心


  NSA正在犹他州盖一座大数据中心。新闻里宣称,它们可能造出个1YB的怪胎,这实在太尼玛离谱了!


  最近的报道里,新闻编辑们似乎心智恢复正常了一些,又说整个项目可能只有3~12EB的样子。并且,我们知道整体耗电量在65兆瓦左右。和Google的一个大号数据中心差不多。


  还有一些缺少常识的标题党,毫无根据地吵吵说,NSA的新机房可能存上「1EB~1YB之间」的数据……就好比说:「目击者称看到一条1毫米~1公里长的蛇。」


  再爆一些Google的料


  挖掘Google运维的秘密还有一些技巧。讽刺的是,其中很多要依赖Google自己的搜索引擎才行——比如从搜索Google又在哪些奇怪的城乡结合部招人了,到用图片搜索被手机不小心拍到的数据中心的照片。


  然而,找到Google秘密数据中心的最妙的技巧也许是一位Google前雇员,在reddit的「天才小丑吧(talentlessclown)」里爆尿的:


  要找到Google的秘密数据中心,最好的办法就是问问出租车司机和披萨快递小哥。


  这件事情确实非常有趣。Google已经建立了历史上,地球上最老练的信息搜索汇聚的机器……但知道这些机器所在的人,只有那些的哥和披萨小哥。


  螳螂捕蝉,谁在其后?