您的位置: 网界网 > 大数据 > 正文

美国癌症协会拥抱大数据

2015年03月30日 14:09:14 | 作者:王旋编译 | 来源:

摘要:2012年,美国最大的非盈利组织之一――美国癌症协会(American Cancer Society)意识到,其分散的组织架构到了必须要做出改变的时候了。

标签
大数据
POC
Netezza
Teradata

【CNW.com.cn 独家译稿2012年,美国最大的非盈利组织之一——美国癌症协会(American Cancer Society)意识到,其分散的组织架构到了必须要做出改变的时候了。因此,美国癌症协会将其旗下的13家分支机构(一个全国总部,12个分支机构,这12家分支机构均为其慈善分支机构)整合成了一家大公司,公司总部位于亚特兰大,同时该公司拥有12家分公司。

美国癌症协会同时也意识到,他们的IT架构也需要进行彻底的检修和调整。新集中起来的Siebel数据库中,有4000个对象和150个工作台,但却运行在一个用了8年的HP-UX老旧设备上。每生成一个报告平均要花费4个小时,这就意味着当报告很多的时候,用户需要借助另一台计算机进行其他的工作。

2013年3月,Blake Sanders加盟美国癌症协会。Blake Sanders在业务分析和数据存储等领域经验丰富,拥有长达20年的工作经历。美国癌症协会为其设立了一个新职位,即架构与数据管理副总裁,Sanders的职责是帮助公司为迎接即将到来的大数据[注]时代做好准备。Sanders决定设计一个数据存储装置,以解决设备速度与数据滞后的矛盾,同时也为今后处理复杂数据奠定基础。

Sanders说:“我们已经进行了一个非常标准化的RFP(Request For Proposal,征求提案)流程,并且严格地执行了它。我们将模板发给了多个供应商,并且详细地描述了美国癌症协会中具体的情况和待解决的问题,并向这些供应商征求问题的解决方案。”Sanders及其团队的成员们收集了市场上大量的信息,并将RFP发给了四个供应商:Oracle(Exadata)、微软、IBM(Netazza)和Teradata

Sanders提出了很多的问题。比方说,“你们的平台是否可以与这些专门的ETL(提取、转换、加载)工具整合呢?”其中,大部分的问题都是与其他系统连接性、数据建模软件、可维护性和维护等需求相关的,还有在ETL之外与其他成套工具整合性的相关问题。最终,Sanders将他们列出的概念验证供应商缩减到两个,以便能够更好地管理,这两个供应商分别是Teradata和Netezza

“我们很清楚,我们不可能同一时间去处理四种概念验证,也并不是所有的这些供应商都能解决我们的问题。因此,我们要保证的是,找到一个对于提高运营最有效、最有影响力的解决方案。而这个解决方案将包括硬件设施、软件、安装、服务,以及一百万美元以内的项目预算。”Sanders说。

2006年,Sanders在其之前的工作单位工作时曾安装过Netezza系统(Netezza公司于2010年被IBM收购,目前已正式成为IBM的一个纯数据分析系统),其使用效果非常令人满意。尽管要保持中立的立场,但是再为美国癌症协会安装一个Netezza系统,依然是一个不错的选择。

意义重大的POC

Sanders指出:“虽然美国癌症协会的很多捐助者都非常理解技术对于研究的支持至关重要,但是在他们的脑海里却只有医生和那些管子,并没有计算机。如果要捐助者们投资IT技术支持的话,那么他们会觉得这样做的价值回报很低。”

要想做一个好的管理者,就需要提高计算机性能,用通过技术为企业带来价值的方式,来证明自己的价值。因此,跟踪业主的投资与回报是非常重要的。Sanders也不想再坐等数据,而是开始利用数据。

Sanders制定出其POC(Proof of Concept,概念验证)的流程与目标:

1.明确支持业务需求;

2.建立成功的标尺,并寻求成功;

3.全面探索产品性能;

4.在市场噱头中区分出事实的真相;

5.监测“典型的用户案例”;

6.尝试去分析、说明投资中的回报。

Sanders清楚地知道,一旦开始了这项工作就很难回头,也很难再去增加一些东西。所以,Sanders需要尽快处理近期出现的一些问题,并为今后的三到五年最好准备。

有时候很难给一些要做的事情定量,比如生产所得,但Sanders却尽力让企业从每周节省的工作时长里获得一些具体的收益。这些效率的提升或许会帮助企业减少人力成本,或者可以让企业在现有员工的基础上开启新的计划。这些细节都会慢慢变成累积起来的财富。

供应商之间的竞争

Netezza和Teradata都在一个星期内在美国癌症协会的数据中心内安装了各自的系统,由于Sanders不想让企业内部的数据外流,因此在管理数据上他不能使用云计算[注]资源和远程测试方式。同时,一些调整工作尽量都由他自己的团队的员工来做,而不是让供应商来做。

近期,美国癌症协会要管理的数据是由7600万个成员,包括捐助者、志愿者和员工们从每年超过6000个慈善事件中收集来的。然而,整个数据组只有2.5TB的近期数据。

Sanders创建了一个包含20个工作台(含4000个对象)的测试数据组,这20个工作台是从其150个工作台中选出来的。然后,Sanders将相同的数据组分发给两个供应商。测试阶段的数据准备就是将其所有的数据传到新的系统中。

Sanders并没有将公司内部的IT小组成员单独分派到Netezza和Teradata中去,因为他希望其团队里的所有成员都能够使用这两个供应商提供的系统,以便在后期的评估阶段他们都能做出相应的比较。对于这两个系统,其执行计划的每一步都是一样的,因此Sanders可以对两者进行互相的比较。

这一概念验证阶段大约持续了6个星期。在每个系统中,他们下载数据、记下性能与管理细节,并进行查询调优。他们进行了小的、中等的和大的查询,总共有15个,并检测哪个工作台被使用了。Sanders给这个项目制定了一个口号:更快、新鲜、更好。

Sanders和他的团队制作了一个脚本,并去完成它。建设数据库、输入数据组、评估管理工具可用性,并开启测试反应时间。当测试时,调试系统以获得指标和聚集。同时,他们还将再花费一个星期的时间去测试那些并不在近期、但未来可能会出现的问题。

经过一番努力之后,效率的提升是显而易见的。最终,在之前的旧系统上平均4个小时的查询时间,在现在的新系统中变成了40秒,足足比之前的快了370多倍。之前,一个星期内能运行1000个报告,而现在同一时间里能够运行4990个报告。在节省员工时间的同时,也为企业每周节省了119,700美元的花销。

在新的系统中,用户能够非常容易地深入探讨报告,就像在电子数据表上做得一样容易。用户还可以通过某种方式看到数据,这在以前也是不可能实现的。Sanders指出,速度的提升也在促进用户行为的改变,现在用户可以一遍又一遍地对其数据进行查询。

有了新系统之后,企业在硬件上的支出减少了,用户不再需要第二台计算机也能很好地完成工作。当报告正在进行时,用户可以在等待期间使用另一个系统,有些甚至有三个系统。同时,降低了旧的HP-UX设备上的甲骨文许可证和维护费用,也为硬件投资节省了成本(+本站微信networkworldweixin),让企业投入更多资金到新的系统上。用这些在硬件上节省的成本,企业可以购买新的系统,而且在这之后还会帮助企业节省更多的成本。

Sanders认为,Netezza在这一方面居于领先的地位,而且他觉得2006年的Netezza系统现在仍然可以通用。

未来对比

对于概念验证而言,前一部分的测试已经结束,剩下的就是要看未来的效果了。目前,Sanders主要是测试设备以运行数据仓库,但是在未来的三到五年里,Sanders希望能够演进为真正的大数据系统。美国癌症协会需要迁移到Hadoop去监测实时数据动态,例如为志愿者和慈善参与者们定制个性化的美国癌症协会官方网站体验的方式。

Netezza如今已经有了新的硬件,并且比Sanders在过去使用的2006版本更快,但是他们的软件却基本上与原来的一样。然而,另一家供应商Teredata的14.10运行系统较其之前的版本有了非常大的提升。Sanders说:“Teredata比Netezza在软件创新上做了更多的工作和努力,虽然Netezza已处于领先的地位,但是在这一点上我更倾向于选择Teredata。”

对于这个项目究竟投资了多少资金,Sanders并没有准确地透露。但是,他表示与美国癌症协会同样规模大小的企业,他们做同类项目的成本大约在75万美元左右。对于“节点计算能力”的规模,Sanders想要做到平衡不同硬件需求,但在价格上Netezza和Teredata略有差别。

目前为止效果不错

Sanders及其团队进行的RFP和POC持续约六个月的时间,Teredata的硬件也于2013年10月中旬完成了实地部署。同年12月,美国癌症协会每周都在利用Siebel报告系统更新业务产出,2014年1月之后每天都有更新。

此后,美国癌症协会为其金融、计划和会计部门增加了一个数据集,同时向市场营销团队提供数据资源,以便做些基本的战略分析。

Sanders说:“一年以后,我们仍然从旧的数据架构中获得350-370x查询性能,同时利用简化的数据模式,使其对专门的查询更加友好,这又让我们的工作有了进一步的发展。维护也不成问题,在这一年中,我们还没有遇到过系统宕机的情况,所以我们不需要去做太多的维护工作。接下来,我们会通过在Siebel应用数据上改变数据捕捉机制,以进一步提升数据的传输通道,以近实时的方式上传到Teredata系统中,进一步减少我们的批处理负载窗口。我们将能够从应用中直接加载数据,以汇总数据存储发生的变化。同时,我们还将提供业务活动监测,虽然我们之前不曾做过这些事情。”(王旋编译)

参考资料

1.大数据:(Big Data),研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 ...详情>>

2.云计算:(Cloud Computing)描述了一种基于互联网的新的IT服务增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展而且经常是虚拟化的资源。云计算是继1980年代大型计算机到...详情>>

[责任编辑:于翔 yu_xiang@cnw.com.cn]

我也说几句

云分析的未来
云分析的未来
应用案例的爆炸性增长也促进了云分析的增长。不过,真的能够确认云是IT...
Hadoop可能已经达到预期的成熟度
Hadoop可能已经达到预期的成熟度
五年前,Hadoop用可以解决所有大数据难题的身份杀入主流市场。如今尘埃...