Amazon.com inc. 正在与Google inc. 竞争,以存储有关人类DNA的数据,既寻求吹牛的权利,以帮助科学家取得新的医学发现,又寻求2018年每年价值10亿美元的业务的市场份额。
根据对研究人员,行业顾问和分析师的采访,学术机构和医疗保健公司正在他们的云计算产品 (Google Genomics或Amazon Web Services) 之间进行选择,在赢得备受瞩目的基因组学业务时,促使两者相互促进。
除其他因素外,这种增长正在推动个性化医学的发展,该个性化医学旨在根据患者的DNA图谱进行治疗。要实现这一目标,将需要大量数据来揭示特定的遗传特征对不同治疗的反应。
大学和药品制造商已经开始着手对数十万人的基因组进行测序的项目。人类基因组是DNA或遗传物质的完整补充,几乎在人体的每个细胞中都可以找到其副本。
客户认为Google和Amazon在存储基因组学数据方面比使用自己的计算机做得更好,可以确保其安全,控制成本并允许其轻松共享。
云公司正在超越存储,提供分析功能,让科学家能够理解DNA数据。微软公司和国际商用机器公司也在争夺市场份额。“云” 是指物理上驻留在服务器中并可通过internet访问的数据或软件,该数据或软件允许用户访问它而无需将其下载到自己的计算机上。
投资银行FBR Capital的研究分析师丹尼尔·艾夫斯 (Daniel Ives) 表示,目前全球业务估计在10000万至3亿美元之间,云基因组市场有望2018年增长至10亿美元。到那时,整个云市场的年收入应该从现在的300亿美元增加到500亿美元到750亿美元。
克雷格·文特 (Craig Venter) 在一次采访中说: “云是该领域的整个未来。” 克雷格·文特 (Craig Venter) 领导了一次私人努力,对20世纪90年代中的人类基因组进行了测序。他的新公司,总部位于圣地亚哥的人类长寿公司,最近试图从马里兰州罗克维尔的J. Craig Venter研究所的服务器导入基因组数据。
传输速度如此之慢,科学家不得不求助于联邦快递和人类信使或 “sneakernet” 发送磁盘和拇指驱动器。该公司现在使用亚马逊网络服务。
Regeneron pharmaceuticals Inc. 与位于宾夕法尼亚州的Geisinger Health Systems之间的合作也是如此,以对250,000基因组进行测序。原始DNA数据被上传到亚马逊的云中,在那里,来自私人持有的DNAnexus的软件将数百万个块组装成30亿个字母长的完整基因组。
该公司的首席科学家David Shaywitz博士说,DNAnexus的算法随后确定了inpidual基因组与 “参考” 人类基因组的差异,以期确定新的药物靶标。
展示了谷歌和亚马逊对这项业务的重要性,以及他们希望如何利用现有客户来吸引未来的客户,他们都免费托管着著名的基因组学数据集。
两家公司都没有透露其拥有的基因组学数据数量,但是根据对分析师和基因组科学家的采访以及公司自己对赢得客户的公告,亚马逊网络服务可能会更大。
美国国立卫生研究院 (National Institutes of Health) 的凯西·克雷维迪 (Kathy Cravedi) 说,来自 “1000基因组计划” 的数据是一项国际公私合作,该计划确定了至少1% 人类中发现的遗传变异,“免费” 存在于亚马逊和谷歌。NIH),该项目的发起人之一。
其他关注更具体的付费客户正在挑选一方。
例如,谷歌赢得了自闭症演讲基金会的一个项目,该项目旨在收集和分析10,000受影响儿童及其父母的基因组,以寻找自闭症遗传基础的线索。
另一个客户是Tute Genomics,其85亿人类DNA变体的数据库可以搜索任何给定的变体出现的频率,它与什么特征相关联以及具有某种变体的人如何对特定药物做出反应。
亚马逊正在主持多发性骨髓瘤基金会的项目,从1,000名患者那里收集完整的基因组序列和其他数据,以识别新的药物靶标。它还赢得了阿尔茨海默氏病测序项目,该项目具有类似的目标。
亚马逊每月存储一个完整的人类基因组的费用约为4至5美元,而Google每月的费用约为3至5美元。这些公司还收取数据传输或计算时间的费用,例如科学家对存储的数据运行分析软件时。
该公司表示,亚马逊的数据库分析工具Redshift每小时25美分或每年每tb 1,000美元。Tb是1万亿字节,或1,000 gb,大约足以容纳300小时的高质量视频。
云服务向潜在客户推销的另一部分是,他们的分析工具可以从大量数据中提取基因黄金-例如,一种药物靶标或一种强烈预测疾病风险的DNA变体。通过此类搜索发现的任何发现都属于数据的所有者。
宾夕法尼亚大学的阿尔茨海默氏症项目负责人Gerard Schellenberg博士说: “在本地大学服务器上,可能需要几个月的时间才能进行计算密集型分析。”“在亚马逊上,这是 '您需要多快完成它?',他们做到了。”
另一个卖点是安全性。位于加利福尼亚州尔湾市的网络安全公司Cylance Inc. 的首席科学家Ryan perph说,大学 “通常都很漏洞百出”,联邦政府计算机的安全性 “不是一流的”。
谷歌基因组学工程总监David Glazer表示,虽然学术和制药研究项目是基因组学云服务的最大客户,但它们将在未来10年内被临床应用所取代。
Inpidual医生将定期访问云服务,以了解患者的遗传特征如何影响他患各种疾病的风险或对药物的可能反应。
“我们现在正处于过渡阶段,” 格拉泽说。
亚马逊网络服务公司数据科学总经理马特·伍德 (Matt Wood) 认为,基因组学的云需求现在是一场 “完美风暴”,因为正在创建的数据量、协作的需求以及基因组学进入临床护理的速度加快。
DNA和数据专家说,如果无法访问云,现代基因组学将陷入停顿。
加利福尼亚大学旧金山分校的生物信息学专家Atul Butte博士说,现在,当不同大学的研究人员共同研究NIH和其他基因组数据时,他们不必弄清楚如何使计算机相互交流。在3月,NIH开始允许科学家上传重要的基因组数据时,为云的重大研究扫清了道路。
“我的回答是,现在是时候了,” 比尤特说。
(莎伦·贝格利 (Sharon Begley) 和卡罗琳·胡默 (Caroline Humer) 的报道; 米歇尔·格什伯格 (Michele Gershberg) 和约翰·皮克林 (John pickering) 的编辑)