本文主要讲了谷歌整合tutegenomics基因数据库的文章内容。谷歌希望凭借人类基因组云端服务googlegenomics在基因组研究市场占有一席之地,如今,正忙于用最好的工具来填满这个工具箱。从长期来看,边合成边测序的价值会越来越高,从本质上有了很大的飞跃。
googlegenomics的产生
googlegenomics是谷歌2013年推出的一项云端服务,帮助大学实验室和医院等机构将患者或科研对象的生物基因储存到云端上,推进人类基因组信息的存储、对比和分析。
googlegenomics和基因数据创业tutegenomics日前宣布,tutegenomics将把其海量基因信息数据库放到googlegenomics平台上以便于查询。googlegenomics托管的其他基因数据库还包括1000genomesproject、illuminaplatinumgenomes和mssngdatabaseforautismresearchers等。
googlegenomics工程主管、google+项目前工程主管大卫格雷泽(davidglazer)曾表示,搜索不是搜索关键字,研究人员可以搜索基因组的特定片段及基因组序列,从而找到具有共同变异的基因组片段。
googlegenomics产品经理乔纳森秉海姆(jonathanbingham)表示,为了区分自己不仅仅是一个数据存储平台,googlegenomics还将利用谷歌的搜索工具和计算设施来处理和分析基因数据。
用户在googlegenomics上存储数据后,还可以共享给任何想共享的人。此外,googlegenomics还支持基因组数据的处理,包括变异调用、三级结构分析(tertiaryanalysis)和群组对比等。
googlegenomics除了存储数据,还提供数据分析服务。秉海姆称:googlegenomics建立在googlecloud云平台之上,我们需要解决的一个问题是可存储性。此外,还要便于研究人员进行分析,在速度和灵活性方面要有保证。
秉海姆还称,bigquery就是googlecloud平台上的一个云数据分析引擎,之前已被证明对于基因组数据分析大有帮助。bigquery是谷歌推出的一项web服务,允许开发者使用谷歌架构运行sql语句对超级大数据库进行分析,tb级数据十几秒便可返回结果。
向bigquery加载数据后,如来自特定父母群体的基因变异数据,用户就可以对一些问题进行查询,如等位基因频率、全基因组关联、与表型性状或药物治疗的关联等,几秒钟便可返回结果。
但bigquery是针对无结构数据(unstructureddata)进行设计的,因此googlegenomics团队还对bigquery引擎进行了调整,使之适应基因组数据。
秉海姆表示,此次与tutegenomics合作后,将允许用户通过bigquery进行更深层的数据挖掘。人们已经意识到,googlegenomics和bigquery的结合允许人们利用基因变异和之前的相关知识做一些十分有意义的事情。如果你之前做过基因测序研究,或者有了新的人类基因组,可以加入到tutegenomics数据库中,然后咨询一些问题。例如,如果我给患者做了基因测序,如何能知道他们的变异?哪些与疾病的关联度最高?如何知道他们对药物的反应?
这项服务的成本和速度分别是:88gb的人类基因组变异信息加入到tutegenomics数据库仅30秒钟,费用不到1美元。
tutegenomics基因数据库
tutegenomics基因数据库是一个注释型数据库,对许多基因变异进行了解读,所使用的标准包括sift、polyphen2、phylop、gerp++、mutationtaster、mutationassessor、fathmm、metalr和metasvm等。同时,tutegenomics数据库也整合了自身的预测系统,可预测单核苷酸多态性(snp)或插入缺失标记(indel)是否与孟德尔表型(mendelianphenotypes)相关。
tutegenomics数据库还整合了公众数据,如来自1000genomesproject和nhlbiesp-6500等基因组项目的数据。此外,tutegenomics数据库还包含了来自ncbi的clinvar数据库的临床注释。tutegenomics首席科学官(cso)大卫?米特曼(davidmittelman)称,tutegenomics基因数据库是其他基因变异数据库的补充。
谷歌与tutegenomics的合作始于去年。当时,tutegenomicsceo雷德?罗比逊(reidrobison)与谷歌googlegenomics工程主管格雷泽在一次会议上相遇,发现两家的产品很适于合作。
米特曼说:我们对googlegenomics感到很兴奋,它不仅允许你存储基因数据,还能对其进行分析。在tutegenomics,我们的工作重心集中在整个注释层面,但基因变异的背后又意味着什么呢?如何与我们当前的已知内容结合起来呢?就是搜索引擎的任务了。
今年2月底,谷歌加入了全球基因组学与健康联盟(globalallianceforgenomicsandhealth),旨在推进基因组和临床数据的安全和有效共享。对于谷歌这种做法,米特曼表示支持。
米特曼说:如果你拥有一个知名品牌,招募了一群优秀的工程师,正在制定一个开放标准,这些就是成功的关键要素。如果想白手起家,从头打造自己的体验,或者与毫无经验的人合作,那意义不大。
米特曼认为,当前的基因组社区仍在探索研究与合作的方向,但他对谷歌正在打造的社区印象深刻。米特曼说:人们不只是想把数据上传到云端,他们还想进行适当的互动。谷歌的该战略就是测试市场的好方法,看看人们是否愿互动。如果人们能够积极互动,我相信将催生出更多创新。
googlegenomics产品经理秉海姆称,除了tutegenomics,谷歌还对与其他更多平台合作持开放态度。
tutegenomics首席科学官米特曼说:我们将继续在googlecloud平台上为我们的数据库打造一系列新工具和功能。这只是我们合作的开始,未来数月还会进行更深入地整合。
以上就是关于谷歌整合tutegenomics基因数据库的全部内容介绍,想要了解更多关于基因的相关内容,请查看基因治疗专题页面。