时下,一大批新型数据库急剧涌现,诸如googlespanner、faunadb、cockroach以及timescaledb等等,这些数据库都在专注解决影响标准sql的规模问题。现在,另一位来自中国北京的竞争者——pingcap开源的tidb项目,旨在维持acid事务的同时,使sql也具备nosql系统的可伸缩性。
pingcap联合创始人兼首席执行官刘奇表示,该项目全面支持mysql协议,也就意味着用户可以重新利用mysql工具,大大减少迁移成本。在多数情况下,用户甚至无需修改应用程序的任何代码即可取代mysql。另外它是横向扩展的,通过简单地增加机器数量就可以提高性能。
去年十月,刘奇在阿姆斯特丹的perconalive会议上提出了tidb项目,彼时项目还处于测试阶段,目前项目已进化到候选版本。本周四,pingcap联合创始人兼首席技术官爱德华黄将在加州,圣克拉拉的perconalive会议上披露tidb项目的新进展。
他们认为tidb兼具sql和nosql的优势,并且致力于使它:
易于使用;
确保数据不会丢失,故障情况下自我修复;
跨平台且可以在任何环境中运行;
开源。
该项目还允许模式在线变化,所以可以根据实际需求来修改模式。此外,在不影响业务进展的前提下,用户还可以添加新列和索引。
在某次邮件采访中,刘奇提到:作为一个开源项目,tidb已有超过100名贡献者。
tidb项目灵感来源于googlef1分布式数据库及googlespanner。google在自己的专有系统上建立了spanner,并不开源,这在一部分人看来是个缺点。
“如果使用spanner,用户即默认承诺在gce(googlecomputeengine)运行服务,并有可能贯穿服务的整个生命周期。即使用户选择运行自己的堆栈,也不会出栈。”cockroachlabs首席执行官spencerkimball此前曾向thenewstack透露。
tidb采用松散耦合的方法,由一个mysqlserver层和sql层组成,其基础是开源分布式事务键-值数据库tikv。tikv是另一个pingcap项目,使用rust编程语言和分布式协议raft,而tidb用的是go编程语言。tikv项目内含mvcc(多版本并发控制)、raft以及使用rocksdb的本地键值存储等功能,它同样使用sparkconnector。
刘奇表示,tidb与spanner相比较有两点不同:
spanner底层依赖于google的colossus分布式文件系统,但tidb可以确保安全日志存储在raft层。也就是说tidb不依赖任何分布式文件系统,大大降低了写入延迟。
“我们还看到了sql优化器的巨大潜力,但google似乎并不打算在f1项目中深入研究这方面。在设计我们的项目时,我们就旨在探索优化器的能力,”他说。
受益于原子钟的使用,spanner获得了广泛关注,用户可以借助它在地理分布的数据中心间获得时间同步。tidb没有使用原子钟和gps时钟,相反,它依靠percolator(2006年google发表的一篇论文)中所介绍的timestampallocator。
tidb支持流行的容器技术,例如docker。目前团队正在致力于对kubernetes提供支持,刘奇表示,这方面工作中的难点,在之前的阿姆斯特丹会议上恰好提到过。
现在他们正在努力解决的最大问题是延迟,尤其是地理分布的数据中心之间存在的延迟,他希望这一问题能在不久的将来得到解决。
pingcap由高级分布式系统工程师黄东旭、高级系统工程师崔秋以及基础设施工程师刘奇共同创立于2015年4月,它有48个在北京的工程师和其他来自中国各地的远程工作者。
其客户包括手机游戏提供商gaea,它使用tidb支持跨平台的实时广告系统,这要求面对大容量数据时能够在一定期限内具备高峰负荷能力和经验。tidb支持自动分片和底层,tikv自动分配集群中的数据,帮助gaea降低操作和维护的成本。