操作系统 百分网手机站

浅析海绵数据推出大数据操作系统Sponge

2018-05-16 08:40:13

  海绵数据近日宣布推出其第二代大数据操作系统产品Sponge。Sponge是一个简单多层,兼容完全POSIX兼容的分布式NFS、Hadoop,支持对象存储、云存储、SDS(软件定义存储)、容器机制,集成Spark为计算引擎,基于内存计算技术的分布式系统,将大数据的存储、管理和计算有机融合,具有实时一致性,易于兼容现有系统,相比10年前诞生的第一代产品Hadoop更加简单易用,易于扩展。仅仅有作为计算平台的Spark不足以应对大数据的挑战,整合后的Sponge技术框架,能够同时支持大数据、云存储、结构化、半结构化和非结构化数据的处理,代表了大数据的发展方向。

  简单 高效 可靠 经济

  今天已经没有人再怀疑大数据的价值,云计算、移动互联、物联网、机器学习、无人机等前沿技术的普及与大数据的发展相得益彰,不论在美国还是中国,大数据已经在很多的IT企业和传统企业开始落地,譬如互联网金融公司的反欺诈流程,电信运营商的客户服务分析,都贯穿着大数据和机器学习技术的应用,这也刺激着初创企业在这个领域寻找新的商业机会。

  目前普遍被采用来应对大数据的是开源软件与廉价的x86服务器的组合,这些开源产品包括Hadoop、Spark、Storm、NoSQL等。传统存储和数据库当然也针对大数据的需求升级,用来存储价值密度低的大量非结构化数据却不现实。这些原本被Google、Facebook、Yahoo等大公司验证在某些场景很成功的开源项目,也存在问题:不同功能模块对应多个相互独立的开源项目,为不同的目的而设计,其关系很复杂,缺乏通用性,系统部署和使用复杂而低效,二次开发困难,并且难以统一管理和监控,维护成本高,所以,需要有一个统一的平台。

  简单、高效、可靠、经济,这四个词,是海绵数据对第二代大数据操作系统的价值的追求,以及Sponge产品设计的理念。

  满足大量文件数据读写IO的高需求

  不同于以往以磁盘计算技术为核心的文件系统,SpongeFS将集群内存管理提升成为文件系统的重要组成部分,以满足大量文件数据读写IO的高需求。SpongeFS基于分布式设计,上文说的Masterless结构,以及模块化架构,正是由SpongeFS来操盘的。

  SpongeFS主要由集群管理层、文件管理层和存储层构成。当数据进入SpongeFS,就被分成一个个数据块,每个数据块通过文件管理层先存入缓存层,被加入集群间复制队列,一击加入到持久队列等待存入持久层,CDR则把持久层数据块复制到目标集群(目标群数据块也优先存到缓存层)。文件管理层的基本管理单位是Volume,每个Volume可以有不同的管理设置,如容错性、安全性、物理资源的使用等。