Iceberg 是一种适用于大型分析表的高性能格式。Iceberg将SQL表的可靠性和简单性带到了大数据中,同时使Spark,Trino,Flink,Presto,Hive和Impala等引擎能够安全地同时使用相同的表。
最近更新: 7个月前构建高性能的云原生数据 机器学习,大数据分析,海量存储的基础架构; MinIO支持各种应用程序数据工作负载; 在中国:阿里巴巴、腾讯、百度、中国联通、华为、中国移动等等9000多家企业也都在使用MinIO产品。 https://min.io/
最近更新: 8个月前JuiceFS 是一款面向云原生设计的高性能共享文件系统,在 Apache 2.0 开源协议下发布。提供完备的 POSIX 兼容性,可将几乎所有对象存储接入本地作为海量本地磁盘使用,亦可同时在跨平台、跨地区的不同主机上挂载读写。
最近更新: 8个月前Fluid, 在云上为大数据以及AI应用的弹性数据提供抽象和加速服务。提供面向底层多源异构数据源的云原生数据集抽象和多维度管理。基于分布式缓存的云上数据集预热加速,并支持可观察性、可移植性和可扩展性。兼顾应用特性和数据特性的云上应用/数据集协同调度,以进一步提升性能。
最近更新: 8个月前Curve 是一款高性能、轻量级操作的云原生开源分布式存储系统。曲线可应用于: 1)主流云原生基础设施平台OpenStack和Kubernetes; 2)云原生数据库的高性能存储; 3)云存储中间件使用S3兼容对象存储作为数据存储引擎,提供经济高效的共享文件存储。
最近更新: 8个月前Alluxio 是世界上第一个面向基于云的数据分析和人工智能的开源的数据编排技术。 它为数据驱动型应用和存储系统构建了桥梁, 将数据从存储层移动到距离数据驱动型应用更近的位置从而能够更容易被访问。在大数据生态系统中,Alluxio 位于数据驱动框架或应用(如 Apache Spark、Pres...
最近更新: 8个月前LakeSoul 是由数元灵科技研发的云原生湖仓一体框架,具备高可扩展的元数据管理、ACID 事务、高效灵活的 upsert 操作、Schema 演进和批流一体化处理等特性。
最近更新: 2年前数据湖上的 Serverless SQL Apache Kyuubi (Incubating),一个分布式和多租户网关,用于在 Lakehouse 上提供 Serverless SQL。
最近更新: 2年前Apache Kylin是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。Kylin 是一个开源的的分布式的,针对大数据场景下的高性能分析型...
最近更新: 2年前Apache Hudi(发音为“hoodie”)是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi 提供表、事务、高效的更新插入/删除、高级索引、流式引入服务、数据聚类/压缩优化和并发性,同时以开源文件格式保留数据。 Apache Hudi不仅非常...
最近更新: 2年多前这是一个来自Gazelle-plugin项目。Gazelle插件中的JVM代码和原生代码是紧密耦合的。这使得利用其他本机SQL库变得非常困难。此项目的主要目标是将Spark JVM 和 JNI 层与本机 SQL 执行引擎分离。因此,我们可以轻松启用不同的本机SQL库,但共享所有常见的JVM代码...
最近更新: 2年多前