# HuaweiCloud-Beam-plugins **Repository Path**: HuaweiCloudDeveloper/huaweicloud-beam-plugins ## Basic Information - **Project Name**: HuaweiCloud-Beam-plugins - **Description**: Beam对接华为云OBS,Nosql,DMS,SMN,DLI等云服务 - **Primary Language**: Unknown - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2023-03-14 - **Last Updated**: 2025-06-16 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## Beam ### 项目背景 Apache Beam是大数据的编程模型,定义了数据处理的编程范式和接口,它并不涉及具体的执行引擎的实现,但是,基于Beam开发的数据处理程序可以执行在任意的分布式计算引擎上,目前Dataflow、Spark、Flink、Apex提供了对批处理和流处理的支持,GearPump提供了流处理的支持,Storm的支持也在开发中。综上所述,Apache Beam的目标是: 1. 提供统一批处理和流处理的编程范式 2. 能运行在任何可执行的引擎之上 为无限、乱序、互联网级别的数据集处理提供简单灵活、功能丰富以及表达能力十分强大的SDK。 ![img](./images/beam_1.png) 参考资料:https://blog.51cto.com/jiagoushipro/5416624 https://www.jianshu.com/p/68e7bd3bbbfc https://www.ytso.com/9890.html ... ### 扩展说明 **aws的扩展实现比较齐全,包括测试类总代码量在25000+,扩展难度和工作量比较大。azure的实现目测只有对象存储blobstorage的扩展;开发者可以自行选择,如果觉得各方面约束不足以完成对标aws的扩展,可以优先完成对应对象存储的扩展,其他功能后续再迭代** 注意:从社区拉取代码时,使用命令拉取,直接下载zip包会缺失一些文件,导致构建失败 | 扩展对象 | 对标 | 参考代码路径 | 工作量对照(代码行) | | -------- | ---------------------- | ------------------------------------------ | -------------------- | | NoSql | aws-dynamodb | sdks/java/io/amazon-web-services2/dynamodb | 1000+ | | DLI | aws-cloudwatch | hudi-aws/org.apache.hudi.aws.kinesis | 5000+ | | OBS | aws-s3/azure-blobstore | hudi-aws/org.apache.hudi.aws.s3 | 2000+ | | SMN | aws-sns | hudi-aws/org.apache.hudi.aws.sns | 1100+ | | DMS | aws-sqs | hudi-aws/org.apache.hudi.aws.sqs | 1700+ | - SDK : https://github.com/huaweicloud/huaweicloud-sdk-java-v3 - 以上的参考代码路径和功能要求中所列出的包/类路径,只是主要逻辑代码的参考路径,会存在项目本身扩展逻辑相关的少量代码不在此列 - 本代码扩展的最后一步是将代码共享到hudi社区,达到最终由社区开发者同步维护的目的,所以要求代码风格良好,代码注释全且全英文,文档以及相关测试代码必须齐全才算完整交付 - 相关代码开发工作 - 其他非开发者工作量(多种架构一键部署方案,脚本等等) [^备注]: 扩展要求,当对标产品与华为云产品都支持的功能,参数时,要求至少达到对标产品的丰富扩展;当对标产品有,华为云无时,可以不做。当华为云有,对标产品无时,鼓励进行扩展,非核心功能不强制要求,即要求在扩展完成度上 **华为云 >= 对标产品**