diff --git "a/\345\274\200\346\272\220\346\225\205\344\272\213/\344\270\200\344\270\252\347\250\213\345\272\217\347\214\277\344\270\212\345\244\264\347\232\204\346\225\205\344\272\213[\345\274\200\346\272\220/DataSphereStudio].md" "b/\345\274\200\346\272\220\346\225\205\344\272\213/\344\270\200\344\270\252\347\250\213\345\272\217\347\214\277\344\270\212\345\244\264\347\232\204\346\225\205\344\272\213[\345\274\200\346\272\220/DataSphereStudio].md" new file mode 100644 index 0000000000000000000000000000000000000000..b4e4460859aa9600a031f73eb458c173476f1fd0 --- /dev/null +++ "b/\345\274\200\346\272\220\346\225\205\344\272\213/\344\270\200\344\270\252\347\250\213\345\272\217\347\214\277\344\270\212\345\244\264\347\232\204\346\225\205\344\272\213[\345\274\200\346\272\220/DataSphereStudio].md" @@ -0,0 +1,55 @@ +## 猿粪: +本人是世界XXXL大厂的xxxxxxxx...s组小组组长一名,无头衔,被统称”打工人“,”代码搬运工“,”程序猿“,“大数据攻城狮”。迫于生计,去年开始陆续出去接客,接活。 作为没见过大世面的搬砖小工头,见到客户,只会小声讲我们的产品能做数据的离线处理。没想到客户张口从叙利亚问题谈到美国总统大选,彷佛我们需要交付的特性直接关乎了世界和平。 + +经过几番周折和理解,基本上搞清了客户对于大数据处理的主要诉求: +- **拖拉拽。** +- **一键式。** +- **智能。** +- **安全,安全,安全生产!** +- **明天能上线吗?** + +本人之前是研究过过开源项目Hue的,但是因为是java出身,没有用python做过工程,怕表演砸了饭碗,所以直接放弃了用Hue糊弄一下的想法。 + +在度娘上徘徊了几圈,经过几番周折,终于从谷歌上搜到了托管在微软的github上的webank开源的linkis,最终也锁定了DSS。 +https://github.com/WeBankFinTech/DataSphereStudio + +## 与DSS的爱恨情仇: + +**一见钟情** + +茫茫开源代码中,与DSS一见钟情,因为它是大家(webank)“闺秀”,既有靓丽的统一门户,又有”拖拉拽“”一键式“的内涵。开箱即用的特性,是我们产生火花的原因。只是因为在github上多看了它一眼,便开始了我们产品和开源产品DDS的”恋爱旅程“。 + +**磨合** + +相识久了,越来越熟悉,就会发现相互的优缺点,当然随着时间这把杀猪刀的砍杀,缺点会被放得很大。我们在享用开源DSS给我们带来得便捷得同时,也发现了我们逐渐爆发的矛盾,例如它页面风格不是我们想要的,可能是认识久了,再美丽得面孔也有看烦的一天;再例如它总是有各种各样的小毛病,需要我们帮着它去改进;我们需要磨合。 + +**怀疑** +当我们的人都忙于定制化开发以及修改bug时,大家开始自我怀疑,我们与DDS这段情缘是不是到头了,它的架构是否能支撑我们的产品的未来?它的不足,我们是否有必要去弥补? + +**携手并进,共创未来** +终于有一天,我们想清楚了,我们和DDS是合适的,我们是有未来的,但是我们需要共同创造!我们借用开源的DSS迅速构建我们的产品,同时我们也要携手DDS,帮助DDS成长,成熟。凡是爱,都需要相互付出,生活如此,参与开源项目亦如此!我们的故事未完待续..... + +**ps: 彩蛋** +场景一 +我们基于DDS代码做了容器化的工作及解决很多问题,例如: + 1. 容器化后各个服务通信问题,注册到eurka上的示例通过ip加port方式。 + 2. 共同文件目录统一挂载,保证各个服务关键日志能被拿到。 + 3. hive spark客户端等配置文件统一挂载至容器外,方便因环境变化的修改。 + 4. 升级hive,hadoop的套件的版本,这里略去了一万字,最后结果还不错。 + 5. spark回调driver的问题。 + 6. 容器化以后读日志文件死锁问题。 + 7. dss容器化,quality容器化,schediuls容器化.... + 差点把大数据集群也搬进容器内了(捂脸)..... + +**折腾了小半年以后,小有收获,结果和微众银行的专家沟通后发现,开源版容器化即将发布... ** + # 终于理解了习大大提倡的开放共享是多么重要,同理技术既需要内循环也需要外循环。 + +场景二 + +与DSS的最佳实践 +由于项目涉及太多,不便多说,我简单文字描述方案: + 1) 客户需求: 某市政务相关项目,统计各个局办事效率的排名。 + 2) demo演示:利用DSS的 数据开发编写脚本,数据可视化生成报表,数据流组织业务,scheduls调度起来,整个流程拉通且可视化。 + 3) 结果:拿下项目 + +**感受:最好的实践不一定是技术,而是能迅速拿下项目,帮客户成功,让项目组的兄弟有肉吃,有劲干。**