From 9f6d050edde79b24fd4a9f5ab98787f3c6ff5e16 Mon Sep 17 00:00:00 2001 From: liuyongyjy <5638160+liuyongyjy@user.noreply.gitee.com> Date: Thu, 21 Jan 2021 17:08:22 +0800 Subject: [PATCH] =?UTF-8?q?add=20=E5=BC=80=E6=BA=90=E6=95=85=E4=BA=8B/?= =?UTF-8?q?=E4=B8=80=E4=B8=AA=E7=A8=8B=E5=BA=8F=E7=8C=BF=E4=B8=8A=E5=A4=B4?= =?UTF-8?q?=E7=9A=84=E6=95=85=E4=BA=8B[=E5=BC=80=E6=BA=90/DataSphereStudio?= =?UTF-8?q?].md?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .../DataSphereStudio].md" | 66 +++++++++++++++++++ 1 file changed, 66 insertions(+) create mode 100644 "\345\274\200\346\272\220\346\225\205\344\272\213/\344\270\200\344\270\252\347\250\213\345\272\217\347\214\277\344\270\212\345\244\264\347\232\204\346\225\205\344\272\213[\345\274\200\346\272\220/DataSphereStudio].md" diff --git "a/\345\274\200\346\272\220\346\225\205\344\272\213/\344\270\200\344\270\252\347\250\213\345\272\217\347\214\277\344\270\212\345\244\264\347\232\204\346\225\205\344\272\213[\345\274\200\346\272\220/DataSphereStudio].md" "b/\345\274\200\346\272\220\346\225\205\344\272\213/\344\270\200\344\270\252\347\250\213\345\272\217\347\214\277\344\270\212\345\244\264\347\232\204\346\225\205\344\272\213[\345\274\200\346\272\220/DataSphereStudio].md" new file mode 100644 index 0000000..dcb190a --- /dev/null +++ "b/\345\274\200\346\272\220\346\225\205\344\272\213/\344\270\200\344\270\252\347\250\213\345\272\217\347\214\277\344\270\212\345\244\264\347\232\204\346\225\205\344\272\213[\345\274\200\346\272\220/DataSphereStudio].md" @@ -0,0 +1,66 @@ +## 猿粪: +本人是世界XXXL大厂的xxxxxxxx...s组小组组长一名,无头衔。迫于生计,去年开始陆续出去接客,接活。 +作为没见过大世面的搬砖小工头,见到客户,只会小声讲我们的产品能做数据的离线处理。没想到客户张口从叙利亚问题谈到美国总统大选,彷佛我们需要交付的特性直接关乎了世界和平。 + +经过几番周折和理解,基本上搞清了客户对于数据处理的主要诉求: +- **拖拉拽。** +- **一键式。** +- **智能。** +- **安全,安全,安全生产!** +- **明天能上线吗?** + +本人之前是接触过hue的,但是因为是java出身,没有用python做过工程,怕表演砸了饭碗,所以直接放弃了用Hue糊弄一下的想法。 +在度娘上徘徊了几圈,经过几番周折,终于从谷歌上搜到了托管在微软的github上的webank开源的linkis,最终也锁定了DSS。 + +## 解决的问题: + +1 **标配“拖拉拽”** +![拖拉拽](https://user-images.githubusercontent.com/34929067/99243847-35c23180-283c-11eb-9073-1a9d4c2bfd58.png) +2 **“轻松”一键式** + 1)界面上的一键开始,看图不解释。 +![开始](https://user-images.githubusercontent.com/34929067/99243843-35299b00-283c-11eb-87d2-94e2137bafb9.png) + 2)安装部署的一键式 + 1. 容器化后各个服务通信问题,注册到eurka上的示例通过ip加port方式。 + 2. 共同文件目录统一挂载,保证各个服务关键日志能被拿到。 + 3. hive spark客户端等配置文件统一挂载至容器外,方便因环境变化的修改。 + 4. 升级hive,hadoop的套件的版本,这里略去了一万字,最后结果还不错。 + 5. spark回调driver的问题。 + 6. 容器化以后读日志文件死锁问题。 + 7. dss容器化,quality容器化,schediuls容器化.... + 差点把大数据集群也搬进容器内了(捂脸)..... + + **折腾了小半年以后,小有收获,结果和微众银行的专家沟通后发现,开源版容器化即将发布... + 终于理解了习大大提倡的开放共享是多么重要,技术既要内循环也要外循环。** +![容器化](https://user-images.githubusercontent.com/34929067/99243845-35299b00-283c-11eb-9143-f6225a9fd48e.png) + +3 **语法智能提示,日志在线查看,看图不说话,用户想要的就是我们想要的。** +![语法提示](https://user-images.githubusercontent.com/34929067/99243849-365ac800-283c-11eb-86b3-67b4e850cbee.png) + +4 **不能出安全事故啊** + 1)元数据安全 + 开源出来的版本,metadata元数据例如hive,只支持jdbc查询方式,说白了要用户名密码,被用户无情拒绝。 + 我们也主要应对场景也主要分三个场景: + 1. 我们自己的大数据集群,可以采用jdbc方式查询元数据。 + 2. 适配kerberos,用HiveMetaStoreClient方式查询。 + 3. 适配 某为 大数据平台用的是webHcat。 +![代码](https://user-images.githubusercontent.com/34929067/99243837-335fd780-283c-11eb-8e10-5b1eb4e26a81.png) + 2)主数据安全方式 + 由于开源版本有租户概念,可以很好的做到用户安全访问,这里不过多描述。 + Todo:引入Ranger + 3)dss多系统https访问 + 产品没买安全证书,访问chrome还要点一下高级。dss多个系统是通过iframe嵌入的,为了不让上帝再多点一次“继续浏览不安全网址”, + 我们采用通过二次代理方法解决。 + +![ngnix配置](https://user-images.githubusercontent.com/34929067/99244404-fcd68c80-283c-11eb-9d6c-837816488628.png) + 为了多做项目,考了安全考试,签了涉密岗位,从此出国除了考虑新冠肺炎还要考虑信息安全,做项目不容易,客户安全了,我们才能稳定。 +5 **明天能上线吗?** + 能,但是,哥,能把标书让我们先给咱写了吗,这脏活累活就交给我们干吧。 + + +# 最佳实践&价值: +由于项目涉及太多,不便多说,我简单文字描述方案: + 1) 客户需求: 某市政务相关项目,统计各个局办事效率的排名。 + 2) demo演示: 数据开发编写脚本,数据可视化生成报表,数据流组织业务,scheduls调度起来,整个流程拉通且可视化。 + 3) 结果:拿下项目 + +**感受:最好的实践不一定是技术,而是能拿下项目,帮客户成功,让项目组的兄弟有肉吃,有劲干。** \ No newline at end of file -- Gitee