# druid_learn **Repository Path**: xiwanggit/druid_learn ## Basic Information - **Project Name**: druid_learn - **Description**: druid部署&学习 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2020-09-11 - **Last Updated**: 2021-05-28 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ### 概要介绍 * router:http://ip:8888,也称之为console,是新版Druid的统一入口。 * Coordinator:http://ip:8081,用于查看segments存储情况,并设置rule加载和丢弃segments。 * 负责 segments 的管理,如 segments 下载、删除以及如何在 historical 之间做均衡等等。 * broker:http://ip:8082 * 阶段负责查询任务的分发以及查询结果的汇总,并将结果返回给用户 * historical:http://ip:8083 * 节点负责索引后的历史数据的存储,数据存储在 deep storage。Deep storage 可以是本地,也可以是HDFS 等分布式文件系统。 * middlemanager:http://ip:8091 * 负责索引任务的具体执行。 * Zookeeper: 负责存储集群的状态以及作为服务发现组件,例如集群的拓扑信息、overlord leader 的选举、indexing task 的管理等等 ### 相关操作 * [kafka的测试验证](https://gitee.com/xiwanggit/druid_learn/blob/master/note/kafka%E6%B5%8B%E8%AF%95%E9%AA%8C%E8%AF%81.md) ### Druid操作 * [数据写入](https://www.apache-druid.cn/Tutorials/chapter-1.html) * [本地数据](https://gitee.com/xiwanggit/druid_learn/blob/master/note/write_local.md) * [Kafka数据](https://gitee.com/xiwanggit/druid_learn/blob/master/note/write_kafka.md) * [数据读取](https://www.apache-druid.cn/Tutorials/chapter-4.html) * [DQL](https://www.apache-druid.cn/Querying/druidsql.html) * [Time Boundary Queries](https://druid.apache.org/docs/latest/querying/timeboundaryquery.html): 用于查询全部数据的时间跨度 * [groupBy Queries](https://druid.apache.org/docs/latest/querying/groupbyquery.html): 是Druid的最典型查询方式,非常类似于Mysql的groupBy查询。query body中几个元素可以这么理解: * `aggregation`: 对应mysql `select XX from`部分,即你想查哪些列的聚合结果; * `dimensions`: 对应mysql `group by XX`,即你想基于哪些列做聚合; * `filter`: 对应mysql `where XX`条件,即过滤条件; * `granularity`: 数据聚合的粒度; * [Timeseries queries](https://druid.apache.org/docs/latest/querying/timeseriesquery.html): 其统计满足`filter`条件的`rows`上某几列的聚合结果,相比`groupBy Queries`不指定基于哪几列进行聚合,效率更高; * [TopN queries](https://druid.apache.org/docs/latest/querying/topnquery.html): 用于查询某一列上按照某种`metric`排序的最常见的`N`个`values`; * [流式处理](https://www.apache-druid.cn/DataIngestion/kafka.html) * [批处理](https://www.apache-druid.cn/DataIngestion/native.html) * 代码操作 * [Python](https://pypi.org/project/pydruid/) * http://druidio.cn/ * http://www.apache-druid.cn/GettingStarted/chapter-4.html * https://zhuanlan.zhihu.com/p/67607200