# druid_learn

**Repository Path**: xiwanggit/druid_learn

## Basic Information

- **Project Name**: druid_learn
- **Description**: druid部署&学习
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 1
- **Created**: 2020-09-11
- **Last Updated**: 2021-05-28

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

###  概要介绍
* router：http://ip:8888，也称之为console，是新版Druid的统一入口。
* Coordinator：http://ip:8081，用于查看segments存储情况，并设置rule加载和丢弃segments。
  *  负责 segments 的管理，如 segments 下载、删除以及如何在 historical 之间做均衡等等。
* broker：http://ip:8082
  *  阶段负责查询任务的分发以及查询结果的汇总，并将结果返回给用户
* historical：http://ip:8083
  *  节点负责索引后的历史数据的存储，数据存储在 deep storage。Deep storage 可以是本地，也可以是HDFS 等分布式文件系统。
* middlemanager：http://ip:8091
  *  负责索引任务的具体执行。
* Zookeeper： 负责存储集群的状态以及作为服务发现组件，例如集群的拓扑信息、overlord leader 的选举、indexing task 的管理等等

###  相关操作
*  [kafka的测试验证](https://gitee.com/xiwanggit/druid_learn/blob/master/note/kafka%E6%B5%8B%E8%AF%95%E9%AA%8C%E8%AF%81.md)

###  Druid操作
*  [数据写入](https://www.apache-druid.cn/Tutorials/chapter-1.html)
   *  [本地数据](https://gitee.com/xiwanggit/druid_learn/blob/master/note/write_local.md)
   *  [Kafka数据](https://gitee.com/xiwanggit/druid_learn/blob/master/note/write_kafka.md)

*  [数据读取](https://www.apache-druid.cn/Tutorials/chapter-4.html)
   *  [DQL](https://www.apache-druid.cn/Querying/druidsql.html)
   *  [Time Boundary Queries](https://druid.apache.org/docs/latest/querying/timeboundaryquery.html): 用于查询全部数据的时间跨度
   *  [groupBy Queries](https://druid.apache.org/docs/latest/querying/groupbyquery.html): 是Druid的最典型查询方式，非常类似于Mysql的groupBy查询。query body中几个元素可以这么理解：
      *  `aggregation`: 对应mysql `select XX from`部分，即你想查哪些列的聚合结果;
      *  `dimensions`: 对应mysql `group by XX`，即你想基于哪些列做聚合;
      *  `filter`: 对应mysql `where XX`条件，即过滤条件；
      *  `granularity`: 数据聚合的粒度;
   *  [Timeseries queries](https://druid.apache.org/docs/latest/querying/timeseriesquery.html): 其统计满足`filter`条件的`rows`上某几列的聚合结果，相比`groupBy Queries`不指定基于哪几列进行聚合，效率更高;
   *  [TopN queries](https://druid.apache.org/docs/latest/querying/topnquery.html): 用于查询某一列上按照某种`metric`排序的最常见的`N`个`values`;

*  [流式处理](https://www.apache-druid.cn/DataIngestion/kafka.html)
*  [批处理](https://www.apache-druid.cn/DataIngestion/native.html)

*  代码操作
   * [Python](https://pypi.org/project/pydruid/)

* http://druidio.cn/
* http://www.apache-druid.cn/GettingStarted/chapter-4.html
* https://zhuanlan.zhihu.com/p/67607200