From 1fd70cb553fa260bc1e5203318dca824a5450dce Mon Sep 17 00:00:00 2001 From: wo_cow Date: Sun, 28 Apr 2024 18:50:21 +0800 Subject: [PATCH] update gopher tech --- gopher_tech.md | 392 +++++++++++++++++++++++++++++-------------------- 1 file changed, 233 insertions(+), 159 deletions(-) diff --git a/gopher_tech.md b/gopher_tech.md index a66a231..20748b7 100644 --- a/gopher_tech.md +++ b/gopher_tech.md @@ -12,6 +12,9 @@ | cpu_num | system_os | label | | CPU核数 | | memory_MB | system_os | label | | 内存总量(MB) | | ip_addr | system_os | label | | 所有的IP地址 | +| host_type | system_os | label | | 主机类型(vm或pm) | +| clock_ticks | system_os | label | Hz | 系统tick计数 | +| os_btime | system_os | label | | 系统启动时间 | | value | system_os | gauge | | 一个固定值作为metric,无实际意义 | ### CPU @@ -28,11 +31,15 @@ | user_msec | system_cpu | gauge | ms | 用户态cpu占用时间(不包括nice) | | nice_msec | system_cpu | gauge | ms | nice用户态cpu占用时间(低优先级) | | system_msec | system_cpu | gauge | ms | 内核态cpu占用时间 | +| idle_msec | system_cpu | gauge | ms | 空闲状态占用时间 | | iowait_msec | system_cpu | gauge | ms | 等待I/O完成的时间 | | irq_msec | system_cpu | gauge | ms | 硬中断时间 | | softirq_msec | system_cpu | gauge | ms | 软中断时间 | +| steal_msec | system_cpu | gauge | ms | 被盗时间 | | backlog_drops | system_cpu | gauge | | softnet_data队列满而丢弃报文数量 | | rps_count | system_cpu | gauge | | CPU收到的RPS次数 | +| util_per | system_cpu | gauge | % | CPU利用率 | +| mhz | system_cpu | gauge | Mhz | CPU时钟频率 | | total_used_per | system_cpu_util | gauge | % | CPU总利用率 | ### 内存 @@ -41,45 +48,62 @@ 实体名:mem -| metrics_name | metrics_type | unit | metrics description | -| ------------- | ------------ | ---- | ------------------------------------------------------ | -| available_kB | gauge | KB | 系统可用内存 | -| util | gauge | % | 系统内存使用率 | -| cache_kB | gauge | KB | 系统可用cache大小 | -| active_kB | gauge | KB | 系统活跃cache大小 | -| inactive_kB | gauge | KB | 非活跃cache大小 | -| swap_util | gauge | % | 交换区的使用率 | -| dentry | gauge | | dentry已占用的数量(注意dentry数量过多会引起系统卡顿) | -| unused_dentry | gauge | | dentry未使用的数量 | +| metrics_name | metrics_type | unit | metrics description | +| ------------- | ------------ | ---- | ------------------- | +| infos | key | | 内存索引 | +| total_kB | gauge | KB | 系统总内存 | +| free_kB | gauge | KB | 未分配物理内存 | +| available_kB | gauge | KB | 系统可用内存 | +| util | gauge | % | 系统内存使用率 | +| buffers_kB | gauge | KB | 块设备占用cache大小 | +| cache_kB | gauge | KB | 系统可用cache大小 | +| active_kB | gauge | KB | 系统活跃cache大小 | +| inactive_kB | gauge | KB | 非活跃cache大小 | +| swap_total_kB | gauge | KB | 可用swap空间 | +| swap_free_kB | gauge | KB | 剩余swap空间 | +| swap_util | gauge | % | 交换区的使用率 | #### 内核内存 实体名:mem -| metrics_name | metrics_type | unit | metrics description | 支持 | -| ------------ | ------------ | ---- | ------------------------------------------------------------ | ----- | -| kern_kB | gauge | KB | Linux内核所占内存 | TO BE | -| slab_kB | gauge | KB | Linux内核态小内存分配器所分配的内存(总计、可回收、不可回收) | TO BE | -| page_kB | gauge | KB | 页表内存 | TO BE | -| vmalloc_kB | gauge | KB | Linux内核通过Vmalloc分配的内存 | TO BE | -| stack_kB | gauge | KB | 进程的内核堆栈总和 | TO BE | -| allocPage_kB | gauge | KB | Linux内核调用AllocPage申请的内存 | TO BE | +| metrics_name | metrics_type | unit | metrics description | 支持 | +| --------------- | ------------ | ---- | ------------------------------------------------------------ | ----- | +| kern_kB | gauge | KB | Linux内核所占内存 | | +| slab_kB | gauge | KB | Linux内核态小内存分配器所分配的内存(总计、可回收、不可回收) | | +| SReclaimable_kB | gauge | KB | 可回收slab大小 | | +| Unreclaim_kB | gauge | KB | 不可回收slab大小 | | +| page_kB | gauge | KB | 页表内存 | | +| vmalloc_kB | gauge | KB | Linux内核通过Vmalloc分配的内存 | | +| stack_kB | gauge | KB | 进程的内核堆栈总和 | | +| allocPage_kB | gauge | KB | Linux内核调用AllocPage申请的内存 | TO BE | #### 应用内存 实体名:mem -| metrics_name | metrics_type | unit | metrics description | 支持 | -| ---------------- | ------------ | ---- | ------------------------------------------------------------ | ----- | -| active_file_kB | gauge | KB | 文件缓存(活动) | TO BE | -| inactive_file_kB | gauge | KB | 文件缓存(非活动) | TO BE | -| active_anon_kB | gauge | KB | 匿名内存(活动) | TO BE | -| inactive_anon_kB | gauge | KB | 匿名内存(非活动) | TO BE | -| mlock | gauge | KB | 系统调用锁定内存 | TO BE | -| big_page_kB | gauge | KB | 系统大页内存大小 | TO BE | -| shmem_kB | gauge | KB | 共享内存(tmpfs)。业务进程退出后,经常会忘记删除tmpfs文件,或者在打开状态直接删掉tmpfs文件,都会操作shmem泄露。 | TO BE | +| metrics_name | metrics_type | unit | metrics description | +| ---------------- | ------------ | ---- | ------------------------------------------------------------ | +| active_file_kB | gauge | KB | 文件缓存(活动) | +| inactive_file_kB | gauge | KB | 文件缓存(非活动) | +| active_anon_kB | gauge | KB | 匿名内存(活动) | +| inactive_anon_kB | gauge | KB | 匿名内存(非活动) | +| mlocked | gauge | KB | 系统调用锁定内存 | +| big_page_kB | gauge | KB | 系统大页内存大小 | +| shmem_kB | gauge | KB | 共享内存(tmpfs)。业务进程退出后,经常会忘记删除tmpfs文件,或者在打开状态直接删掉tmpfs文件,都会操作shmem泄露。 | + +#### 目录项 + +实体名:mem +| metrics_name | metrics_type | unit | metrics description | +| ------------- | ------------ | ---- | ------------------------------------------------------ | +| infos | key | | 内存索引 | +| dentry | gauge | | dentry已占用的数量(注意dentry数量过多会引起系统卡顿) | +| unused_dentry | gauge | | dentry未使用的数量 | +| age_limit | gauge | s | 当内存紧缺时,延迟多少秒后会回收dentry | +#### ### 磁盘 @@ -101,6 +125,25 @@ | aqu | gauge | | 平均队列深度 | | util | gauge | % | 磁盘使用率 | +#### 磁盘空间占用统计 + +实体名:disk + +| metrics_name | metrics_type | unit | metrics description | +| ------------ | ------------ | ---- | ---------------------------------- | +| MountOn | key | | 文件系统的挂载点 | +| MountStatus | label | | 挂载状态 | +| Fsname | label | | 文件系统名称 | +| Fstype | label | | 文件系统类型 | +| Inodes | label | | 节点容量 | +| IUsed | gauge | | 已使用节点 | +| IFree | gauge | | 未使用节点 | +| IUsePer | gauge | % | 已使用节点占比 | +| Blocks | gauge | | 分区包含的数据块(1024字节)的数目 | +| Used | gauge | | 已用数据块数目 | +| Free | gauge | | 可用数据块数目 | +| UsePer | gauge | % | 普通用户空间使用百分比 | + #### Block统计 实体名:block @@ -112,24 +155,28 @@ | blk_type | label | | 块对象类型(比如disk, part) | | | blk_name | label | | 块对象名称 | | | disk_name | label | | 所属磁盘名称 | | -| latency_req_max | Gauge | ns | block层I/O操作时延最大值 | | -| latency_req_last | Gauge | ns | block层I/O操作时延最近值 | | -| latency_req_sum | Gauge | ns | block层I/O操作时延总计值 | | -| latency_req_jitter | Gauge | ns | block层I/O操作时延抖动 | | -| count_latency_req | Gauge | | block层I/O操作操作次数 | | -| latency_driver_max | Gauge | ns | 驱动层时延最大值 | | -| latency_driver_last | Gauge | ns | 驱动层时延最近值 | | -| latency_driver_sum | Gauge | ns | 驱动层时延最总计值 | | -| latency_driver_jitter | Gauge | ns | 驱动层时延抖动 | | -| count_latency_driver | Gauge | | 驱动层操作次数 | | -| latency_device_max | Gauge | ns | 设备层时延最大值 | | -| latency_device_last | Gauge | ns | 设备层时延最近值 | | -| latency_device_sum | Gauge | ns | 设备层时延最总计值 | | -| latency_device_jitter | Gauge | ns | 设备层时延抖动 | | -| count_latency_device | Gauge | | 设备层操作次数 | | -| err_code | Gauge | | block层I/O操作错误码 | | -| read_bytes | Gauge | bytes | I/O操作读字节数 | | -| write_bytes | Gauge | bytes | I/O操作写字节数 | | +| latency_req_max | gauge | ns | block层I/O操作时延最大值 | | +| latency_req_last | gauge | ns | block层I/O操作时延最近值 | | +| latency_req_sum | gauge | ns | block层I/O操作时延总计值 | | +| latency_req_jitter | gauge | ns | block层I/O操作时延抖动 | | +| count_latency_req | gauge | | block层I/O操作操作次数 | | +| latency_driver_max | gauge | ns | 驱动层时延最大值 | | +| latency_driver_last | gauge | ns | 驱动层时延最近值 | | +| latency_driver_sum | gauge | ns | 驱动层时延最总计值 | | +| latency_driver_jitter | gauge | ns | 驱动层时延抖动 | | +| count_latency_driver | gauge | | 驱动层操作次数 | | +| latency_device_max | gauge | ns | 设备层时延最大值 | | +| latency_device_last | gauge | ns | 设备层时延最近值 | | +| latency_device_sum | gauge | ns | 设备层时延最总计值 | | +| latency_device_jitter | gauge | ns | 设备层时延抖动 | | +| count_latency_device | gauge | | 设备层操作次数 | | +| err_code | gauge | | block层I/O操作错误码 | | +| read_bytes | gauge | bytes | I/O操作读字节数 | | +| write_bytes | gauge | bytes | I/O操作写字节数 | | +| access_pagecache | gauge | | 访问过的页数 | | +| mark_buffer_dirty | gauge | | 脏buffer个数 | | +| load_page_cache | gauge | | LRU队列缓存页数 | | +| mark_page_dirty | gauge | | 脏page个数 | | @@ -178,38 +225,39 @@ | metrics_name | metrics_type | unit | metrics description | | -------------------------------------- | ------------ | ------- | ----------------------------------------------- | -| cpu_usage_seconds_total | Gauge | seconds | 容器一秒时间内的整体CPU负载,包括所有CPU Core | -| cpu_system_seconds_total | Gauge | seconds | 容器一秒时间内的系统态CPU负载,包括所有CPU Core | -| cpu_user_seconds_total | Gauge | seconds | 容器一秒时间内的用户态CPU负载,包括所有CPU Core | -| memory_mapped_file | Gauge | bytes | 容器映射文件占用大小 | -| memory_cache | Gauge | bytes | 容器Cache内存占用大小 | -| memory_rss | Gauge | bytes | 容器物理内存占用大小 | -| memory_working_set_bytes | Gauge | bytes | 容器实际占用内存大小(更具参考意义) | -| container_memory_usage_bytes | Gauge | bytes | 容器总共占用内存大小 | -| oom_events_total | Gauge | num | 容器内OOM次数 | -| network_receive_bytes_total | Gauge | bytes | 容器内网络接收统计 | -| network_transmit_bytes_total | Gauge | bytes | 容器内网络发送统计 | -| network_receive_errors_total | Gauge | num | 容器内网络异常统计(接收错误) | -| network_receive_packets_dropped_total | Gauge | num | 容器内网络异常统计(接收丢弃) | -| network_transmit_errors_total | Gauge | num | 容器内网络异常统计(发送错误) | -| network_transmit_packets_dropped_total | Gauge | num | 容器内网络异常统计(发送丢弃) | -| fs_reads_bytes_total | Gauge | bytes | 容器I/O读写字节统计 (读) | -| fs_writes_bytes_total | Gauge | bytes | 容器I/O读写字节统计 (写) | -| container_file_descriptors | Gauge | num | 容器内文件句柄数量 | -| fs_read_seconds_total | Gauge | seconds | 容器I/O读写时间 | -| fs_write_seconds_total | Gauge | seconds | 容器I/O读写时间 | -| fs_inodes_free | Gauge | num | 容器内inode资源统计(空闲) | -| fs_inodes_total | Gauge | num | 容器内inode资源统计(总计) | -| cpu_cfs_throttled_seconds_total | Gauge | seconds | 容器限流 | +| container_id | key | | 容器ID | +| cpu_usage_seconds_total | gauge | seconds | 容器一秒时间内的整体CPU负载,包括所有CPU Core | +| cpu_system_seconds_total | gauge | seconds | 容器一秒时间内的系统态CPU负载,包括所有CPU Core | +| cpu_user_seconds_total | gauge | seconds | 容器一秒时间内的用户态CPU负载,包括所有CPU Core | +| cpu_cfs_throttled_seconds_total | gauge | seconds | 容器限流 | +| memory_mapped_file | gauge | bytes | 容器映射文件占用大小 | +| memory_cache | gauge | bytes | 容器Cache内存占用大小 | +| memory_rss | gauge | bytes | 容器物理内存占用大小 | +| memory_working_set_bytes | gauge | bytes | 容器实际占用内存大小(更具参考意义) | +| start_time_seconds | gauge | seconds | 容器启动时间 | +| oom_events_total | gauge | num | 容器内OOM次数 | +| network_receive_bytes_total | gauge | bytes | 容器内网络接收统计 | +| network_transmit_bytes_total | gauge | bytes | 容器内网络发送统计 | +| network_receive_errors_total | gauge | num | 容器内网络异常统计(接收错误) | +| network_receive_packets_dropped_total | gauge | num | 容器内网络异常统计(接收丢弃) | +| network_transmit_errors_total | gauge | num | 容器内网络异常统计(发送错误) | +| network_transmit_packets_dropped_total | gauge | num | 容器内网络异常统计(发送丢弃) | +| fs_reads_bytes_total | gauge | bytes | 容器I/O读写字节统计 (读) | +| fs_writes_bytes_total | gauge | bytes | 容器I/O读写字节统计 (写) | +| fs_read_seconds_total | gauge | seconds | 容器I/O读写时间 | +| fs_write_seconds_total | gauge | seconds | 容器I/O读写时间 | +| fs_inodes_free | gauge | num | 容器内inode资源统计(空闲) | +| fs_inodes_total | gauge | num | 容器内inode资源统计(总计) | +| file_descriptors | gauge | num | 容器内文件句柄数量 | ## 容器读写性能 实体名:container -| metrics_name | metrics_type | unit | metrics description | -| ------------ | ------------ | ------- | ---------------------------- | -| dir | Label | | 观测容器指定目录 | -| write_rate | Gauge | bytes/s | 容器往上述指定目录写入的速率 | +| metrics_name | table_name | metrics_type | unit | metrics description | +| ------------ | ------------- | ------------ | ------- | ---------------------------- | +| dir | system_con_io | label | | 观测容器指定目录 | +| write_rate | system_con_io | gauge | bytes/s | 容器往上述指定目录写入的速率 | ## GPU/NPU @@ -293,80 +341,94 @@ #### 应用性能 -| metrics_name | metrics_type | unit | metrics description | -| ------------ | ------------ | ---- | ------------------------------------------------------------ | -| req_count | gauge | num | 应用客户端请求数量(用于计算请求速率qps) | -| resp_count | gauge | num | 应用服务端应答数量(用于计算应答速率qps) | -| err_count | gauge | num | 应用服务端错误次数(用于计算错误率:err_count /resp_count) | -| latency_sum | gauge | us | 应用请求时延总和(用于计算平均请求时延:latency_sum/req_count,平均应答时延:latency_sum/resp_count) | -| srtt | gauge | us | 进程TCP时延(tcp_link实体) | -| iowait_ns | gauge | us | 进程I/O阻塞时延(proc实体) | -| cpu | gauge | % | 进程CPU使用率(proc实体) | +| metrics_name | metrics_type | unit | metrics description | +| --------------- | ------------ | ----- | ------------------------------------------------------------ | +| bytes_sent | gauge | bytes | 应用发送字节数 | +| bytes_recv | gauge | bytes | 应用接收字节数 | +| segs_sent | gauge | bytes | 应用发送seg数 | +| segs_recv | gauge | bytes | 应用接收seg数 | +| throughput_req | gauge | num | 应用请求吞吐量 | +| throughput_resp | gauge | num | 应用应答吞吐量 | +| req_count | gauge | num | 应用客户端请求数量(用于计算请求速率qps) | +| resp_count | gauge | num | 应用服务端应答数量(用于计算应答速率qps) | +| latency_avg | gauge | us | 应用平均请求时延 | +| latency | histogram | us | 应用请求时延 | +| latency_sum | gauge | us | 应用请求时延总和(用于计算平均请求时延:latency_sum/req_count,平均应答时延:latency_sum/resp_count) | +| err_ratio | gauge | | 应用服务端错误错误率 | +| err_count | gauge | num | 应用服务端错误次数(用于计算错误率:err_count /resp_count) | +| srtt | gauge | us | 进程TCP时延(tcp_link实体) | +| iowait_ns | gauge | us | 进程I/O阻塞时延(proc实体) | +| cpu | gauge | % | 进程CPU使用率(proc实体) | #### 应用I/O | metrics_name | metrics_type | unit | metrics description | 支持 | | ------------------- | ------------ | ----- | ---------------------------------------------------------- | ----- | -| io_delay | Gauge | us | 应用I/O时延 | TO BE | -| iowait_us | Gauge | us | 应用访问I/O产生的wait时延 | | -| bio_latency | Gauge | us | 应用访问I/O产生的bio层时延 | | -| bio_err_count | Gauge | num | 应用访问I/O产生的BIO错误次数 | | -| rchar_bytes | Gauge | bytes | 应用读字节数量(用于计算应用I/O读速率) | | -| wchar_bytes | Gauge | bytes | 应用写字节数量(用于计算应用I/O写速率) | | -| fd_count | Gauge | num | 应用持有的文件句柄数量 | | -| greater_4k_io_read | Gauge | num | 应用内大I/O(大于4K)读操作次数 | | -| greater_4k_io_write | Gauge | num | 应用内大I/O(大于4K)写操作次数 | | -| less_4k_io_read | Gauge | num | 应用内小I/O(大于4K)读操作次数 | | -| less_4k_io_write | Gauge | num | 应用内小I/O(大于4K)写操作次数 | | -| ns_ext4_read | Gauge | us | 应用的文件系统读时延(ext4文件系统,常用文件系统) | | -| ns_overlay_read | Gauge | us | 应用的文件系统读时延(overlay文件系统,容器场景常使用) | | -| ns_tmpfs_read | Gauge | us | 应用的文件系统读时延(tmpfs文件系统,临时文件常使用) | | -| ns_ext4_write | Gauge | us | 应用的文件系统写时延(ext4文件系统,常用文件系统) | | -| ns_overlay_write | Gauge | us | 应用的文件系统写时延(overlay文件系统,容器场景常使用) | | -| ns_tmpfs_write | Gauge | us | 应用的文件系统写时延(tmpfs文件系统,临时文件常使用) | | -| ns_ext4_flush | Gauge | us | 应用的文件系统flush时延(ext4文件系统,常用文件系统) | | -| ns_overlay_flush | Gauge | us | 应用的文件系统flush时延(overlay文件系统,容器场景常使用) | | -| ns_tmpfs_flush | Gauge | us | 应用的文件系统flush时延(tmpfs文件系统,临时文件常使用) | | +| io_delay | gauge | us | 应用I/O时延 | TO BE | +| iowait_ns | gauge | ns | 应用访问I/O产生的wait时延 | | +| bio_latency | gauge | us | 应用访问I/O产生的bio层时延 | | +| bio_err_count | gauge | num | 应用访问I/O产生的BIO错误次数 | | +| rchar_bytes | gauge | bytes | 应用读字节数量(用于计算应用I/O读速率) | | +| wchar_bytes | gauge | bytes | 应用写字节数量(用于计算应用I/O写速率) | | +| fd_count | gauge | num | 应用持有的文件句柄数量 | | +| greater_4k_io_read | gauge | num | 应用内大I/O(大于4K)读操作次数 | | +| greater_4k_io_write | gauge | num | 应用内大I/O(大于4K)写操作次数 | | +| less_4k_io_read | gauge | num | 应用内小I/O(大于4K)读操作次数 | | +| less_4k_io_write | gauge | num | 应用内小I/O(大于4K)写操作次数 | | +| ns_ext4_read | gauge | us | 应用的文件系统读时延(ext4文件系统,常用文件系统) | | +| ns_overlay_read | gauge | us | 应用的文件系统读时延(overlay文件系统,容器场景常使用) | | +| ns_tmpfs_read | gauge | us | 应用的文件系统读时延(tmpfs文件系统,临时文件常使用) | | +| ns_ext4_write | gauge | us | 应用的文件系统写时延(ext4文件系统,常用文件系统) | | +| ns_overlay_write | gauge | us | 应用的文件系统写时延(overlay文件系统,容器场景常使用) | | +| ns_tmpfs_write | gauge | us | 应用的文件系统写时延(tmpfs文件系统,临时文件常使用) | | +| ns_ext4_flush | gauge | us | 应用的文件系统flush时延(ext4文件系统,常用文件系统) | | +| ns_overlay_flush | gauge | us | 应用的文件系统flush时延(overlay文件系统,容器场景常使用) | | +| ns_tmpfs_flush | gauge | us | 应用的文件系统flush时延(tmpfs文件系统,临时文件常使用) | | #### 应用CPU -| metrics_name | metrics_type | unit | metrics description | +| metrics_name | metrics_type | unit | metrics description | | ---------------- | ------------ | ---- | ------------------------------------- | | cpu_util | gauge | % | 应用整体CPU使用率(proc实体) | | cpu_user_util | gauge | % | 应用用户态CPU使用率(proc实体) | -| cpu_system_util | gauge | % | 应用系统态CPU使用率(proc实体) | -| offcpu_ns | gauge | us | 应用调度等待CPU调度的时延(proc实体) | +| cpu_system_util | gauge | % | 应用系统态CPU使用率(proc实体) | +| offcpu_ns | gauge | ns | 应用调度等待CPU调度的时延(proc实体) | #### 应用内存 | metrics_name | metrics_type | unit | metrics description | | --------------------- | ------------ | ----- | ----------------------------- | -| pm_size | Gauge | bytes | 应用物理内存 | -| vm_size | Gauge | bytes | 应用虚拟内存 | -| minor_pagefault_count | Gauge | num | 应用产生的轻微级pagefault次数 | -| major_pagefault_count | Gauge | num | 应用产生的严重级pagefault次数 | -| swap_data_size | Gauge | bytes | 应用swap区域大小 | -| referenced_size | Gauge | bytes | 应用引用的page大小 | +| pm_size | gauge | bytes | 应用物理内存 | +| vm_size | gauge | bytes | 应用虚拟内存 | +| minor_pagefault_count | gauge | num | 应用产生的轻微级pagefault次数 | +| major_pagefault_count | gauge | num | 应用产生的严重级pagefault次数 | +| swap_data_size | gauge | bytes | 应用swap区域大小 | +| referenced_size | gauge | bytes | 应用引用的page大小 | #### 应用JVM -| metrics_name | metrics_type | unit | metrics description | -| -------------------------- | ------------ | ------- | --------------------- | -| threads_current | gauge | num | 应用内当前JVM线程数量 | -| threads_daemon | gauge | num | 应用内守护JVM线程数量 | -| threads_peak | gauge | num | 应用内峰值JVM线程数量 | -| threads_deadlocked | gauge | num | 应用内死锁JVM线程数量 | -| mem_bytes_used | gauge | bytes | 应用JVM已用内存占用 | -| mem_bytes_commit | gauge | bytes | 应用JVM提交内存占用 | -| mem_bytes_max | gauge | bytes | 应用JVM最大内存占用 | -| mem_bytes_init | gauge | bytes | 应用JVM初始内存占用 | -| mem_pool_bytes_used | gauge | bytes | 应用JVM已用内存池占用 | -| mem_pool_bytes_commit | gauge | bytes | 应用JVM提交内存池占用 | -| mem_pool_bytes_max | gauge | bytes | 应用JVM最大内存池占用 | -| buffer_pool_used_bytes | gauge | bytes | 应用JVM已用内存buffer | -| buffer_pool_capacity_bytes | gauge | bytes | 应用JVM内存buffer容量 | -| gc_coll_secs_count | gauge | num | 应用内发生GC次数 | -| gc_coll_secs_sum | gauge | seconds | 应用内GC花费的总时间 | +| metrics_name | metrics_type | unit | metrics description | +| -------------------------- | ------------ | ------- | ----------------------------------- | +| threads_current | gauge | num | 应用内当前JVM线程数量 | +| threads_daemon | gauge | num | 应用内守护JVM线程数量 | +| threads_peak | gauge | num | 应用内峰值JVM线程数量 | +| threads_started_total | counter | num | JVM启动后创建线程总数 | +| threads_deadlocked | gauge | num | 应用内死锁JVM线程数量 | +| mem_bytes_used | gauge | bytes | 应用JVM已用内存占用 | +| mem_bytes_commit | gauge | bytes | 应用JVM提交内存占用 | +| mem_bytes_max | gauge | bytes | 应用JVM最大内存占用 | +| mem_bytes_init | gauge | bytes | 应用JVM初始内存占用 | +| mem_pool_bytes_used | gauge | bytes | 应用JVM已用内存池占用 | +| mem_pool_bytes_commit | gauge | bytes | 应用JVM提交内存池占用 | +| mem_pool_bytes_max | gauge | bytes | 应用JVM最大内存池占用 | +| mem_pool_coll_used_bytes | gauge | bytes | 上次内存回收后应用JVM已用内存池占用 | +| mem_pool_coll_commit_bytes | gauge | bytes | 上次内存回收后应用JVM提交内存池占用 | +| mem_pool_coll_max_bytes | gauge | bytes | 上次内存回收后应用JVM最大内存池占用 | +| buffer_pool_used_bytes | gauge | bytes | 应用JVM已用字节数 | +| buffer_pool_used_buffers | gauge | bytes | 应用JVM已用buffer数 | +| buffer_pool_capacity_bytes | gauge | bytes | 应用JVM内存buffer容量 | +| gc_coll_secs_count | gauge | num | 应用内发生GC次数 | +| gc_coll_secs_sum | gauge | seconds | 应用内GC花费的总时间 | #### 应用IOCTL @@ -386,13 +448,14 @@ | metrics_name | metrics_type | unit | metrics description | | ------------------- | ------------ | ------- | ------------------------------------------------------------ | -| rx_bytes | Gauge | bytes | 应用内TCP接收字节数(用于计算接收速率bps)(tcp_link实体) | -| tx_bytes | Gauge | bytes | 应用内TCP发送字节数(用于计算发送速率bps)(tcp_link实体) | -| segs_in | Gauge | package | 应用内TCP接收包数量(tcp_link实体) | -| segs_out | Gauge | package | 应用内TCP发送包数量(tcp_link实体) | -| retran_packets | Gauge | package | 应用内所有TCP重传包数量(用于计算重传率:retran_packets/segs_out)(tcp_link实体) | -| active_open_failed | Gauge | num | 应用内TCP主动建链失败次数(endpoint_tcp实体) | -| passive_open_failed | Gauge | num | 应用内TCP被动建链失败次数(endpoint_tcp实体) | +| rx_bytes | gauge | bytes | 应用内TCP接收字节数(用于计算接收速率bps)(tcp_link实体) | +| tx_bytes | gauge | bytes | 应用内TCP发送字节数(用于计算发送速率bps)(tcp_link实体) | +| segs_in | gauge | package | 应用内TCP接收包数量(tcp_link实体) | +| segs_out | gauge | package | 应用内TCP发送包数量(tcp_link实体) | +| retran_packets | gauge | package | 应用内所有TCP重传包数量(用于计算重传率:retran_packets/segs_out)(tcp_link实体) | +| active_open | gauge | num | 应用内TCP主动建链次数(endpoint_tcp实体) | +| active_open_failed | gauge | num | 应用内TCP主动建链失败次数(endpoint_tcp实体) | +| passive_open_failed | gauge | num | 应用内TCP被动建链失败次数(endpoint_tcp实体) | | srtt | histogram | us | 应用内TCP P50/P90/P99传输时延(tcp_link实体) | | rto | histogram | us | 应用内TCP P50/P90/P99重传超时时间(tcp_link实体) | | ato | histogram | us | 应用内TCP P50/P90/P99 延时ACK时间(tcp_link实体) | @@ -400,47 +463,58 @@ | client_estab_delay | histogram | us | 应用内TCP P50/P90/P99客户端建链时延(tcp_link实体) | | server_estab_delay | histogram | us | 应用内TCP P50/P90/P99服务端建链时延(tcp_link实体) | | reordering | histogram | num | 应用内TCP P50/P90/P99重排序包数量(tcp_link实体) | -| zero_win_tx_ratio | Gauge | % | 应用内TCP发送零窗比率(tcp_link实体) | -| zero_win_rx_ratio | Gauge | % | 应用内TCP接收零窗比率(tcp_link实体) | +| zero_win_tx_ratio | gauge | % | 应用内TCP发送零窗比率(tcp_link实体) | +| zero_win_rx_ratio | gauge | % | 应用内TCP接收零窗比率(tcp_link实体) | | snd_cwnd | histogram | size | 应用内TCP P50/P90/P99拥塞窗口大小(tcp_link实体) | | snd_wnd | histogram | size | 应用内TCP P50/P90/P99发送窗口大小(tcp_link实体) | | rcv_wnd | histogram | size | 应用内TCP P50/P90/P99接收窗口大小(tcp_link实体) | | avl_snd_wnd | histogram | size | 应用内TCP P50/P90/P99可用发送窗口大小(tcp_link实体) | -| zero_rcv_wnd_count | Gauge | num | 应用内TCP接收零窗次数(tcp_link实体) | -| zero_snd_wnd_count | Gauge | num | 应用内TCP发送零窗次数(tcp_link实体) | -| rst_sent | Gauge | package | 应用内发送RST报文次数(endpoint_tcp实体) | -| rst_recv | Gauge | package | 应用内接收RST报文次数(endpoint_tcp实体) | -| sacked_out | Gauge | package | 应用内TCP乱序包数量(tcp_link实体) | -| lost_out | Gauge | package | 应用内TCP拥塞丢包数量(tcp_link实体) | +| zero_rcv_wnd_count | gauge | num | 应用内TCP接收零窗次数(tcp_link实体) | +| zero_snd_wnd_count | gauge | num | 应用内TCP发送零窗次数(tcp_link实体) | +| rst_sent | gauge | package | 应用内发送RST报文次数(endpoint_tcp实体) | +| rst_recv | gauge | package | 应用内接收RST报文次数(endpoint_tcp实体) | +| estab_latency | histogram | | 建立TCP连接的时延(endpoint_tcp实体) | +| sacked_out | gauge | package | 应用内TCP乱序包数量(tcp_link实体) | +| lost_out | gauge | package | 应用内TCP拥塞丢包数量(tcp_link实体) | | sk_drops | counter | package | 应用内TCP丢包数量(IP协议栈丢包)(tcp_link实体) | -| filter_drops | Gauge | package | 应用内TCP丢包数量(TCP过滤丢包,比如被eBPF规则过滤)(tcp_link实体) | -| backlog_drops | Gauge | num | 应用的TCP接收数据队列溢出次数(通常是应用处理数据太慢)(tcp_link实体) | -| tcp_oom | Gauge | num | 应用内发生TCP OOM次数(通常是因为TCP缓存数据量过多,应用处理慢引发)(tcp_link实体) | -| syn_sent | Gauge | package | 应用内SYN报文发送次数(endpoint_tcp实体) | -| retran_syn | Gauge | package | 应用内SYN报文重发次数(endpoint_tcp实体) | -| synack_sent | Gauge | package | 应用内synack发送次数(endpoint_tcp实体) | -| retran_synacks | Gauge | package | 应用内synack重发次数(endpoint_tcp实体) | -| req_drops | Gauge | num | 应用内TCP服务端建链失败次数(关闭侦听后又收到建链请求)(endpoint_tcp实体) | -| accept_overflow | Gauge | num | 应用内TCP服务端建链失败次数(TCP发生半连接队列溢出)(endpoint_tcp实体) | -| syn_overflow | Gauge | num | 应用内TCP服务端建链失败次数(TCP发生syn队列溢出)(endpoint_tcp实体) | +| filter_drops | gauge | package | 应用内TCP丢包数量(TCP过滤丢包,比如被eBPF规则过滤)(tcp_link实体) | +| tmout_count | gauge | num | TCP连接超时个数 | +| snd_buf_limit_count | gauge | num | 分配wmem时的限制 | +| rmem_scheduls | gauge | num | rmem调度次数 | +| backlog_drops | gauge | num | 应用的TCP接收数据队列溢出次数(通常是应用处理数据太慢)(tcp_link实体) | +| tcp_oom | gauge | num | 应用内发生TCP OOM次数(通常是因为TCP缓存数据量过多,应用处理慢引发)(tcp_link实体) | +| send_rsts | gauge | num | 发送RST报文次数(tcp_link实体) | +| receive_rsts | gauge | num | 接收RST报文次数(tcp_link实体) | +| retrans_ratio | gauge | | 重传率(tcp_link实体) | +| rx_delay | gauge | ms | 请求接收时延(从到达网卡到应用读取) | +| tx_delay | gauge | ms | 响应发送时延(从应用写入到接收ACK) | +| syn_sent | gauge | package | 应用内SYN报文发送次数(endpoint_tcp实体) | +| syn_drop | gauge | package | 应用内SYN报文到丢弃次数(endpoint_tcp实体) | +| retran_syn | gauge | package | 应用内SYN报文重发次数(endpoint_tcp实体) | +| synack_sent | gauge | package | 应用内synack发送次数(endpoint_tcp实体) | +| retran_synacks | gauge | package | 应用内synack重发次数(endpoint_tcp实体) | +| req_drops | gauge | num | 应用内TCP服务端建链失败次数(关闭侦听后又收到建链请求)(endpoint_tcp实体) | +| accept_overflow | gauge | num | 应用内TCP服务端建链失败次数(TCP发生半连接队列溢出)(endpoint_tcp实体) | +| syn_overflow | gauge | num | 应用内TCP服务端建链失败次数(TCP发生syn队列溢出)(endpoint_tcp实体) | #### UDP指标 | metrics_name | metrics_type | unit | metrics description | | ------------- | ------------ | ----- | -------------------- | -| udp_sends | Gauge | bytes | 应用内UDP流量统计 | -| udp_rcvs | Gauge | bytes | 应用内UDP流量统计 | -| udp_rcv_drops | Gauge | bytes | 应用内接收侧丢包统计 | +| bind_sends | gauge | bytes | 应用内UDP流量统计 | +| bind_rcvs | gauge | bytes | 应用内UDP流量统计 | +| udp_rcv_drops | gauge | bytes | 应用内接收侧丢包统计 | #### DNS指标 | metrics_name | metrics_type | unit | metrics description | | ------------ | ------------ | ---- | ------------------- | | domain | label | | 进程访问的DNS域名 | -| delay_avg | Gauge | ms | DNS访问平均时延 | -| max_delay | Gauge | ms | DNS访问最大时延 | -| error_ratio | Gauge | % | DNS访问错误率 | -| count | Gauge | | DNS访问次数 | +| delay_avg | gauge | ms | DNS访问平均时延 | +| max_delay | gauge | ms | DNS访问最大时延 | +| error_ratio | gauge | % | DNS访问错误率 | +| count | gauge | | DNS访问次数 | +| error_count | gauge | | DNS访问错误数 | # 基础中间件 -- Gitee