热门排行
简介
本书由Ganglia的设计者和维护人员亲自执笔,知识性和权威性毋庸置疑。本书不但展示了如何从任意规模的集群、网格或云基础架构中收集系统指标并使其可视化,而且为如何针对20000台主机每10秒跟踪一次CPU利用率等问题提供答案。一旦你知晓Ganglia的主要部件如何协同工作,就会明白Ganglia是解决上述问题的最佳选择。本书颇具实践性,可以帮助经验丰富的系统管理员更好地运用Ganglia 3.X。
本书还可以帮助你了解如何扩展基本的指标库,取回当前指标数值,查看指标的汇聚视图,观察数据时序的趋势。你也可以通过一些实际Ganglia案例了解它是如何满足监控的一些需求的。
目录
前言 1
第1章 初识Ganglia 9
规模的问题 9
主机即监控系统 10
基于冗余的结构 11
Ganglia是否适合你 11
gmond:字节大爆炸 12
gmetad:整合所有信息 14
gweb:下一代数据分析 15
稍等!这并不是所有 16
第2章 Ganglia的安装和配置 18
Ganglia的安装 18
Ganglia的配置 27
安装后的工作 47
第3章 可扩展性 49
谁会关注可扩展性 49
gmond和Ganglia集群的可扩展性 49
gmetad存储规划和可扩展性 50
第4章 Ganglia的Web界面 58
Ganglia的Web 界面导航 58
gweb的Search选项卡 65
gweb的Views选项卡 66
gweb 的Aggregated Graphs选项卡 68
gweb的Compare Hosts选项卡 69
gweb的Events选项卡 69
gweb的Automatic Rotation选项卡 72
gweb的Mobile选项卡 72
自定义复合图表 72
其他特性 74
认证和授权 75
第5章 指标管理和扩展 78
gmond:指标收集代理 78
基本指标 79
扩展指标 81
利用模块扩展gmond 82
利用gmetric扩展gmond 98
如何在C/C++、Python和gmetric之间做出选择 101
XDR协议 102
Java和gmetric4j 104
真实世界:利用NVML模块进行GPU监控 105
第6章 Ganglia故障排查与处理 108
概述 108
有用的资源 109
对监控系统进行监控 110
常用故障排查机制及工具 110
在前台/调试模式下运行 115
常见的部署问题 120
典型问题及解决步骤 121
第7章 Ganglia与Nagios 129
发送Nagios数据到Ganglia 130
使用Nagios监控Ganglia指标 133
在Nagios UI中显示Ganglia数据 138
使用Nagios监控Ganglia 139
第8章 Ganglia与sFlow 142
架构 144
标准sFlow指标 145
Java虚拟机指标 149
配置gmond以接收sFlow 153
Host sFlow 代理 155
故障解决 160
联合其他sFlow工具使用Ganglia 163
第9章 Ganglia案例分析 168
Tagged公司 169
SARA 177
路透社财务软件 182
Lumicall(Android上的移动VoIP) 186
稍等,多少指标?监控Quantcast 191
工具箱中的很多工具:监控Etsy 197
附录A 先进的指标配置与调试 201
附录B Ganglia和Hadoop/HBase 209