IT运维监控解决方案介绍

现状

        物联网(Internet of
Things,缩写IOT)是一个根据网络、传统电信网等音讯承载体,让抱有可以被单独寻址的平时物理对象达成互联互通的网络。物联网一般为有线网,由于每个人周围的装置得以达标一千至五千个,所以物联网可能要包涵500兆至一千兆个实体,在物联网上,每个人都得以动用电子标签将忠实的物体上网联结,在物联网上都足以寻找出它们的具体地方。通过物联网可以用基本统计机对机器、设备、人员开展集中管理、控制,也得以对家中配备、汽车举行遥控,以及查找地点、避免物品被盗等种种应用。
物联网将切实世界数字化,
应用范围相当广阔。物联网的应用领域紧要不外乎以下多少个方面:运输和物流领域、健康医疗领域、智能环境(家庭、办公、工厂)领域、个人和社会圈子等,具有极度周边的商海和利用前景。

•小商店/ 创业团队< 500台服务器规模

       
开发人员感兴趣的物联网,物联网产品早已对软件开发社区暴发了紧要影响,使得开发人士已经不得不向前思考。定义物联网产品有3个关键点:

开源方案:Zabbix、Nagios、Cacti…

1.它必须是可连接。自我收集物理环境音讯能力,通过网络或网络用于与其余物体连接而相互。

2.它必须是可计算。多样艺术输入进行总结,以对其余系统发出越来越多有含义。

3.它必须是可通讯。于互连网中与其余实体通信,即便需求与用户通信。

云服务提供商:监控宝、oneAlert等

在付出物联网应用时怎么着任务开发人士喜欢:

•BAT级别> 10万台服务器

图片 1

投入大批量的人工,内部自研,与作业严重耦合没办法作为产品生产

  
89%是写应用程序,53%是数据集成,21%互联网体系,20%芯片编程,6%创设芯片。

•中间阶层

诸多开发人员已经起来创设协调智能家居,他们有:

无从可选

图片 2

 

51%家园安全,51%智能工具,45%智能灯具,25%智能应用…

早期,选用Zabbix

开发物联网大家最关注的上边有:

•Zabbix是一款开源的小卖部级督查种类

图片 3

•对其进展二次开发、封装、调优…

从大到小因素有 安全,隐衷,设备管理,维护,网络,协议

•为啥选择Zabbix

物联网的挑衅有:

•Cacti

1.功效。物联网内的设施只需要最小化工作与存活生态系统。

2.资阳,隐衷及须要共享。

3.正规。例如协议正式 Bluetooth Low Energy (BLE), RFID tags, ZigBee,
Wi-Fi,NFC, GPS

•Collectd

物联网的所推动的机遇有:

•RRDtool

1.消费者。

2.商业。

3.医疗。

4.城市,基础设备,工业。

•Nagios

物联网可以提到的领域有:

•openTSDB

图片 4

 

图片 5

Zabbix实践思路

以上两图提醒各样领域物联网应用,开发人员已经形成应用比例,与想做应用的百分比,与及兴趣名次的图例。

•测试ZabbixNode

本文只是对物联网的投石问路,希望对您物联网应用软件开发有扶持。

•Zabbix代码优化

 

•使用模式优化

您或许感兴趣的稿子有:

•独立布署多套Zabbix,通过API整合

智能移动导游解决方案简介

 

 

Zabbix境遇的难点

如有想询问更加多软件开发资讯,请关怀我的微信订阅号:

•随着集团工作范围的飞快腾飞

图片 6

•用户“使用频率”低下,学习话费很高

 

•不负有水平增添能力,无法支撑业务必要

作者:Petter Liu
出处:http://www.cnblogs.com/wintersun/
本文版权归小编和微博共有,欢迎转发,但未经小编同意必须保留此段注解,且在小说页面鲜明地方给出原文连接,否则保留追究法律权利的任务。
该文章也同时发布在自我的单独博客中-Petter Liu
Blog

•告警策略的维护、变更代价太大,导致运维人士沦为其中,不可能自拔

.

•不便宜自动化,不便宜与运维平台等基础设备整合


Open-Falcon

Open-Falcon是华为运维团队设计开发的一款网络商家级督查种类

•提供最好用、最人性化的网络商家级监督解决方案

•项目主页:http://open-falcon.com

•Github: https://github.com/xiaomi/open-falcon

•QQ讨论组:373249123

•微信公众号:OpenFalcon

 

社区进献

•调换机监控

https://github.com/gaochao1/swcollector

•Windows监控

https://github.com/freedomkk-qfeng/falcon-scripts/tree/master/windows_collect

•Agent宕机监控

https://github.com/freedomkk-qfeng/falcon-scripts/tree/master/agent_monitor

•Redis/memcached/rabbitmq监控

https://github.com/iambocai/falcon-monit-scripts

•MySQL 监控方案

https://github.com/open-falcon/mymon

 

顶尖案例

美团

•生产环境广泛应用,1万+agent

•集成服务树、协理ping监控、多机房架构接济、报警第二接收人扶助

•正在开发openTSDB接口、query增添正则功能

赶集

•深度定制,用于大数量部门平台服务监控与机关运维,生产环境已上线

京东经济

•深度调研open-falcon

•正在开发测试drrs(一种分布式的time series data 存储组件)并适配falcon

 

内部 

图片 7

agent
•负责机器数据搜集
•自发现种种督查目的
•发送数据给transfer
•发送心跳信息给hbs
•执行自定义插件
•业务数据毫无用插件采集!
•数据收集选择推依旧拉的办法?

transfer •对接受到的数码做合法性校验
•转载数量给graph和judge
•为啥要做那些统一的接入端?
•为啥要对数据做分片?
•数据分片方案,用一致性hash照旧路由表?

judge •对接到到的数量根据阈值举办判断
•达到阈值的数码发生相应的event
•触发式判定or 轮询?
•为何要动用内存?

graph
•操作rrd文件,对数码进行仓储和询问
•将反复操作合并后再flush磁盘
•将要flush到磁盘的数据,打散到种种时间片,下降IO消耗
•为啥用rrd而不是opentsdb之类的?

hbs
•提供接口给agent查询机器所需督查的端口、进程、要进行的插件列表等音信
•接收agent汇报的情景信息并写入数据库
•缓存用户配置的报警策略
•为啥要用hbs缓存策略列表?

query

•利用一致性hash算法,查询几个graph的数码并会聚
•要求使用与transfer相同的hash算法及布署

各web端
•Dashboard负责绘图、显示、仪表盘等
•Uic负责管理组合人的附和关系
•Alarm-dashboard负责呈现当前未平复的告警
•用户在portal中布局告警策略
•Portal中的hostgroup一般是从CMDB中一道过来的!

Aggregator 对象:集群监控
•针对某个hostgroup的七个counter进行总结
•分子:$(c1) + $(c2) -$(c3)
•分母:可以是$# 或者数字依然$(d1) + $(d2) -$(d3)
算算结果
•封装成一个metricItem,再度push回open-falcon
为何那样已毕
•归一化的难题化解方案
•复用整个open-falcon的绘图突显、告警逻辑

Gateway——跨数据主导

图片 8

接驳服务树(CMDB)
•开源服务器管理组件(服务树)
•监控对象通过劳动树来管理
•服务器进出节点、监控自动变更

野史数据高可用
rrd-on-hbase
•绘图数据存储在hbase中,解决高可用的难题
•历史数据提供更详尽粒度的查看
drrs(@京东经济)
•Distributed Round Robin Server
•面向主旨集团,轻量级的野史数据存储方案,解决多少扩容的标题

智能告警
同比、环比
•Dashboard数据显示接济比较、环比
•告警判定引入同比、环比作为参照
动态阈值
•通过对历史数据的上学,生成动态的报警阈值
关系分析
•精准告警
•故障定位

SDK
七层
•Nginx
•统计cps、200、5xx、4xx、latency、availability、throughput
语言辅助Java/C++/PHP/Python
•内置统计每个接口的cps、latency
•内置统计工作关怀的目的的能力
框架支持
•resin、spring、flask…
统计类型
•Gauge/ Meter / Timer / Counter / Histogram

云监控
•服务端Host在国有云上
•无需客户安装、运维服务端
•支持namespace隔离、quota限额
•从根本上对分裂用户的数量进行隔离
•优化监控的增加、管理、查看流程
•进步用户体验、提高用户采纳作用

其他
•Callback成效增强,推进故障自动处理
•插件的管住支持各类方法(不仅限于git)
•Dashboard 增添用户登录认证
•告警排班/ 告警升级(@金山云)


Open-Falcon安插执行
•初叶阶段
•所有的零件部署在一台物理机上即可
机器量级~ 500
•graph、judge、transfer多少个零部件拆分出来计划在1台服务器上
机器量级~ 1000
•graph、judge、transfer 增加到2~3个实例
•query拆分出来,安排2个实例
•dashboard 拆分出来安插
机器量级~ 10K
•graph、judge、transfer 扩展到20个实例,graph尽量使用ssd磁盘
•query增加到5个实例
•dashboard 拆分出来,扩充到3个实例

 

指望对你运维管理有援助。


上述内容部分出自互连网, 希望对你系统架构设计,软件研发有支持。
其他您可能感兴趣的篇章:

营造便捷的研发与自动化运维
网络数据库架构设计思路
运动支付一站式解决方案
某大型电商云平台实践
商店级应用架构方式N-Tier多层架构
某公司打交道应用网络拓扑架构图
IT基础架构规划方案一(网络连串规划)
饮食连锁店铺IT信息化解决方案一

如有想询问更加多软件研发 , 系统 IT集成 , 集团新闻化,项目管理
等情报,请关怀自己的微信订阅号:

图片 9

 

作者:Petter Liu
出处:http://www.cnblogs.com/wintersun/
本文版权归小编和微博共有,欢迎转发,但未经作者同意必须保留此段表明,且在篇章页面显著地方给出原文连接,否则保留追究法律义务的义务。
该小说也同时发表在自家的独立博客中-Petter Liu
Blog

Post Author: admin

发表评论

电子邮件地址不会被公开。 必填项已用*标注