https://www.hdzikao.com

开源网管软件【prometheus普罗米修斯prometheus普罗米修斯】

[导读] 大家好,今天小热点关注到一个比较有意思的话题,就是关于开源网管软件的问题,于是小编就整理了2个相关介绍开源网管软件的解答,让我们一起看看吧。 做为运维工程师,采用开源的监控

开源网管软件【prometheus普罗米修斯prometheus普罗米修斯】

大家好,今天小热点关注到一个比较有意思的话题,就是关于开源网管软件的问题,于是小编就整理了2个相关介绍开源网管软件的解答,让我们一起看看吧。

做为运维工程师,采用开源的监控平台有哪些?

WGCLOUD基于java语言开发,是微服务架构构建的监控系统,支持高并发高性能高可用,核心模块包括:服务器集群监控,ES集群状态监控,CPU监控,内存监控,数据监控,服务心跳检测,应用进程管理,磁盘IO监控,系统负载监控,监控告警信息推送。

WGCLOUD是java编写,使用springboot作为开发框架,对java开发人员来说,用之轻车熟路,安装只要JDK1.8和mysql即可。

我的回答:作为运维工程师,采用的开源监控软件有很多,比如目前常用的有Prometheus+Grafana,Zabbix,Cacti+Nagios,Ganglia等。

我的分析:Prometheus普罗米修斯,是一个开源的云原生监控解决方案,它主要基于时间序列数据的数据收集和分析,使用户可以利用内置工具集设置监控功能。Prometheus普罗米修斯是kubernetes等容器化平台的理想监控工具,它可以和grafana结合,对云环境的基础设施进行监控,监控CPU、内存、磁盘分区、磁盘IO、网络IO、网络带宽、容器状态等。Grafana是Prometheus官方推荐的可视化大型数据的测量环境,可以生成各种可视化的报表和具有监控报警功能,我们线上用的就是这种监控软件。

Zabbix 是一款出色的企业级监控运维平台,它可以监控服务器、网络设备、web应用、数据库等各种产品,它具有良好的系统兼容性和适配性,可以通过SNMP简单网络管理协议监控交换机的端口和流量,还可以通过自定义模板去做一些定制化的监控操作和指标。

Cacti是一款网络流量监测的图形化分析工具,它一般结合RRDTool生成网络数据相关的图表。Nagios是一个监控系统运行状态和网络信息的监控系统,它可以监控本地或者远程主机和服务,还提供异常通知的功能,通过邮件或者短信的方式通知管理员。Nagios提供一个基于浏览器的web界面,方便管理人员去查看网络状态、系统问题和日志。

Ganglia是一个开源的集群监测软件,可以监测系统性能,包括CPU、内存、硬盘利用率、I/O负载、网络流量等内容,通过图形去查看到每个被监控节点的运行状态。Ganglia对合理调度、调整和分配系统资源,提高系统的整体性能,有重要的影响。

目前,我推荐的开源监控平台是:Prometheus+Grafana。

鼓励的话语:做人要有狮子的力量和菩萨的心肠。用狮子的力量去奋斗,用菩萨的心肠去善待人!

机房网络故障如何排除?

看到你关注我的提示后,点开你发现你这个问题也没人回答,我就一起回答了吧。

机房网络环境和普通的网络环境是不一样的

1.确认网络拓扑图,要找到汇聚层,核心层的交换机,熟悉这些交换机的配置,二层不用关心,三层交换机的配置要重点关注下VLAN和路由。

2.利用开源或者收费的监控软件,对交换机的各个端口的流量,丢包,错误包进行一个监控

以上俩点是预防和监控

如果发生故障:

1.对核心层的交换机IP以及上联IP分别进行连续ping,哪个节点有丢包,就是哪个交换机出问题了。

2.找到出问题的交换机,在交换机上执行命令dis int brief,查看交换机各个端口的信息,如果是错误包多,那就是链路有问题,如果是带宽占用率高的话,就看下是哪个IP占用带宽高,对其进行限速即可。

最后,机房网络一般不会发生故障,一般故障就是带宽跑满和链路有问题,只有进行网络割接的时候,才会发生大故障(不过一般是有备用交换机,不会有问题)

机房的网络故障的排查,首先要通过snmp管理软件,检测各个网络设备是否运行正常。另外,还存在如下各种可能性:

  1. 内网ARP欺骗攻击。

  2. 内网病毒攻击。

  3. 交换机、路由器硬件故障。

  4. 网线接触不良、网线老化。

  5. 广播风暴、网络环路。

以上这些问题,即使是一个有经验的网管,需要组合ping、arp、tracert等多条命令进行测试分析,才可以逐步排查出来。有时还需要用抓包工具来抓包分析。为了简化网管人员的工作,我们的WFilter软件(WSG网关)中,集成了一个实用性很强的插件“网络健康度检测”。以上问题一键就可以检测出来。如下图:

但是,软件的检测只是一个检测和定位手段,故障的具体解决是需要人工去操作的。

到此结束,以上就是小编对于开源网管软件的问题就介绍到这了,希望介绍关于开源网管软件的2点解答对大家有用。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

相关文章阅读