Tableau de bord avec Grafana, InfluxDB et Collectd pour surveiller vos serveurs

Surveillez vos serveurs avec le tableau de bord Grafana combiné à InfluxDB pour le stockage des données et Collectd qui rassemble les métriques.

Il y a quelques années encore, j’étais un adepte du couple Cacti + Nagios pour surveiller des serveurs et machines. Pas vraiment réputés pour être faciles et rapides à mettre en place, je m’étais rabattu  ces quelques dernières années vers la solution Munin, plus rapide à mettre en œuvre.

Mais il faut bien l’avouer, on reste dans le même esprit de graphiques type MRTG qui font un peu vieillots et de moins en moins dans l’air du temps au niveau interface et affichage des données. C’est sur ces points que la solution Grafana m’a bluffé. Je ne connaissais pas du tout et c’est en tombant sur un article par hasard que mon attention a été titillée. Mais ce n’est pas pour raconter ma vie que j’ai commencé ce billet, alors rentrons dans le vif du sujet.

Architecture

Combiné à InfluxDB qui est une base de données conçue pour stocker des données dépendantes du temps – on parle de métriques –  pour le stockage des données et de Collectd pour rassembler ces métriques, le trio Grafana + InfluxDB + Collectd fait un plutôt joli boulot.

Aperçu du dashboard Grafana
Aperçu du dashboard Grafana

A noter que ces trois composantes sont assez interchangeables, par exemple lors de ma découverte j’ai utilisé Telegraf à la place de Collectd, un autre service qui collecte des métriques, de la même façon, le backend InfluxDB peut être changé, ce n’est qu’un mode de stockage après tout.

Continue reading « Tableau de bord avec Grafana, InfluxDB et Collectd pour surveiller vos serveurs »

Centreon: Surveiller un SAN Netapp

Cet article décrit la configuration et l’installation de la supervision d’un système Netapp avec Centreon.

Le tutoriel utilise Centreon Enterprise Server de Merethis, en version 3.0.  Nous verrons comment monitorer un Netapp FAS3210, cette procédure fonctionne également sur un modèle FAS2240 et probablement d’autres, mais que je n’ai pas testé personnellement.

La première chose à faire est d’activer le SNMP ainsi que de configurer la communauté SNMP sur notre Netapp.

Vous pouvez activer ou désactiver le SNMP en ligne de commande en entrant :

options snmp.enable {on | off}

on – activera le SNMP

off – désactivera le SNMP

Maintenant, nous pouvons vérifier la liste des communautés configurées :

system snmp community show

Nous allons rajouter une communauté en Read-Only, il faut, toujours en ligne de commande, entrer :

system snmp community add «name »

Voilà qui est fait pour le coté Netapp. Cela nous permets donc de faire des requêtes SNMP en read-only depuis notre Centreon / Nagios.

Maintenant que notre Netapp est prêt à être supervisé, passons à la configuration de Centreon.

 

Téléchargez le plugin check_netapp3.pl

 

Vous devez le mettre dans le dossier des plugins (sur un OS 32bits), soit :

/usr/lib/nagios/plugins/

Puis le rendre exécutable :

chmod a+x check_netapp3.pl

Selon votre configuration, il se peut que certaines dépendances PERL manquent. Il faut les installer pour que l’exécution du script fonctionne.

Depuis l’interface Web de Centreon, allez dans « Configuration », puis « Commands », cliquez sur « Add ».

Créez les deux commandes suivantes, une pour les status, une avec les warning et critical value :

La commande simple, sans Warning et Critical :

Netapp_check_simple

Avec les Warning et Critical :

Netapp_check_complexe

En jaunes, les valeurs à changer.

 

Le plugin Netapp check_netapp3.pl nous permet de surveiller ces paramètres ci-dessous :

CACHEAGE – Cache Age

CIFSOPS – CIFS  Operations

CPBACK – Back to Back Consistency Time

CPTIME – Consistency Full Time

CPULOAD – CPU load

DISKREAD – Bytes Disk Read

DISKUSED – disk space avail

DISKUSED64 – disk space avail

DISKWRITE – Bytes Disk Write

FAILEDDISK – disk failed state

FAN – fan failed state

GLOBALSTATUS – Global Status

NDMPSESSIONS – NDMP Sessions

NETRCVD – Net In

NETSENT – Net Out

NFSOPS – NFS Operations

NVRAM – nvram battery status

PERINODE – percentage inode space avail

PERUSED – percentage space used

PS – Power Supply failed state

SNAPSHOT – volume snapshot status

TAPEREAD – Bytes Tape Read

TAPEWRITE – Bytes Tape Write

TEMP – over temperature check

UPTIME – up time

 

Nous allons voir seulement quelques exemples de ces paramètres.

Maintenant que les commandes ont été créées et que l’on connait la liste des paramètres, on va créer les « Services Templates » correspondant:

 

L’âge du cache de nos Netapp :

Netapp_check_cache

 

Le load du CPU :

Netapp_check_CPU

 

 

Avec la commande Warning et Critical :

Le status global :

Netapp_check_GlobalStatus

L’état des Alimentations :

Netapp_check_PowerSupply

 

 

Maintenant que les templates de services sont créés, nous pouvons créer nos hosts, et lier les templates. Voici un example d’host avec ses services dans Centreon :

Netapp_host

 

 

En production :

Netapp_check_monitored

 

 

J’espère que cet article vous aidera dans le monitoring d’un Netapp avec Centreon, et bien entendu, n’hésitez pas à me demander plus d’informations.

Matthieu ROBIN

Surveiller un BladeCenter IBM avec Nagios

Ce billet explique la façon de surveiller un BladeCenter avec Nagios via SNMP. Pour ce tutoriel, les essais ont été faits sur des chassis HS21 et HS22, en utilisant un Nagios Core 3.2 sur une machine CentOS 5.4. Nous allons nous pencher sur la surveillance des températures ainsi que sur le fonctionnement des ventilateurs.

Continue reading « Surveiller un BladeCenter IBM avec Nagios »

Nagios : surveiller un hôte linux distant

La surveillance d’une machine distante avec Nagios se fait avec le plugin NRPE qui a été présenté dans le premier billet sur l’installation de Nagios. Le principe est simple, un agent NRPE est installé sur la machine distante et le greffon NRPE sur le serveur de Nagios l’interroge.

Continue reading « Nagios : surveiller un hôte linux distant »