Tableau de bord avec Grafana, InfluxDB et Collectd pour surveiller vos serveurs

Surveillez vos serveurs avec le tableau de bord Grafana combiné à InfluxDB pour le stockage des données et Collectd qui rassemble les métriques.

Il y a quelques années encore, j’étais un adepte du couple Cacti + Nagios pour surveiller des serveurs et machines. Pas vraiment réputés pour être faciles et rapides à mettre en place, je m’étais rabattu  ces quelques dernières années vers la solution Munin, plus rapide à mettre en œuvre.

Mais il faut bien l’avouer, on reste dans le même esprit de graphiques type MRTG qui font un peu vieillots et de moins en moins dans l’air du temps au niveau interface et affichage des données. C’est sur ces points que la solution Grafana m’a bluffé. Je ne connaissais pas du tout et c’est en tombant sur un article par hasard que mon attention a été titillée. Mais ce n’est pas pour raconter ma vie que j’ai commencé ce billet, alors rentrons dans le vif du sujet.

Architecture

Combiné à InfluxDB qui est une base de données conçue pour stocker des données dépendantes du temps – on parle de métriques –  pour le stockage des données et de Collectd pour rassembler ces métriques, le trio Grafana + InfluxDB + Collectd fait un plutôt joli boulot.

Aperçu du dashboard Grafana
Aperçu du dashboard Grafana

A noter que ces trois composantes sont assez interchangeables, par exemple lors de ma découverte j’ai utilisé Telegraf à la place de Collectd, un autre service qui collecte des métriques, de la même façon, le backend InfluxDB peut être changé, ce n’est qu’un mode de stockage après tout.

Continuer la lecture de « Tableau de bord avec Grafana, InfluxDB et Collectd pour surveiller vos serveurs »

Centreon: Surveiller un SAN Netapp

Cet article décrit la configuration et l’installation de la supervision d’un système Netapp avec Centreon.

Le tutoriel utilise Centreon Enterprise Server de Merethis, en version 3.0.  Nous verrons comment monitorer un Netapp FAS3210, cette procédure fonctionne également sur un modèle FAS2240 et probablement d’autres, mais que je n’ai pas testé personnellement.

La première chose à faire est d’activer le SNMP ainsi que de configurer la communauté SNMP sur notre Netapp.

Vous pouvez activer ou désactiver le SNMP en ligne de commande en entrant :

options snmp.enable {on | off}

on – activera le SNMP

off – désactivera le SNMP

Maintenant, nous pouvons vérifier la liste des communautés configurées :

system snmp community show

Nous allons rajouter une communauté en Read-Only, il faut, toujours en ligne de commande, entrer :

system snmp community add «name »

Voilà qui est fait pour le coté Netapp. Cela nous permets donc de faire des requêtes SNMP en read-only depuis notre Centreon / Nagios.

Maintenant que notre Netapp est prêt à être supervisé, passons à la configuration de Centreon.

 

Téléchargez le plugin check_netapp3.pl

 

Vous devez le mettre dans le dossier des plugins (sur un OS 32bits), soit :

/usr/lib/nagios/plugins/

Puis le rendre exécutable :

chmod a+x check_netapp3.pl

Selon votre configuration, il se peut que certaines dépendances PERL manquent. Il faut les installer pour que l’exécution du script fonctionne.

Depuis l’interface Web de Centreon, allez dans « Configuration », puis « Commands », cliquez sur « Add ».

Créez les deux commandes suivantes, une pour les status, une avec les warning et critical value :

La commande simple, sans Warning et Critical :

Netapp_check_simple

Avec les Warning et Critical :

Netapp_check_complexe

En jaunes, les valeurs à changer.

 

Le plugin Netapp check_netapp3.pl nous permet de surveiller ces paramètres ci-dessous :

CACHEAGE – Cache Age

CIFSOPS – CIFS  Operations

CPBACK – Back to Back Consistency Time

CPTIME – Consistency Full Time

CPULOAD – CPU load

DISKREAD – Bytes Disk Read

DISKUSED – disk space avail

DISKUSED64 – disk space avail

DISKWRITE – Bytes Disk Write

FAILEDDISK – disk failed state

FAN – fan failed state

GLOBALSTATUS – Global Status

NDMPSESSIONS – NDMP Sessions

NETRCVD – Net In

NETSENT – Net Out

NFSOPS – NFS Operations

NVRAM – nvram battery status

PERINODE – percentage inode space avail

PERUSED – percentage space used

PS – Power Supply failed state

SNAPSHOT – volume snapshot status

TAPEREAD – Bytes Tape Read

TAPEWRITE – Bytes Tape Write

TEMP – over temperature check

UPTIME – up time

 

Nous allons voir seulement quelques exemples de ces paramètres.

Maintenant que les commandes ont été créées et que l’on connait la liste des paramètres, on va créer les « Services Templates » correspondant:

 

L’âge du cache de nos Netapp :

Netapp_check_cache

 

Le load du CPU :

Netapp_check_CPU

 

 

Avec la commande Warning et Critical :

Le status global :

Netapp_check_GlobalStatus

L’état des Alimentations :

Netapp_check_PowerSupply

 

 

Maintenant que les templates de services sont créés, nous pouvons créer nos hosts, et lier les templates. Voici un example d’host avec ses services dans Centreon :

Netapp_host

 

 

En production :

Netapp_check_monitored

 

 

J’espère que cet article vous aidera dans le monitoring d’un Netapp avec Centreon, et bien entendu, n’hésitez pas à me demander plus d’informations.

Matthieu ROBIN

Le système de plugins de Munin

Munin l’outil de surveillance serveur possède un système de plugins plutôt intéressant, voyons comment l’utiliser.

Munin fonctionne avec des plugins afin de surveiller les différents éléments d’un système. Tous les plugins ne sont pas activés par défaut après une installation. Nous allons voir qu’il existe une commande bien pratique pour faire l’inventaire des plugins et voir s’ils sont compatibles avec le système surveillé.

Continuer la lecture de « Le système de plugins de Munin »

Munin, l’outil de surveillance (monitoring) se serveurs simple

Dans cet article nous parlons de Munin un outil de surveillance (monitoring) simple qui permet de surveiller ses serveurs et stations de travail.

Munin est un outil de surveillance système et réseau qui donne un aperçu de l’état d’une ou des machine(s) au moyen de graphiques RRDTool consultables via un navigateur web. A mon goût, Munin se veut plus simple et rapide dans sa mise en place que des solutions de type Cacti. La procédure d’installation qui suit se fait sur une Fedora 15 et va ne surveiller que la machine elle-même.

Continuer la lecture de « Munin, l’outil de surveillance (monitoring) se serveurs simple »