Nagios 3 pour la supervision et la métrologie
Déploiement, configuration et optimisation
Après plus de dix ans de développement, le logiciel libre Nagios 3 s'impose comme la référence en matière de supervision open source. Il permet de veiller efficacement au bon fonctionnement d'un parc hétérogène de plusieurs dizaines ou milliers d'équipements et services réseau (serveurs matériels et logiciels, routeurs, applications web ... ), en association avec des outils de [...]
[lire le résumé du livre]
Auteur : Jean GABÈS
Editeur : Eyrolles
Date parution : 08/2009Quel est le sujet du livre "Nagios 3 pour la supervision et la métrologie"
Après plus de dix ans de développement, le logiciel libre Nagios 3 s'impose comme la référence en matière de supervision open source. Il permet de veiller efficacement au bon fonctionnement d'un parc hétérogène de plusieurs dizaines ou milliers d'équipements et services réseau (serveurs matériels et logiciels, routeurs, applications web ... ), en association avec des outils de configuration et de visualisation tels Centreon et NagVis, ou au sein de distributions spécialisées telles que FAN.Nagios pour l'administrateur serein : une référence méthodique pour la configuration et le déploiementAu-delà des aspects techniques, cet ouvrage donne les clés pour réussir la mise en place d'un projet de supervision et éviter les écueils classiques : choix des mauvais indicateurs, tri insuffisant des alertes, mauvaise évaluation de la charge... Il déroule une méthodologie solide de mise en oeuvre, rappelle comment faire accepter l'outil, les problèmes soulevés par l'augmentation du nombre d'éléments surveillés, et décrit les principes à respecter concernant la pertinence des alertes et l'interprétation des indicateurs classiques.Les méthodes de supervision des systèmes et réseaux sont détaillées, avec agent comme sans agent, et une démarche d'optimisation des performances est proposée. Sont enfin décortiquées des méthodes de gestion des grandes configurations et la mise en place d'architectures de supervision à haute disponibilité et répartition de charge.
Auteurs :Jean Gabès contribue activement aux projets communautaires Nagios et Centreon. Il administre un parc chez Lectra, société spécialisée dans l'intégration de solutions dans la région de Bordeaux et qui possède un système informatique distribué sur les cinq continents.
En suivant ce lien, retrouvez tous les livres dans la spécialité Informatique-Audiovisuel.Sommaire et contenu du livre "Nagios 3 pour la supervision et la métrologie - Déploiement, configuration et optimisation"
Avant-propos .À qui s'adresse ce livre 1
Ce que ce livre n'est pas 2
Progression dans le livre et ordre de lecture 2
Les différentes parties 2
Guide de lecture 3
Remerciements 4
PREMIÈRE PARTIE
Introduction à la supervision et à Nagios
avec une mise en place simple 5
CHAPITRE 1
Intérêt de la supervision et de la métrologie 7
Améliorer la disponibilité effective des applications Il
Gérer les priorités: la production avant tout Il
Un ordonnanceur ? 1 '}
Être alerté en temps réel 7
Les problèmes sont inévitables 7
Les utilisateurs: un moyen de supervision peu fiable et pas toujours agréable 8
Pouvoir remonter à la source des problèmes 8
Éviter l'effet domino 9
Un historique pour remonter à la source des problèmes 9
Être proactifface aux problèmes 9
Les signes annonciateurs 10
Les problèmes n'attendent pas les utilisateurs 10
Une demande fréquente de la direction 10
Les différents ressentis vis-à-vis des performances 11
Tailler au plus juste le système d'information 12
Surveiller plus que le système d'information 13
• Nagios3
Supervision physique d'une salle machine 13
Enun mot 14
CHAPITRE 2
Grandes lignes de l'étude et de la mise en place
d'une solution de supervision 15
Plu s qu'un outil: un projet à part entière 15
Revoir ses processus 15
Une réparti tion de la charge de travail 16
La supervision doit évoluer avec le SI 16
Un outil faisant le lien entre les services 17
Une mise en place progressive 17
La tentation de tout superviser 18
Faire accepter le projet de supervision à ses supérieurs 18
Faire accepter l'outil parle plus grand nombre 19
Intérêt de faire adhérer toute l'équipe à l'outil 19
Limiter le nombre d'alertes et les hiérarchiser 19
L'abandonface àun tropgrandnombred'alertes:uneréactionnaturelle 19
Rendre trèsclair leniveaud'importance dechaquealerte 20
Alerteruniquement lesbonnespersonnes 20
Pour un problème donné, une alerte, et une seule 20
L'automatisationcomplète:réglerautomatiquementlesproblèmes? 21
Des indicateurs aussi simples et clairs que possible 22
Le problème du messager 23
Big Brother is watching you ? 23
La conduite du changement 24
Beaucoup d'indicateurs de performance, est-ce utile ? 24
Le nombred'indicateurs estimpo rtant 24
Quelle durée de conservation des données? 25
Des échelles simp les 25
Superviseur mais également hyperviseur ~ 26
La dure réalité de la supervision 26
Une seule console de supervision 26
Méthodesd'obtentiondesinformations 26
La modularité: réduire si possible le nombre de superviseurs 27
Enun mot 27
CHAPITRE 3
Choix d'une solution de supervision:
atouts et fonctionnement de Nagios 29
Choix d'une licence open source 29
Le besoin d'adaptabilité et de modularité 30
Transparence du mécanisme de remontée d'alerte 30
De très bonnes performances 30
o•••• •••••••••• ••••••••••• ••••••••
Mise en commun des expériences 30
Critères de sélection d'un projet open source 31
Un monde particulier, avec ses propres règles 31
Importance de la communauté 31
Assistance aux entreprises 32
Le choix de Nagios 32
Histoire de Nagios 32
Nagios ne fait rien sans ses plug-ins 33
Position de Nagios par rapport à la métrologie 33
Atouts de Nagios par rapport aux autres outils open source 34
Zabbix: la supervision simplement • ••• •••• • • ••••••••• 34
o ••• ••••• • •
Cacti: la métrologie avecSNMP 34
OpenNMS: lasupervision très SNMP 34
Ganglia: la métrologiedeselusters 35
Zenoss:trèsbonnesupervision, maispas complètementlibre 35
Orientation vers une totale modularité
: tout est plug-in 35
La modularité de Nagios
: le rôle desplug-ins 35
Des plug-inspouravertirou réagir 36
Capacité à gérer un parc important de machines 36
Performances de Nagios 36
Gestion de la configuration 37
Pertes massiv es
: la solution des dépendances 37
Architecture générale 38
Méthodes d'obtention d'informations 38
Méthode active -les alertes à l'initiative de Nagios 38
Obtention sans rebond 39
Obtention avecrebond 39
Méthode passive: les alertes à l'initiative des éléments distants 39
Données à définir dans N agios 40
Commandes de vérification 40
Arguments des commandes 41
Périodes de temps 41
Dfjinition despériodesdetemps 41
Version simple 42
Versionplus complète 42
Commandes de notification 42
De simples commandes 43
Unegrande liberté 43
Hôtes 44
États d'un noeud 44
Definition d'un hôte 44
Exemple de definition 45
Services 46
États des services 46
Definition d'un service 46
Exemple de definition 47
Importance des services 48
Contacts: qui et comment? 48
Definition d 'un contact 48
E xemple de dijinition de contact 49
Plus d'une manière de notifier un même contact 50
Groupes de contacts 51
Plug-ins d'obtention d'informations: les sondes 51
Intérêt des codes retour 52
Unevérification simpledu bonfonctionnement d'unprogramme 52
Exemple de code retour 52
Codesretour recommandés 52
Positionner nospropres codes retour 53
Aspect supervision de Nagios 53
Interprétation des codes retourparNagios 54
Affichage des informations de retour 54
Conception d'un script devérification 55
Codesretour nonprévus 56
Élémentscomplexesdes plug-ins devérification 56
Communication entre les N agios 57
Partie métrologie 58
SpécifierdesdonnéesdepeifOrmances dansles plug-ins 58
E xemple de donnéesdeperformances 58
Arguments, macros et variables d'environnement 59
A rguments des commandes 59
M acros 59
Variables d'environnement 60
Ordonnancement des vérifications et des notifications 61
Ordonnancement initial des vérifications 61
Étaler la charge sur les machines 61
Étalerlesvérificationssur leserveurNagios 61
Étalerlesvérificationssurlesmachines distantes 62
Types d'état SOIT et HARD 63
Exemple de changement de type d'état 64
Un état SOIT un peu particulier
: SOIT-RECOVERY 65
Notifications de problèmes 65
Notifications:le butdestypesd'état SOFTet HARD 65
Renvoi de notifications 66
Exemple d'ordonnancementdes notifications 66
N otifications: la configuration des contactsprime 67
En cas de problème persistant: l'escalade des notifications 68
Lorsque lesproblèmes perdurent
: on app elle un ami 68
Bien penser àl'aspectpsychologiqued'une tellemiseenplace 68
D efinition dans Nagios 69
Exemple d'escalade 69
Cas des notifications de type recovery 70
Destination de toutes les informations récoltées 70
Informations d'état, d'alerte et de notification 70
En cas de redémarrage
: le fichier status.sav 71
Un module d'export de donn ées
: NDOUtils 71
Comment donner un ordre à Nagios 71
Fonctionnement de la communication 71
Ce qu'on peut lui demander 72
Prise en compte d'un état 72
Forcerun résultatde vérificationd'un service 72
Enunmot 73
CHAPITRE 4
Premier niveau de test
: réponse d'un noeud sur le réseau 75
Tests directs sur le réseau 75
Tests applicatifs simples 76
Test des ports réseau 76
Un test simple et léger 76
Test d'un port T CP 77
Un testsuffisantpourladisponibilitéd'unhôte 78
Test des services web 79
Principe des tests HTTP 79
Leplug-in check_h ttp 80
Casdesservices webàaccèssécurisés:authentification, HTTPS 81
Jouer un scénariopluscomplexeavec Webinject 83
Test des services DNS 86
M éthode de supervision des DNS 87
Exemple de test DNS 87
Test des annuaires LDAP 87
M éthode de supervision 88
Exemple d'interrogation LDAP 88
Supervision du DHCP 89
Un élément indispensable pour les clients 89
Sonde check_ dhcp 89
Problèmes de droits 89
La commande sudo 90
L e bit SUID 91
Supervision de la messagerie 91
Supervision d'une base MySQL ou PostgreSQt 92
Lorsque de simples vérifications réseau ne suffisent pas: les agents 93
Rôle des agents 93
Principaux agents disponibles 93
NRPE
: lancer des plug-ins à distance 93
Fonctionnement de NRPE 94
Configuration du démon 94
Fichier de configuration principal 95
Gérer lesexceptions de configuration 96
Lancement de l'agent 97
Exemple d'interrogation 97
SSH peut également faire l'affaire 98
Lancement decommandes à travers SSH 98
Problème de l'authentification 99
UtilisationdeSSH àla placede NRPE 100
SNMP: une liste de données exportées 100
Le protocole SNMP et les OID 100
Exemple d'interrogation SNMP 101
SNMP sur les serveurs 101
NSClient++
: des plug-ins et des données 102
Mi se en place 103
Un peu plus que des valeurs imm édiates 104
Importancede WMI 104
En un mot 105
CHAPITRE 5
Installation et con'figuration
: premier test de quelques
serveurs web...................... 107
Objectifs de cette mise en place 107
Première installation: simplicité , 108
Choix du système 108
Installation par le gestionnaire de paquetages 108
Avantages de l'installation parpaquetage 108
Quelques désavantages 109
Installation des paquetages 109
Principaux fichiers de configuration de N agios 111
Mise en place de la vérification 112
Description de l'environnement supervisé 112
Configuration des contacts 112
Commandes d'envoi d'e-mails 112
Configuration despériodes 114
Configuration des contacts dans contacts.cfk 115
Configuration des hôtes 116
Commande de vérification des hôtes 116
Configuration des hôtes 117
Configuration des services 119
Commande de vérification des services web 119
Configuration des services web 120
Définition desfichiers de configuration dans nagios.cfk 121
Lancement de Nagios 121
Test de détection d'un problème 124
Complexifions un peu l'architecture 125
Supervision des systèmes 125
Importance de la supervision système 125
Supervision du serveur de supervision 126
Prise en compte de localhostpar Nagios 128
Supervision des systèmes distants 129
Mise en place de la console de supervision 133
Une brique utile dans la solution de supervision 133
Une interface qui évolue 133
Mise en place de l'interface web 133
Implications d'une augmentation du nombre d'éléments 135
Une augmentation inévitable du nombre de noeuds 135
Une augmentation dangereuse du nombre de notifications 135
Une lourdeur croissante de la configuration 136
En un mot 137
DEUXIÈME PARTIE
Options avancées de Nagios 139
CHAPITRE 6
Trier les alertes et améliorer leur pertinence 141
De l'intérêt de filtrer correctement les alertes 141
Concision des alertes 142
Concision et précision 142
Exemple d'e-mail d'alerte 142
Exemple de SMS 143
Bien choisir le niveau d'erreur 143
Criticité 143
Difficulté de définir les niveaux de criticité 144
Des niveaux évoluent amenés à évoluer 144
Une seule alerte par erreur 145
Diminuer encore le nombre d'alertes 145
Les dijférentessupervisions 145
R éaction de N ag ios 146
Dépendances réseau 147
Problématique despertes réseau 147
Solution: les dépenda nces réseau 148
D efinition d'une relation de supervision 149
Dépendances applicatives 151
Dépendances entreservices 151
Plusieurs dépendances pour un même service 153
H éritage des dépendances 154
Se concentrer sur les vraie s alertes
: la production 155
Les notifications
: réservées à la production 155
Lesdijférents environnements 155
Astreintes 156
Du rouge dans la console de supervision: à réserver à la production 156
Tire r avantages des périodes 157
Des alliées précieuses 157
Périodes de supervision 158
Périodes de notification 158
Que faire dans le cas de simples pertes de connexion? 158
D es pertes inévitables 158
D ans la p eau d'un utilisateur 159
Dessur-couches pouréviterlaproliférationdeplug-ins 160
Moins de plug-ins, plus de choix 160
Diminuer de niveau d'alerte 161
Pour se limiter à la métrologie 162
Supprimerla métrologie 163
Comment obtenir le résultat inverse d'une commande 163
Égayer (un peu) les alertes 164
Le fond et la forme 164
Un peu de couleur dans un monde de brutes 165
Alertes en flux RSS 166
Un vecteur d'information très employé et pratique 166
Mise en place de rss-multiuser 166
Exemple deflux 167
Alertes par SMS 168
Canaux d'alerte non conventionels 170
Des moyens d'alerte originaux 170
Lecture d'un son 170
Alerte sur l'écran LeD du clavier 170
Le lapin qui chante et qui danse 171
Le lance-roquettes USE 172
Les réactions sur alertes, ou comment régler automatiquement les problèmes . 173
Une solution séduisante à double tranchant 173
Gestionnaires d'événements 173
Définition 174
Gestion de l'effet « yoyO» 176
Une tempête de messages 176
Méthode de détection 176
Exemple de détection 177
Gestion des périodes de maintenance 178
En un mot 179
CHAPITRE 7
Services particuliers
: journaux, alertes SNMP 181
Comment vérifierles fichiers journaux 181
Méthode de vérification des journaux 181
Une supervision primordiale 182
Une analyse par morceaux 182
Exemple de plug-in de vérification des journaux 183
Problème des tests consécutifs 183
Tests suivants 183
Test en état OK 184
Erreur de moindre importance 184
Erreur de même criticité 184
Configuration au sein de Nagios
: la volatilité 185
Qyand chaque changement est important 185
Lorsque la volatilité est de trop 185
Suivi précis des états 186
Exemple de paramétrage 186
Services passifs: exemple de gestion des alertes SNMP (traps) 187
Intérêt des services passifs 187
Les vérifications actives nepeuv entpas tout 187
Donner l'information d'état à Nagios 187
Notion de « fraîcheur» d'un état 189
Limites desalertespassivessimples 189
Commepourlepoisson, lafraîcheurestimportante 189
Un plug-in toujoursen erreurpourprévenir lesadministrateurs 190
Exemple de configuration 190
Positionnement correct du seuil defraîcheur 191
Comment gérer les traps SNMP 191
Configuration deSNMPT RAPD 192
Configuration de SNMPIT 193
Configuration duservice TRAPpourlaréception desalertes 194
Exemplederéception d'unealerte SNMP 195
Réception et traitement des alertes passives distantes 195
Un moyenefficacederécolterlesétatsdistants: NSCA 195
Sonfonctionn ement 195
Configuration du démon 196
Configuration du client 197
Lancement du démon et du client 197
Exemple d'application: traitement desjournaux par un servicedistant 199
Un type de vérification particulier: surveiller un cluster 201
Des clusters variés 201
Supervision des services réels 202
En actif/actif 202
En actif/ passif 202
Avoir une vue agrégée du cluster 203
Plug-in check_cluster 203
M acros à la demandes 204
Exemple de tests du cluster 206
Ne pas oublier la vue utilisateur 206
En un mot 207
CHAPITRE 8
L'héritage de configuration pour les grands environnements 209
Techniques de gestion de configuration 209
Factoriserpourtraiterlesnoeudssimilaires 209
Gérer les exceptions 211
Gérer simplement une configuration complexe 211
Héritage de même type: définition de modèles 213
Factorisation simple 213
Factorisation par modèle 213
Mise en place dans Nagios 213
Gestion des exceptions 215
Héritage sur les services et les contacts 215
Cascade d'héritages 216
Arbre d'héritage 216
Exemple d'arbre d'héritage 217
Héritages multiples 218
Avoir plus d'un modèle 219
Definitionau sein deNagios 219
Exemple de définition 220
Ordre d'héritage entre modèles 220
Prioritéà lapremière v aleur assignée 221
E xemple d'ordre d'héritage 221
Réduction de la configuration: application des servicessur les groupes de noeuds 223
Groupes de machines 223
Ajout de services à un groupe 224
Definir un service sur un groupe de noeuds 224
Définition et exemple 225
Gestion desexceptions 226
Héritage implicite: hériter d'un autre type 228
Problèmessoulevésparl'associationdesservicesauxgroupes 228
Achaque problème sa solution 229
Rechercher les informations dupliqUées 229
R éaction de Nagios 229
o •••••• • • • ••••••••••• • • • • •••••••• •
Exempled'héritage implicite 230
Une solution à ne pas utiliser systématiquement 231
Héritages des macros variables: généralisation de l'héritage implicite 232
L 'intérêt des macros v ariables 232
Exemple d'utilisation 232
Héritage additif: ajouter une valeur au lieu de l'écraser 233
Limites des modèles simples et solution de Nagios 234
Héritage additif sur héritage implicite 235
Héritages: ordre de succession 236
Impact de cette puissance de configuration 237
En un mot 238
CHAPITRE 9
Pousser Nagios dans ses derniers retranchements 239 Les performances: une problématique complexe 239 Des besoins divers 239 Un ordonnancement coupable 240 Une rétention trop élevée 241 Observerles performances de Nagios 242 Latence : Nagios nous montre s'il tourne au ralenti 242 Latence des ordonnanceurs 242 Mesure de la latence: nagiostats 242 Exemple de sortie de nagiostats 243 Supervision de la latence 244 Mé thodologie de test de performances 245 Unemyriadedeservicessur un noeud 245 Configuration nécessaire 245 Une situation idéale 246 Évolution de la latence en fonction du nombre de services 247 Tampon de traitement des informations passives 249 Une charge machine atypique 25 1 Revoir l'ordonnancement de ses vérifications 251 Diminuer le nombre de vérifications lancées 251 Suivre les conseils de Nagios 252 Améliorer les plug-ins 253 Impact du type de sondes sur les performances 253 Un impactfOrt 253 Scripts contre exécutables 253 Utilisation de l'interpréteur Perl intégré 255 Un interpréteur intégré 255 Exemple d'utilisation d'ePN 256 Tester un script avec l'interp réteur intégré 257 Spécifier à Nagios d'utiliser ou non ePN 258 M iseenplaceprogressived'ePN 259 NRPE ou SSH 259 Des vérifications actives aux passives 259 La virtualisation malheureusement encore déconseillée 260 Options de configuration augmentant les performances 261 Mécanismes de cache de Nagios 261 Vérifications supplémentaires 261 Réutilisation desétats en mémoire 262 Performa nces contre précision 262
Trouver un bon cache hit ratio 263
Options spécifiques aux environnements très étendus 263
Suppression des variablesd 'environnement 264
Nettoyage de l'espacemémoire des plug-ins 265
Supp ression de/a double duplication 266
Utilisation conjointe des trois techniques 267
Positionnement des fichiers intermédiaires 268
Systèmes defichiers en mémoire 268
Fichi er status.dat 269
Répertoire checkresults 270
Impact desfichierstemporairesen mémoire 270
Consommation de RAM de Nagios 271
Architectures distribuées 272
En un mot 272
CHAPITRE 10
Haute-disponibilité et répartition de charge 273
Haute-disponibilité 273
Un Nagios dans l'ombre d'un autre: la voie active/active 273
Deux Nagios actifs à lafois 274
Superviser un Nagios 275
Réactionjàce àlapertedu Nagiosmaître 275
Limiter lapériode de brouillard 277
Synchroniser les deux N agios 277
Un Nagios dormant de secours: la méthode active/passive 278
Un seul N agios actifà lafo is 278
Problème des étatsprécédents 279
Relaispar le Nagiossecondaire 281
Éparp illement des données de métrologie 282
Répliquer N SCA 283
Répartition de charge: à chaque Nagios sa tâche 283
Centraliser les informations, pas la charge 283
Unearchitecturedistribuéeaveclescommandesexternes 283
Simplification de la répartition avec NDO 285
NDOMOD: un nouveau type de module 285
Le module Ndomod: exporter lesdonnées 286
Ndo2db
: recevoir les données et lesplacer dans une base 289
Architecturedesupervision distribuée avec NDOUtils 291
Répartition de charge par Worker (DNX) 294
Une nouvelleutilisation del'ev entbroker 294
M oduleserveur 296
Clients DNX 297
Avantages et inconvénients 299
Utilisation de DNX et NDO 299
Répartition de charge à haute-disponibilité 301
Le besoin accru de disponibilité 301
À chaque Nagios son ombre 301
Haute-disponibilité pour ND02DB 303
Un service important à doubler 303
Mise en placede HeartBeat 304
Adresse virtuellepour NSCA 307
Supervision deHeartBeat 307
En un mot 307
TROISIÈME PARTIE
Écosystème de Nagios et mise en place de la solution ...309
CHAPITRE 11
Outils d'aide à la configuration
: l'exemple de Centreon 311
Intérêtdetelsoutils 311
Une configuration longue et fastidieuse 311
La gestion simultanée des aspects de métrologie 312
La solution Centreon 312
Mise en garde
: limites des outils de gestion de configuration 313
Les outils ne font pas tout 313
Nagios avance vite 314
Des fonctionnalités à utiliser avec parcimonie 314
Centreon, le meilleur ami de votre Nagios 315
Un outil incontournable 315
Une évolution constante 315
Unenouvellegestiondela métrologie 315
Unegestion simple des alertes SNMP (traps] 316
Des architectures distribuées enfin simples 316
Aspect configuration
: le coeur de Centreon 316
Lesconfigurationspassées nesont pasoubliées 318
Despossibilités de configuration bien connues 319
D'autres unpeuplusparticulières 320
Moins d 'utilisation du shel! 321
Aspect supervision des alertes 321
Une console trèspratique 322
Obtention de toutes cesinformations 324
Un historique des alertes 324
Restrictions d'accès 325
Des informationsprivées 325
Diminuer le nombred'élémentsaffichés 325
Des accès en modification à surveiller 326
Gestion des accès selon Centreon 326
Centreon, gestionnaire de la métrologie 328
CentStorage: legestionnaire des données de performances 328
Destination des info rmations 329
Accès aux courbes 329
Des informationssurlespeifOrmancesde Nagios 330
Centreon facilite la gestion des alertes SNMP 331
Un chargement et une compilation automatique 331
Remontéed'alertes de SNMPITvers Nagios 332
Centreon pour gérer Nagios en distribué 333
Une configuration complexe 333
LesNagiosdistants :despollers 333
A ssociationsp oiler / hôtes 334
Envoi des configurations 334
DesNagiospresque indépendants 335
Métrologie issue dessatellites 335
Des notifications à repenser 336
En un mot 336
CHAPITRE 12
Au-delà de la supervision
: cartographie et reporting 337
Agrégation de vues avec NagVis 337
Miseenreliefdes informationsimportantes 337
Des consoles qui ne se v ident pas 338
Desalertesplus ou moins critiques 339
Écrans publicset écrans privés 339
Choi sir les informations à afficher 340
Sélection des alertes sur les écranspublics 340
Sélection desalertessurlesécransprivésdesadministrateurs 341
Luttercontrela tentation de multiplierlesindicateurs 342
Des vueshiérarchisées d'indicateurs 342
Vues de différents types
: logique,physique, géographique 343
Représentergraphiquement lapriseen comptedeserreurs 344
Localiser et illustrer les erreurs 344
Fonctionnement de NagVis pour cartographier les erreurs 345
Disposition des indicateurs sur une carte de supervision 345
Choix des images par l'administrateur 346
Imagesdeséléments supervisés 346
Bibliothèque d 'images libres 347
Récupération des états 347
Ndomy :lecturedepuisunebaseM ySQL (ndo2db) 348
Ndo2fs
: lecture depuis desfichiersplats 349
Rotation des vues dans NagVis 351
Mise à jour automatique des cartes à l'ajout d'un noeud 352
Reporting dans Nagios 352
De l'importance d'une analyse plus globale et dans le temps 352
Définir les indicateurs: une mission délicate 353
Le module de reporting de Centreon 354
En un mot 355
CHAPITRE 13
Compilation et installation de Nagios, Centreon et NagVis.. 357
Les différentes possibilités de mise en place 357
Installation à partir de paquets 357
Compilation depuis les sources 358
Mise en place complète automatique avec FAN 358
Installation manuelle complète -à titre didactique 359
Compilation et installation de Nagios 359
R écupération du programme Nagios 360
Pré-requis de Nagios 360
Phases de l'installation de Nagios 360
Compilation de NDOUtils 363
R écupération et compilation de NDOUtils 363
Création dela basepour NDO 364
Installation de NDO 366
Installation des sondes de Nagios 366
Installation de Centreon 368
Pré-requis à l'installation 368
Récupération et installation de Centreon 369
Configuration de Centreon 372
Mise en place de NagVis pour l'agrégation de vues 374
In stallation de NagVis 374
Configuration de NagVis 374
Configuration des droits sur NagVis 375
Mise en place de la base de connaissances 376
Un wiki comme gestionnaire de base de connaissance 376
Installation de MediaWiki 376
Mise en place de la sauvegarde avec mysqldump 377
En un mot 380
CHAPITRE 14
Aide à l'interprétation des indicateurs classiques 381
Obtention des indicateurs 381
Sur les systèmes Linux 381
Informations globales 382
Informations relatives aux processus 382
Analyse des informations 382
Sur les systèmes Windows 384
L'existence d'un indicateur de charge globale 384
Une question récurrente ;)84
Définition de la charge moyenne, ou load average 385
Processus pris en compte 386
Moyennes exponentielles 387
Exemples de courbes 390
Représentation visuelle du load average 390
Systèmes typiques 391
Système sous-dimensionné 391
Systèmebien dimensionné 392
Système sur-dimensionné? 393
Changement de point de vue 393
Analyse contradictoire 393
Attentes des utilisateurs 394
Une analyse variable de la charge 395
Deux indicateurs valent mieux qu'un 395
L imites du load average considéréseul 395
Analyse du load average 395
Charge des processeurs 398
Un indicateur important 398
Plusieurs types de charge CPU 399
Récupération effective de la charge CPU 400
Sous les Un ix 400
Sous Windows 400
Superviser la mémoire 401
Un indicateur un peu particulier 401
Méthode naïve de supervision de la mémoire 402
Le piège des caches disque 402
Des cachesbien pratiques 402
Un espacedisponible 403
Sous Unix 403
Sous les systèm es Window s 404
Cas des gestionnaires de bases de données 405
Espace d'échanges sollicité non vide malgré la mémoire disponible 405
Relation de dépendance 406
Problème des 1/0 disque 407
Une ressource très limitative 407
Une supervision complexe 408
Supervision de la charge réseau 408
Des liens parfois insuffisants 408
Systèmes d'exploitation 409
Sous Unix 409
Sous Windows 409
Éléments réseau 409
Le reste de la supervision système 410
Esp ace disque 411
Une ressource importante 411
Seuils d'alerte 411
Sondes de superv ision 412
Montages NFS 413
Agrégats réseau 413
État des imprimantes 413
Sous Unix 414
Sous Windows 414
Services lancés automatiquement 415
Redémarrage des machines 415
Indicateurs physiques 416
Alertes prioritaires 416
Température et humidité 416
La température
: une valeur très variable 417
L 'humidité: variable suiva nt la saison 417
Consommation électrique 417
En un mot 418
CHAPITRE 15
Configuration appliquée à un système imaginaire 419
Récupération des informations sur le système à superviser 419
Conception de l'architecture de supervision 420
Regroupement par type
: système, réseau, applicatifs... . 420
Procéder par étape 421
Groupes d'administrateurs et contacts 422
Groupes de machines à superviser 423
Packs de sondes à mettre en place 424
L'indispensable base de connaissances 425
Configuration de N agios dans Centreon 425
Un ou plusieurs Nagios 425
Configuration d'un Nagios 426
Fichiersjournaux et autres 426
Options de vérification 426
Options de timeout 426
Interaction avec NDO 427
Options de peifOrmances 427
Pages de débogage 427
Configuration de NDü dans Centreon 427
Accès à la base de données (NDü2DB) 428
NDüMüD 428
Application des techniques d'héritage dans Centreon 429
Choix de la méthode de configuration 429
Configuration des commandes et des contacts 429
Des commandes dqà configurées 429
Facilités de configuration apportéespar Centreon 430
Configuration des sondes check_nrpe et check_nt 431
Commande d'envoi des e-mails 432
Configuration des contacts 433
Configuration des hôtes 433
Commencerpar les modèles 433
Definir lesgroupes 434
Configuration
Configuration des services 435
Quelques principes de bon sens: nommage et parcimonie 435
Commencer encorepar les modèles 436
Les packs d'abord 436
Les particularités de la supervision système ensuite 437
Les applications pourfinir 438
Ne pas oublier la base de connaissances 439
Configuration des ACL 439
Génération de la configuration par Centreon 439
Création des vues agrégées dans NagVis 441
Séparation des différents types de cartes 442
Mise en place d'une nouvelle carte 442
Choix des indicateurs représentés 442
Une hiérarchie de cartes à respecter 443
Des exemples de cartes pour les administrateurs 444
En un mot 444
CHAPITRE 16
Conclusion et perspectives 445
Une solution pleinement fonctionnelle 445
Nagios, une solution en constante évolution 446
ANNEXE A
Les principales sondes 447
Supervision des ressources système locales 447
La supervision de l'état physique de la machine 449
La supervision des applications locales 449
La supervision des services distants 450
La supervision des systèmes distants 452
Les sondes utilitaires pour Nagios 454
ANNEXE B
Options de configuration de nagios.dg 457
Déclaration des fichiers 457
o•• •••• •••• •••• ••• •• ••• •• •• •••••• ••••• •••••
Configuration de la supervision 459
Chargement des modules 461
Options de journalisation 461
Configuration de l'ordonnancement 463
Options de localisation 473
Options de déhogage et de performances 474
Index 477