PDA

View Full Version : Notification : nombre d'essais...?


stekut
07-01-2008, 11:04 AM
Bonjour à tous,

ce n'est pas un problème pour le moment, mais cela pourrait le devenir, alors je préfère poster.

Le nombre d'essais permet de définir un nombre de tests avant de passer d'un état SOFT à un état HARD, c'est par ailleurs ce qui détermine l'envoi d'une notification.
Pour tous mes services qui font des requêtes SNMP, j'ai mis le nombre d'essais à 3 (défini de manière arbitraire, 2 étant le minimum vital car une requête SNMP basée sur de l'UDP peut facilement se perdre...).
Donc au bout de 3 tests en échec j'ai mon envoi d'alarme, cool !

De la même manière, pour un service passif (dans mon cas des traps SNMP), j'ai déterminé le nombre d'essais à 1, car le statut ne change que si on reçoit une trap, on est donc sûr qu'il y a une alarme et bam envoi de mail, encore cool :)

Le problème est : comment faire quand un service est à la fois actif et passif ?
Typiquement, pour les interfaces réseaux (c'est un exemple), je veux que mon service fasse ses requêtes mais également qu'il reçoive les traps quand une interface tombe, et pour la notification ça coince, si je me le nombre d'essai à 1, dès qu'une requête SNMP foire j'aurai un mail UNKNOWN (et ça peut vite devenir du spam quand on a plusieurs milliers de services...) soit je mets le nombre d'essais à 3 et je ne reçois jamais par mail les traps (sauf si j'en reçois 3 d'un coup !).

Existe-t-il une solution à ce problème ?

Une sorte d'option cachée qui permettrait de déterminer le nombre d'essai pour le passif et un autre nombre d'essai pour l'actif (là on entre directement dans le moteur nagios j'en suis conscient et je n'y crois pas trop bien que cela pourrait être utile) ? Ou alors un moyen de la contourner (autre que de faire deux services dissociés, c'est justement ce que je veux éviter.

Merci pour votre aide.

Nagios v2.9
Centreon v1.4.2.4

garcimor59
07-01-2008, 11:09 AM
Salut stekut,

Rien à voir mais je t'ai envoyé un mp! ;)

Merci

++

naparuba
07-01-2008, 11:19 AM
Je crois qu'il n'y a que par la définition de 2 services différents. As-tu vraiment besoin d'avoir 2 sources d'informations pour une même erreur (un service)? Car c'est redondant au final non?

stekut
07-01-2008, 11:31 AM
C'est vrai que c'est redondant, mais c'est aussi plus réactif, je fais des check régulièrement toutes les 10 minutes, recevoir une trap permet d'avoir l'info de manière instantanée sans attendre le prochain polling (et pour des core routers c'est vital, un lien 10G avec un FAI qui tombe doit être vite vu !).

Je pourrais ne recevoir que des traps et ne pas faire de checks, par contre dans ce cas, je n'ai pas d'état global de toutes les interfaces (uniquement celle qui tombe à chaque fois) et si l'interface qui envoie les traps tombe bah je deviens aveugle et ne reçoit plus jamais de traps !

naparuba
07-01-2008, 11:34 AM
Oui, pas facile dans ce cas en effet. Malheuresement à ma conniassance il n'y a pas de distinction sur le retry entre actif et passif (c'est même utile à certains cette non distinction). Donc à par 2 services mis dans un service groupe, mais bon bonjour la conf après :(

stekut
07-01-2008, 11:44 AM
Ok, bon bah tant pis pour moi...j'vais dire deux mots à Ethan ! lol