PDA

View Full Version : Beacoup de timeout...


stekut
7th February 2008, 13:21
Bonjour à tous.

Je migre actuellement (machine par machine) notre supervision.
Bizarrement je rencontre déjà des timeout Nagios ("ERROR: Alarm signal (Nagios time-out)") alors que j'ai à peine déployé 30 machines.

Y-a-t-il quelque chose à optimiser dans la conf' qui aurait échappé à ma vigilance ?

Plus étrange encore, quand un service passe en état de problème (Warn - Crit - Unknown) il ne re-check pas aussi fréquemment qu'il le devrait.
Typiquement, tous mes checks sont effectués toutes les 5min avec 2 retry toutes les 1 minutes, là il est 12h24 (heure machine), dernier contrôle à 12h12, durée 11m58, essais 1

Normalement nagios devrait avoir fait un autre contrôle depuis le temps et devrait avoir fait plus d'1 essai...

Pour info, je dispose d'un IBM xSeries 346 avec 2 CPU bi-processeurs Intel Xeon cadencés à 3,2GHz, 4Go de RAM, je ne pense donc pas avoir atteint les limites de la bête :-)
RedHat Entreprise Linux 4 Update 5
Nagios 2.9 - Centreon 1.4.1

Quelqu'un a des idées ?
D'avance merci.

naparuba
7th February 2008, 14:16
Tu as mis un agressive host check à 1 ou un check de host sans timeout?

stekut
7th February 2008, 15:00
l'Aggresive Host Check est à "yes" (donc 1 je suppose dans la conf')

naparuba
7th February 2008, 15:05
Mets le à zero. Ce paramètre force Nagios à checker l'état des hosts. Or, avec nagios 1 et 2, lors d'un check Host, aucun check service ne se fait, ce qui induit une latence énorme. Si tu met à zero (no quoi), il n'ira checker l'état de l'host que si un service dessus à un problème, ce qui n'est pas plus mal.

English version: put agressive host to no if you don't know why to put yes :)

stekut
7th February 2008, 15:17
En effet, je suis allé voir dans la doc nagios l'option, je n'y avais pas mis les pieds depuis la version 1.2 ...sisi c'est possible !!! Du coup ce genre d'option ne me parle plus beaucoup...
Bref faudrait que je relise la doc' parce que là l'erreur était vraiment basique...

En tous cas grand merci à toi, il n'y a en effet plus de problème (pourquoi ce paramètre est par défaut à "yes" ? Cela ne me semble pas très optimal.).

naparuba
7th February 2008, 15:44
De rien.

Regarde la doc de la 3, tu verras que ça change encore pas mal sur les notions avancées :)

Etrange ce paramètre par défaut en effet.

naparuba
7th February 2008, 16:28
Au fait, il faut agressive host check à zero ET un check host interval a zero également pour avoir ce comportement. tu peux vérifier avec nagios-s nagios.cfg et voir le nombre de host check qu'il prévoit.

stekut
7th February 2008, 16:35
-s ... hummm en v1.2 ça n'existait pas :-)

Merci.