View Full Version : Graphs cessent quand un hôte est down
seb974
09-21-2007, 02:59 PM
Bonjour !
J'ai un petit soucis au niveau des graph :s
Alors voilà, dès qu'un host passe en état DOWN, mes graphs s'arrêtent :s Alors que la base continue à s'alimenter (puisque les dates de modifs des fichiers rrd dans le dossier /usr/local/oreon/OreonDataStorage change régulièrement).
--
Suite à une migration vers un autre PC, j'ai toujours le même problème, dès qu'un hôte est down, les graphs s'arrêtent.
Mais j'ai une erreur en +. Lorsque j'essaie d'accéder au graph par l'intermédiaire de la Vue Oreon / Graph par Hosts et que je choisis mon hôte, rien ne s'affiche. Pas de graph, pas de quadrillage de graph.
Cependant, je peux accéder aux graphs par l'intermédiaire de Graphs Simples, là ou j'ai les vues Daily, Yearly etc.. et je peux même sélectionner un graph pour qu'il "Zoom". Une idée ? :)
Merci d'avance de m'aider ! ^^
Ma config :
OS : Debian Etch 4.0
Logiciels : Nagios 2.6 (paquets) & Centreon 1.4.1
Plugins graphs : check_centreon_snmp_traffic et check_centreon_snmp_remote_storage
Bonjour !
J'ai un petit soucis au niveau des graph :s
Alors voilà, dès qu'un host passe en état DOWN, mes graphs s'arrêtent :s Alors que la base continue à s'alimenter (puisque les dates de modifs des fichiers rrd dans le dossier /usr/local/oreon/OreonDataStorage change régulièrement).
Suite à une migration vers un autre PC, j'ai toujours le même problème, dès qu'un hôte est down, les graphs s'arrêtent.
C'est tout a fait normal, nagios ne check pas tes services si le check actif (ping) de ton host echoue.
seb974
09-23-2007, 01:43 PM
Je comprends que nagios arrete de checker l'hôte qui est down. Mais, là, tous les graphs s'arrêtent (de tous les hôtes). Et ça je pense, c'est pas normal :s
Un hôte = Down ==> Tous les graphs de tous les hôtes s'arrêtent.
Merci de m'aider ! :)
julio
09-24-2007, 05:38 PM
t'as des dépendances ?
seb974
09-24-2007, 09:50 PM
Aucune dépendance :(
seb974
09-25-2007, 12:34 PM
Quand je parle de dépendance c'est celle qu'on peut mettre dans Configuration / Dépendances.
Mais j'ai bien des liens Parents / Enfants entre les hosts.
Personne a une idée ?
julien60
09-25-2007, 12:51 PM
Si c'est un hôte parent à tous les autres qui est down je crois que c'est normal qu'il te les mettent tous down
seb974
09-25-2007, 01:01 PM
Je sais, mais ce n'est pas le cas, un exemple :
http://img525.imageshack.us/img525/6458/mapmapuv9.png
julien60
09-25-2007, 01:21 PM
bah sur ton schéma ton host down est parent de l'host unreachable c'est normal. Si ton host parent est down ton nagios ne va pas check ses enfants qui seront forcément innacessibles aussi.
seb974
09-25-2007, 01:39 PM
Non, c'est pas normal. TOUS les graphs s'arretent, pas seulement celui qui est down ou le unreachable, mais tous les autres (les autres routeurs, les autres pcs etc...) :?
julien60
09-25-2007, 02:22 PM
ah ok! désolé j'avais pas compris ça. Alors la je vois pas du tout d'où ça pourrait venir...
seb974
09-25-2007, 02:28 PM
C'est bizarre quand même :(
D'autant plus que c'est sur un autre pc (mais avec la même base MySQL), et les 2 me font la même erreur. Ptete qu'il y a une erreur dans la base ?
Ou je peux voir les erreurs liés aux graphs ?
pleclerc
10-11-2007, 04:25 PM
Bonjour
J'ai exactement le meme probleme depuis ce matin, j'ai un site dont la ligne est down (pb FT sur Marseille) et depuis la coupure je n'ai plus aucun graphs !!!! (y compris la weathermap). Je n'ai jamais eu ce probleme sur les versions precedentes d'Oreon lorsqu'un site tombait. Je n'ai pas de dépendances et les Parents sont parfaitements gérés (parents differents sur chaque site) ! La machine Oreon n'est pas sur le site impacté.
J'ai rajouté recement un modele pour mes Hosts et un autre pour mes Services (le meme pour tous). Je n'en utilisais pas avant ! Cela peut il venir de la ?
Merci d'avance (cela faisait 3 semaines que tout fonctionnait parfaitement, mais dans cet intervalle je n'ai pas eu de coupure de site).
Salut,
J'utilise également un templates de hosts, j'ai eu un coupure ce matin d'un poste et je ne voisp as de répercution sur l'ensemble de mes graphs...
On va bien s'éclater pour trouver la cause du problème ^^
julio
10-12-2007, 10:28 AM
la a mon avis c un timeout ou un truc comme ca qui retarde la queue de nagios... Ca ne vient pas d'oreon.. mais de Nagios...
Va falloir tester et tester pour voir d'ou ca vient pour remonter le pb a ethan...
pleclerc
10-12-2007, 10:40 AM
Bonjour Julio,
Ce qui m'étonne c'est que ma structure réseau est comme cela depuis la version 1.2 d'Oreon, et je n'ai jamais eu ce probleme avant la 1.4.1+weathermap.
Mon probleme d'hier a commencé à 5h du mat (coupure de mon site de Marseille) et tous mes graphs sont revenues à 15h30 (rétablissement de mon site de Marseille, apparement probleme sur un dslam FT). Et quand je dis tous mes graphs cela concerne aussi, par exemple, le pourcentage d'utilisation processeur des machines des autres sites.
J'ai vérifié tous mes hosts parents et enfants (18 sites), je n'utilise pas les dépendances, ...
La je vois pas bien ...
Merci d'avance pour vos idées.
P.S : J ai eu une coupure de 20 minutes ce matin de mon site de Toulouse, résultat : plus de graphs nul part pendant 20 minutes ...
pleclerc
10-12-2007, 11:12 AM
Petite précision, lorsque cela arrive, le monitoring fonctionne correctement : je n'ai de remonté d'alerte que des machines présentes sur le site a probleme. Ce qui, a mon sens, montre que le probleme ne vient pas de la gestion des parents, ni d'un probleme de dépendance.
julio
10-12-2007, 11:56 AM
oui je comprend tres bien. Mais ca peut venir d'un timeout sur un check et donc d'un recul de la queue et donc d'un déreglement de ODS.. lui est pile poil a la minute. Dans la prochaine version il permettra de prendre plus de retard.
pleclerc
10-12-2007, 04:16 PM
Ok ! Merci pour ta reponse ! Je pense que je vais attendre la 1.5 alors (manque de temps pour les tests).
En règle générale nos lignes sont fiables, donc je peux patienter (ce type d'erreur ne devrait pas etre trop frequent d'ici à la sortie de la 1.5) ...
lejim
10-23-2007, 10:22 AM
J'ai la solution, j'ai été confronté au problème et j'ai effectivement vu via ps ou encore top que la commande utilisée pour checker les host ( un ping quoi ) avait un timeout déraisonnable genre 4 minutes donc forcément tous les checks sont décalés et plus rien en graphs. Dès que cet host down était désactivé ou up les graphs revenaient.
Donc ma solution changer la commande "check_host_alive" par ça :
$USER1$/check_icmp $HOSTADDRESS$ -w 40000,80% -c 50000,100% -n 20
ne pas oublier de chown root.root check_icmp et un pti chmod +s ou bien modifier la commande pour y a jouter sudo devant et autoriser l'utilisateur nagios à executer sudo sur check_icmp ( comme dans le wiki : http://wiki.oreon-project.org/index.php/Plugins:DocFR#check_icmp_.28G.29 )
Voilà avec ça vous devriez être parés.
pleclerc
10-24-2007, 12:43 PM
Bonjour lejim
Je viens d'effectuer la modif dont tu parles, par contre le chown et le chmod ne suffisent pas sur ma debian, il a fallut que je modifie le sudoers et que je rajoute sudo devant ta commande.
Merci pour ton aide, je reste en observation jusqu'a demain matin et je rends compte de mes constatations sur le forum.
pleclerc
10-25-2007, 10:35 AM
Bonjour
Pas d'amelioration pour moi, je souhaiterais remettre la ligne de commande d'origine de check_host_alive, mais je l'ai pas gardé, quelqu'un peut il me faire un petit copier/coller ?
Merci d'avance.
pleclerc
10-26-2007, 07:02 PM
Autant pour moi ! Lorsque la coupure concerne un petit site les graphs continues maintenant (2-3 machines supervisées impactées) par contre lorsque la coupure concerne un gros site, je perds toujours la totalité de mes graphs. Donc l'utilisation de cette commande semble alleger quand meme le systeme.
Mabel
02-12-2008, 10:15 AM
J'ai ce problème avec les graphiques. Quand un hôte est marqué Down, l'ensemble des services graphiques du reste hôtes s'arrêtent. Lorsque l'hôte récupère, toutes les graphiques tirées à nouveau.
S'agit-il d'une erreur de configuration ou dans le code de centreon ods?
Quelqu'un sait ce que cela doit être changé dans le code?
----------------------------------------------------------------------------------
I have this problem with the graphics. When a host is marked Down, all graphics services from the rest host stand. When the host retrieves, all charts drawn again.
Is it a configuration mistake or in the ods code of centreon?
Anyone knows what it must be changed in the code?
_________________________
Centreon 1.4.2.3, Nagios 2.6
100 Hosts 500 Services
DonKiShoot
02-12-2008, 10:22 AM
If a host is down for nagios, it stops their checks and no perfdata come to ODS.
Mabel
02-12-2008, 01:48 PM
Hi,
I know that. However, the problem is that the graphics of all services in all hosts stop drawing when one host is down. I know that graph stops in the down, but why does it interfere with the other hosts and services graphs?
When a host is DOWN, Nagios performs well checkups of the services in the other hosts but the graphics are not painted with Centreon.
I hope you understand me now. Thanks for your help.
julio
02-12-2008, 02:33 PM
yes bug nagios launch checks with lates ! and so RRDTool DB are not update with a good hearthbeat...
Check in nagios.cfg the Maximum Concurrent Service Checks. It may be to small.. In nagios 3 this problem seems to be fixed.