Announcement

Collapse
No announcement yet.

Hosts et Services

Collapse
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • templuche
    replied
    Quand est prévu le prochain scheduling des services?
    Combien as tu de machines? Combien as tu de services? As tu la même erreur sur l'interface Nagios?

    Leave a comment:


  • PtitDav
    replied
    Tout est identique...
    Seules les Ip et nom de machines changent. (et heureusement :wink: )

    Leave a comment:


  • templuche
    replied
    Non, heureusement

    Questions. Est ce que les paramètres de configuration sont exactement les mêmes? Est ce que tu as bien activé le check pour ces services? Est ce que l'interval entre 2 checks n'est pas trop long? Est ce que les services ne sont pas en mode passif uniquement? Quand est prévu le prochain scheduling des services?

    Leave a comment:


  • PtitDav
    replied
    Oui oui je suis d'accord avec toi sur ce point.
    Cependant, cela reste tout le tps en "pending" alors que les autres hosts, qui ont exactement la meme configuration au niveau de nagios et les memes services associés, passent bien en "up".

    Tu voudrais dire que je dois provoquer une erreur pour que Nagios réalise un check sur l'host conserné?

    Leave a comment:


  • templuche
    replied
    Bonjour,

    Je reviens sur ce post pour préciser. PENDING ne signifie pas "inaccessible". Un host est en état pending quand en fait, Nagios n'a aucun moyen de déterminer l'état du serveur car il n'a pas encore la moindre information dessus (pas de check effectué). Unreachable peut être traduit par inaccessible, pas pending qui devrait être traduit plutôt par "en attente". Un host qui le message "Host assumed to be up" est un host en état OK.

    Si un host n'a pas de service, il ne sera pas checké par nagios. Nagios ne checke un host si et seulement si un de ces services passe en état d'erreur. PtitDav, ce ne serait pas cela ton problème?

    Leave a comment:


  • PtitDav
    replied
    Bon j'ai réglé le problème.
    Donc voilà la manipulation à faire si vous avez eu le même pb que moi:

    - arrêter le service nagios
    - éditer le fichier /usr/local/nagios/var/status.sav
    - copier/coller de cette ligne:
    HOST: NOM_MACHINE;0;1124974991;1;3582;0;0;0;0;1;1;0;1;1;1;1124971508;(Host assumed to be up)
    - remplacer les champs suivants dans la nouvelle ligne créée:
    -> NOM_MACHINE par le nom de la machine qui vous pose problème
    -> 1124974991 par un autre qui ressemble mais éviter qu'il soit indentique à un autre
    -> 3582 par un autre du meme style mais surtout pas 2 identiques
    -> 1124971508 par un autre qui ressemble mais éviter qu'il soit indentique à un autre
    - sauvegarder la modification
    - relancer le service nagios
    - vérifier dans l'interface d'Oreon que l'host est bien en "UP" et qu'il s'actualise bien de tps en tps.

    Leave a comment:


  • PtitDav
    replied
    Oui j'avais vu cette ligne.
    Je vais rajouter un check command mais sur l'hote lui meme com tu le decris.

    Leave a comment:


  • wistof
    replied
    donc si je comprends bien, ton 'check_command' pour ton host est vide ?

    This directive is used to specify the short name of the command that should be used to check if the host is up or down. Typically, this command would try and ping the host to see if it is "alive". The command must return a status of OK (0) or Nagios will assume the host is down. If you leave this argument blank, the host will not be checked - Nagios will always assume the host is up. This is useful if you are monitoring printers or other devices that are frequently turned off. The maximum amount of time that the notification command can run is controlled by the host_check_timeout option.
    donc il devrait être UP alors, c'est bizarre ton histoire...

    Leave a comment:


  • PtitDav
    replied
    Pour répondre aux 2 dernieres personnes qui ont répondu, je répéte que je n'utilise aucun service (pas de check ni quoi que ce soit) pour que oreon determine si un host est "up" "down" ou "inaccessible".

    voilà 2 champs trouvés dans le fichier "staus.log" de Nagios:

    [1124974154] HOST;name1;UP;1124972739;1124971528;0;1186;0;0;0;0;1;1;1;1;0;0.00;0;1;1;(Host assumed to be up)
    [1124974154] HOST;name2;PENDING;0;0;0;0;0;0;0;0;1;1;1;1;0;0.0;0;1;1;(Not enough data to determine host status yet)
    (j'ai remplacé mes noms de serveurs par name1 et name2, question de principe :wink: )

    Vous pouvez voir que les variables de tps pour la machine qui merde sont à 0

    Leave a comment:


  • PtitDav
    replied
    j ai trouvé !!!!!!!!!!!!!!!!!!!!
    regardé ces 2 hosts: le premier est bien en "up" et le 2 est celui qui reste en "inaccessible".

    Etat de l'Host UP
    Informations sur l'état
    (Host assumed to be up)
    Last Status Check 25-08-2005 at 14:25:35
    Status Data Age 25-08-2005 at 14:05:24
    Last State Change: 25-08-2005 at 14:05:24
    Current State Duration 01-01-1970 at 01:19:50
    Last Host Notification N/A
    Current Notification Number 0
    Is This Host Flapping ? N/A
    Percent State Change 1%
    Est ce qu'un arrêt est programmé ? NO
    Dernière mise à jour 25-08-2005 at 14:26:28
    Information sur l'état de l'Host
    Host Checks: YES
    Host Notifications: YES
    Event Handler: YES
    Flap Detection: YES
    comparez avec celui ci (celui qui reste en inaccessible):

    Etat de l'Host PENDING
    Informations sur l'état
    (Not enough data to determine host status yet)
    Last Status Check 01-01-1970 at 1:00:00
    Status Data Age 01-01-1970 at 1:00:00
    Last State Change: 01-01-1970 at 1:00:00
    Current State Duration 0 y 0 d 0 m - 0:04:11
    Last Host Notification N/A
    Current Notification Number 0
    Is This Host Flapping ? N/A
    Percent State Change 1%
    Est ce qu'un arrêt est programmé ? NO
    Dernière mise à jour 25-08-2005 at 14:29:14
    Information sur l'état de l'Host
    Host Checks: YES
    Host Notifications: YES
    Event Handler: YES
    Flap Detection: YES
    Alors? Hum?!
    regarder les dates...

    c'est le 01-01-1970 at 1:00:00 qui mets la puce à l'oreille.
    en fait, pour convertir une date, la fonction qui permet cela retient le nombre de secondes écoulées depuis le 01-01-1970.

    le champs identifiant ce tepms n'est donc pas rempli pour cet host.
    Il y a surement une valeur par défaut (0 je dirais) et la fonction permettant de traduire ce temps retourne donc la date correspondant à 0 secondes ecoulées depuis le début.
    C'est donc le 01-01-1970.

    Il n'essaye donc plus de retester la connectivité avec l'host.

    J'ai vérifié, ce champs n'appartient pas à la base de données d'Oreon.
    Ca doit venir de Nagios.

    Si quelqu'un s'est où elle se trouve, ca m'aiderait bien

    :wink:

    Leave a comment:


  • wistof
    replied
    il faut vérifier aussi que ton utilisateur nagios peut lancer la commande check_ping

    Leave a comment:


  • surcouf
    replied
    Originally posted by PtitDav
    Justement je vire bien tous les logs possibles pour ne pas que l interface se base sur des historiques.
    Les test des services repartent donc bien de zéro.
    tous sont en "pending" et passent petit a petit de "pending" a "ok".
    mais seul une machine (tjs la meme) est considéré comme "inaccessible" malgré que les services associés a cette machine soit bien passé au status "ok".

    Vraiment bizar!
    de plus j ai reinstallé nagios, puis oreon.
    Quelle est la commande utilisée pour vérifier que cet hôte soit effectivement accessible ? En général, la commande check-host-alive est utilisée et fait appel au plugin check_ping. Vérifie donc déjà si l'hôte est accessible via ICMP (type 8) et si ce n'est pas le cas, il faudra changer de commande.

    Leave a comment:


  • PtitDav
    replied
    Justement je vire bien tous les logs possibles pour ne pas que l interface se base sur des historiques.
    Les test des services repartent donc bien de zéro.
    tous sont en "pending" et passent petit a petit de "pending" a "ok".
    mais seul une machine (tjs la meme) est considéré comme "inaccessible" malgré que les services associés a cette machine soit bien passé au status "ok".

    Vraiment bizar!
    de plus j ai reinstallé nagios, puis oreon.

    Leave a comment:


  • wistof
    replied
    ça doit pas venir d'Oreon.. Oreon interprète les logs Nagios, c'est tout...

    Leave a comment:


  • PtitDav
    replied
    l'accès réseau est bon puisque l'agent nsclient arrive à renvoyer ses infos.
    En vérifiant ma config, je n'utilise pour aucune des machines testées le paramètre "parent"

    J ai donc tout reinstaller. ca le fait toujours.
    Je crois que c'est ma base de données qui merde.

    Je vais tester avec une nouvelle base de données juste pour la machine concernée.

    Je vous tiens au courant.

    Leave a comment:

Working...
X