Announcement

Collapse
No announcement yet.

Problème de démarrage de NAGIOS avec VIP sur serveurs MySQL

Collapse
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • Problème de démarrage de NAGIOS avec VIP sur serveurs MySQL

    Bonjour à tous,


    Tout d’abord la configuration actuelle (cf schéma - ne pas tenir compte des serveurs en rouge) :

    • VLAN Front Office : il y a un poller (Nagios + ndomod) qui remonte les informations vers le serveur Central qui fait également office de poller (Centreon + Nagios + ndomod + ndo2db).
    • VLAN Back Office : les BDD « centreon, centstorage, ndo » sont situées sur deux serveurs distants répliqués. Une VIP heartbeat pointe sur le master.
    Pour des soucis de déménagement nous voulons déplacer le serveur « SQL MASTER ». Pour cela nous devons couper heartbeat (ainsi que la base) pour que la VIP pointe sur le serveur « SQL SLAVE » (sur lequel nous stoppons la réplication). En toute logique la configuration reste la même car le daemon ndo2db écrit sur la VIP (qui est à présent portée par « SQL SLAVE »). Une fois ces actions réalisées il faut redémarrer les services de supervision pour être sûr qu’aucune connexion n’est encore établie entre « CENTRAL MASTER » et « SQL MASTER ». C’est ici qu’apparaît le problème !!!

    • Problème de redémarrage de Nagios sur les serveurs « POLLER MASTER » et « CENTRAL MASTER ». Ceux-ci mettent entre 5 et 15 min à démarrer puis tous les services configurés mettent plus de 30min à se charger dans l’interface Centreon (tous les services du « POLLER MASTER » sont remontés et les checks sont enfin exécutés mais les services du « CENTRAL MASTER » ne sont pas tous remontés et aucuns check ne sont exécutés).

    • Dans le fichier « nagios.log » on observe que Nagios exécute bien ndomod mais il y a entre 5 et 15 minutes avant que le daemon ne soit finalisé


    [1312446149] Nagios 3.2.3 starting... (PID=19840)

    [1312446149] Local time is Thu Aug 04 10:22:29 CEST 2011
    [1312446149] LOG VERSION: 2.0
    [1312446149] ndomod: NDOMOD 1.4b9 (10-27-2009) Copyright (c) 2009 Nagios Core Development Team and Community Contributors
    [1312446149] ndomod: Successfully connected to data sink. 0 queued items to flush.
    [1312446149] Event broker module '/usr/local/nagios/bin//ndomod.o' initialized successfully.
    [1312446986] Finished daemonizing... (New PID=20480)
    Etant donné que l’adresse IP attaquée est la même je ne comprend pas le problème. J’ai fait le tour des fichiers de conf et de logs mais rien qui ne puisse m’aider… C’est peut-être une erreur toute simple mais à je bloque. Toute aide sera la bienvenue !!

    Merci d’avance

  • #2
    Peut-être un problème de cache arp ...
    Intel(R) Xeon(TM) CPU 3.4GHz - MemTotal : 1034476 kB
    Centreon 2.4.1 - Nagios 3.2.1 - Nagios Plugins 1.4.15 - Manubulon Plugins tuné
    Fedora Core 5 - 2.6.20-1.2320

    Comment


    • #3
      Désolé pour le retard (retour de congé) et merci DonKiShoot.

      Originally posted by DonKiShoot View Post
      Peut-être un problème de cache arp ...
      Ce n'est pas un problème de cache ARP, nous avions testé le ping sur la VIP côté slave qui était OK. Au niveau réseau la base MySQL était également accessible sur la VIP portée par le slave.

      La configuration Front/Back peut-elle poser problème?

      Comment


      • #4
        J'ai utilisé mon autre compte pour répondre au poste. Donc désolé si les pseudos ne correspondent pas

        Comment


        • #5
          Cela est peut-être également dû au fait que la base "ndo" est répliquée. Étant donné le nombre important de requêtes sur cette base, le temps de bascule et la réplication pourraient-ils faire que des requêtes échouent ?

          (mis à part le
          cache ARP y aurait-il un cache quelconque qui poserait problème ?)

          Comment


          • #6
            Bon j'ai tenté quelque chose mais en vain...

            Pour ce qui est de la réplication master/slave les bases "centreon", "centstorage" et "ndo" étaient répliquées. Etant donné que le process nagios bloque sur l'initialisation de ndomod j'ai donc arrêté la réplication de la base "ndo". Ce sont donc des tables vierges qui sont présentes dans la base "ndo" du slave.

            Sur le test de bascule de la VIP sur le slave dans cette configuration j'ai pu observer le même symptôme. Processus nagios qui est très lent à démarrer comme précédemment. Le fait d'avoir une base vierge m'a permis d'observer que la base "ndo" se remplissait (observation des tables "nagios_hoststatus" et "nagios_servicestatus"). Le nombre de services et de hosts augmentant très très lentement dans ces tables : en 5 min 100 hosts et seulement 40 services sur un nombre respectif total de 725 et 4400...

            J'en appelle toujours à votre aide (on ne sait jamais )

            Merci!

            Comment


            • #7
              Le topic peut être clos!

              Il s'agissait en fait de la batterie (BBU) de la carte PERC (contrôleur RAID Dell) qui n'était pas reconnue. La mémoire cache n'était donc pas active. Rien à voir avec un problème de conf.

              La bascule est à présent bien fonctionnelle!

              Comment

              Working...
              X