Announcement

Collapse
No announcement yet.

Charge importante sur le serveur Nagios

Collapse
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • Charge importante sur le serveur Nagios

    Bonjour à tous, je me tourne vers vous car j'aimerais bien régler une bonne fois pour toute mes problèmes de charge trop élevée sur mon Serveur Nagios/Centreon.
    Tout d'abord, les données :

    145 hôtes supervisés
    un peu moins de 1200 services
    Intervalle de contrôles : 2, 5 ou 60 minutes cela dépend...

    Serveur hébergé sur une VM avec une RedHat EL 5, synchro NTP pour éviter le problème de décalage dans le temps dû au VM...
    2 vCPU limités au max à 4.6Ghz
    2Go de ram
    2Go de swap

    -----------------------------------------------------

    Au début je tournais sans optimisation, je laissé nagios faire ! Voilà le graphe de mon Load average :



    c'était moche, pas lisse du tout, et les pointes me plaisaient pas.

    J'ai fait un petit calcule grâce à la doc de Nagios (dispo ICI ) car j'ai voulu mettre en place les contrôles de service simultanés... ce que j'ai fait ...

    La résultat du calcule permettant de savoir le nombre max de contrôles simultannés était de 3.28, mais Nagios me conseillait de mettre 7

    Voilà le graphique après avoir mis 7 contrôles simultanés max :



    ca me plait encore moins qu'avant ... Mon serveur se touche la moitié du temps et l'autre il est à bloc !

    Je n'ai touché que la valeur max pour les contrôles de services simultanés. Mon Service Reaper Frequency est à 5sec et mon Inter-Check Delay à 1.52.

    Est ce que quelqu'un à des conseils à me donner niveau optimisation parce que je pense que je dois me planté quelque part, c'est pas possible sinon ...

  • #2
    [Troll on]
    La virtualisation pour des serveurs qui bossent c'est de la merde !!!
    [/Troll off]
    Intel(R) Xeon(TM) CPU 3.4GHz - MemTotal : 1034476 kB
    Centreon 2.4.1 - Nagios 3.2.1 - Nagios Plugins 1.4.15 - Manubulon Plugins tuné
    Fedora Core 5 - 2.6.20-1.2320

    Comment


    • #3
      hé oui je sais ... malheureusement on m'a pas donné le choix ^^
      les stagiaires ont difficilement leur mot à dire lors de la mise en place d'un projet... même si je leur avais conseillé un serveur physique !
      Last edited by Cyr1us; 2 October 2009, 14:30.

      Comment


      • #4
        personne n'a de conseil à me donner ? j'ai pas l'impression de faire de connerie, je pense bien suivre la doc et pourtant cela ne change rien !

        Comment


        • #5
          Mieux vaut laisser les options de conf d'interleave en smart (s). Concernant le nombre max de lancement, laisse à 0, pas la pein de le brider si c'est un serveur dédié, de toute manière il ne s'écroulera pas. Tu as une idée de la latence de ton nagios? (nagiostats)

          PS: bon sinon la virtualisation c'est très mal pour les ordonnanceurs, mais bon comme tu dis, tu n'as pas le choix. Demande tout de même à tes admins l'info suivante:
          *le %ready de la VM en pleine charge. Si c'est > 10%, tu auras la preuve du besoin d'un serveur plus costau.
          Mais pour 1200 checks, ca devrait suffire.
          Auteur de Shinken, outil de supervision compatible avec Nagios et orientée supervision distribuée hautement disponible et mulitplateforme.

          Comment


          • #6
            Je suis actuellement en Smart, avec 0 pour le nombre max de contrôle simultannée.
            Concernant les nagiostats :

            Temps moyens de latence des contrôles :
            Hotes : 1.521 sec
            Services : 1.072 sec

            Temps moyens dexécution des contrôles :
            Hotes : 0.191 sec
            Services : 1.117 sec

            J'espère que c'est bien de ca que tu parlais ! ^^
            Bon sinon j'ai quand même des pointes à 10-12 de charges... ca craint...
            Je vais vérifier le %ready de la machine !

            Merci.

            Comment


            • #7
              Il n'y a pas de panique à avoir, oui tu as du load, mais ton Nagios va encore très bien question latence. 1s c'est bien. Regarde le %ready pour une source extérieure, si ce n'est pas ça, on va aller plus en profondeur
              Auteur de Shinken, outil de supervision compatible avec Nagios et orientée supervision distribuée hautement disponible et mulitplateforme.

              Comment


              • #8
                Peux tu m'en dire un peu plus sur le %ready d'une machine ? Les recherches que j'ai fait ne donne pas grand chose de concret .......

                Comment


                • #9
                  Une VM a besoin d'autant de CPU qu'elle a défini de disponibles en même temps pour tourner, même si dedans l'OS ne va en utiliser qu'un seul. Donc si une VM a besoin de 4CPU sur une machine 8 CPU et qu'il y a beaucoup de VM à côté, ta VM va attendre un créneau de 4CPU de dispo, et ca peut être long pour avoir un tel crénau. Le temps d'attente où ta VM ne tourne pas est le %ready : elle est ready a tourner, mais attend les ressources pour le faire. Donc moins de CPU, moins d'attente, moins de problèmes. C'est le premier indicateur a regarder quand ta VM fait des trucs un peu étrange
                  Auteur de Shinken, outil de supervision compatible avec Nagios et orientée supervision distribuée hautement disponible et mulitplateforme.

                  Comment


                  • #10
                    okkkk !!! merci pour l'info, je vérifie ca
                    A mon avis, le résultat va pas être top ...

                    Comment


                    • #11
                      Oaui c'est bien souvent le cas : on se dit "bah la CPU est à 10% sur l'interface, on est tranquille". Et bien non, on est déjà en contention et les VM "rament" car elles ne tournent pas régulièrement. Donc forcément le CPU n'est jamais vraiment utilisé, vu qu'elles attendent...
                      Donc sur de tels environnements, il ne faut pas y aller trop sévère sur le nombre de vCPU, ou alors dédier l'hôte, ce qui perd un peu en utilité (mais bon pour les sauvegardes et le clonage, ca vaut toujours le coup hein).
                      Auteur de Shinken, outil de supervision compatible avec Nagios et orientée supervision distribuée hautement disponible et mulitplateforme.

                      Comment


                      • #12
                        bon j'ai regarder, j'arrive a 30% à certains moment. Mais j'ai un peu mis de coté l'aspect performance depuis que j'ai mon problème sur le journal d'évènement qui me bousille toutes mes perf ... du coup ce résultat n'est pas significatif ...

                        Merci en tout cas pour les infos !
                        Last edited by Cyr1us; 7 October 2009, 14:40.

                        Comment

                        Working...
                        X