Announcement

Collapse
No announcement yet.

check_graph_traffic_rrd : demande d'évolution

Collapse
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • check_graph_traffic_rrd : demande d'évolution

    Bonjour,

    Serait-il possible de faire en sorte que le passage en "warning" ou en "critical" ne se fasse pas sur la dernière valeur enregistrée mais sur une moyenne de valeurs enregistrées sur un temps t ?
    ( un peu comme le plug-in Threshold de cacti ).

    Cela m'éviterait d'avoir une alarme CPU à chaque fois qu'un développeur lance une compilation... ou une alarme réseau à chaque gros transfert.

    Merci beaucoup pour votre aide.

  • #2
    bigger retry_check_interval * bigger nb_retry = more delay :wink:

    Checker la cpu c bof, checker le load c bien 8)
    Intel(R) Xeon(TM) CPU 3.4GHz - MemTotal : 1034476 kB
    Centreon 2.4.1 - Nagios 3.2.1 - Nagios Plugins 1.4.15 - Manubulon Plugins tuné
    Fedora Core 5 - 2.6.20-1.2320

    Comment


    • #3
      Originally posted by DonKiShoot
      bigger retry_check_interval * bigger nb_retry = more delay :wink:
      Que je check toutes les 5 minutes ou toutes les 20 minutes, le problème est le même : si je check juste au moment ou la charge est élevée, j'ai une alarme alors qu'elle a pu n'être élevée que pendant quelques secondes.

      Je voudrais faire un check toutes les X minutes, puis faire un average sur Y checks pour avoir un résultat plus fiable.

      Originally posted by DonKiShoot
      Checker la cpu c bof, checker le load c bien 8)
      Ok pour le load à la place de la CPU.
      Mais pour le traffic réseau, mon problème est toujours là.

      Comment


      • #4
        utilise le flapping ca t'evitera des alertes ^^
        c dans la configuration des services
        :wink:
        windows XP pro
        VM

        Comment


        • #5
          Originally posted by kyo
          utilise le flapping ca t'evitera des alertes ^^
          c dans la configuration des services
          :wink:
          A bon ? Peux-tu m'expliquer comment la détection d'oscillation évite les alertes ?

          Comment


          • #6
            http://nagios.sourceforge.net/docs/2_0/flapping.html
            windows XP pro
            VM

            Comment


            • #7
              Originally posted by kyo
              http://nagios.sourceforge.net/docs/2_0/flapping.html
              Ca peut éviter les notifications mais je ne crois pas que ça évite les changements d'états. Mes liens réseaux vont quand même passer en warning ou en critical si le check est effectué pendant un transfert.

              Comment


              • #8
                Cela m'éviterait d'avoir une alarme CPU à chaque fois qu'un développeur lance une compilation... ou une alarme réseau à chaque gros transfert.
                c'est pas ce que tu voulais ?
                windows XP pro
                VM

                Comment


                • #9
                  Originally posted by kyo
                  Cela m'éviterait d'avoir une alarme CPU à chaque fois qu'un développeur lance une compilation... ou une alarme réseau à chaque gros transfert.
                  c'est pas ce que tu voulais ?
                  Tu ne trouves pas anormal qu'un lien réseau passe en warning/critical simplement parcequ'il y a un transfert au moment du check ?
                  Il devrait changer d'état seulement si le lien est saturé pendant X temps, donc pendant plusieurs checks.

                  par exemple : warning si plus de 80% lors des 5 derniers checks, critical si plus de 95% lors des 10 derniers checks...

                  Il manque une notion de moyenne temporelle pour tous ce qui est charge réseau, charge CPU, load average...

                  Comment


                  • #10
                    non si c'est fait comme ca
                    je trouve ca normal que le status change si le comportement de la ressource change ^^
                    logiquement si on prend ton exemple imaginons que ton lien reseau sois saturer pour x raison et que dans le meme temps kkn pour x raison est aussi besoin du lien reseaux :
                    - avec la methode actuel tu es capable de dire a ce moment la c'etatis critique donc normal que la 2eme personne ne puisse acceder a la ressource
                    - avec la methode proposer tu pourra dire non desoler ca marche bien :cry:
                    donc sur les 5 dernieres verification tu as eu up up down down up

                    enfin c mon opinion. je pense que je dois surement me tromper
                    j'espere que kkn d'autre pourra t'aiguiller vers la meilleur solution
                    8)
                    windows XP pro
                    VM

                    Comment


                    • #11
                      J'en reviens au fait qu'il n y a pas a utiliser le flapping à mon sens et qu'un nombre de retry plus élevé avant de passer en hard est bien plus propre.
                      Intel(R) Xeon(TM) CPU 3.4GHz - MemTotal : 1034476 kB
                      Centreon 2.4.1 - Nagios 3.2.1 - Nagios Plugins 1.4.15 - Manubulon Plugins tuné
                      Fedora Core 5 - 2.6.20-1.2320

                      Comment


                      • #12
                        Bonjour,

                        J'ai fait un plugin qui calcule le taux d'occupation par CPU, qui fait une moyenne sur 1 heure et qui alerte si jamais la moyenne sur 1 heure dépasse les valeurs seuils.

                        Il doit être installé sur chaque Linux supervisé. Il se lance au travers de SSH et de NRPE. Il écrit les valeurs moyennes dans un fichier RRD dans /tmp/. Aucune donnée de performance n'est générée pour le moment. Vous pouvez le modifier et m'envoyer les modifications (merci de modifier le changelog et le versionning en conséquence).
                        Attached Files

                        Comment


                        • #13
                          Je prend un plugin cpu classique, je met un retry_check_interval à 5 mn et je demande 12 retry avant de passer en hard.
                          Ainsi, j'ai mon alerte au bout d'une heure de depassement de seuil
                          Intel(R) Xeon(TM) CPU 3.4GHz - MemTotal : 1034476 kB
                          Centreon 2.4.1 - Nagios 3.2.1 - Nagios Plugins 1.4.15 - Manubulon Plugins tuné
                          Fedora Core 5 - 2.6.20-1.2320

                          Comment


                          • #14
                            Je prend un plugin cpu classique, je met un retry_check_interval à 5 mn et je demande 12 retry avant de passer en hard.
                            Ainsi, j'ai mon alerte au bout d'une heure de depassement de seuil
                            Oui mais tu n'as pas du tout le même fonctionnement. Prenons un exemple simple:
                            - ton CPU est à 100% pendant 25 minutes
                            - ton CPU est à 0% pendant 10 minutes
                            - ton CPU est à 100% pendant 25 minutes.
                            Ta moyenne est donc de 83.33% ( (50*100%+10*10%)/60). Cependant, jamais tu ne seras averti.

                            De plus, mon plugin est étudié pour prendre en compte les compteurs. Au lieu de me servir d'une valeur ponctuelle toutes les 5 minutes, je gère le principe des compteurs (d'où RRD). Ceci est beaucoup, beaucoup plus précis.

                            Comment


                            • #15
                              Originally posted by DonKiShoot
                              J'en reviens au fait qu'il n y a pas a utiliser le flapping à mon sens et qu'un nombre de retry plus élevé avant de passer en hard est bien plus propre.
                              Donc, si je veux vérifier que mon lien réseau est utilisé à plus de 90% de sa capacité, je fais comment ?

                              Imaginons deux postes reliés par un lien Wan à 1mbit/s .
                              Ce lien est saturé à 91% et j'aimerais donc recevoir une alerte.
                              A chaque transfert on a 100% de bande passante utilisée.
                              Si j'ai un check pendant un transfert, je vais passer en état soft alors qu'on est dans un cas d'utilisation normal du lien.
                              Statistiquement, j'ai une chace sur dix que le prochain check soit OK.
                              Donc, si je veux appliquer ta méthode et si je mets un nombre de rety à 10, je suis presque certain d'avoir un check OK avant de passer en état hard. je ne passe donc jamais en état hard ( au mieux, j'ai du bagot ).

                              Je pense que la bonne solution pour connaître la charge du lien est de faire une moyenne sur la charge enregistrée sur un grand nombre de check.

                              Comment

                              Working...
                              X