Announcement

Collapse
No announcement yet.

check_graph_traffic_rrd : demande d'évolution

Collapse
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • rlemble
    replied
    Originally posted by templuche
    Bonjour,

    J'ai fait un plugin qui calcule le taux d'occupation par CPU, qui fait une moyenne sur 1 heure et qui alerte si jamais la moyenne sur 1 heure dépasse les valeurs seuils.
    Enfin quelqu'un qui me comprend !
    Merci beaucoup pour ton plugin.

    Leave a comment:


  • rlemble
    replied
    Originally posted by DonKiShoot
    J'en reviens au fait qu'il n y a pas a utiliser le flapping à mon sens et qu'un nombre de retry plus élevé avant de passer en hard est bien plus propre.
    Donc, si je veux vérifier que mon lien réseau est utilisé à plus de 90% de sa capacité, je fais comment ?

    Imaginons deux postes reliés par un lien Wan à 1mbit/s .
    Ce lien est saturé à 91% et j'aimerais donc recevoir une alerte.
    A chaque transfert on a 100% de bande passante utilisée.
    Si j'ai un check pendant un transfert, je vais passer en état soft alors qu'on est dans un cas d'utilisation normal du lien.
    Statistiquement, j'ai une chace sur dix que le prochain check soit OK.
    Donc, si je veux appliquer ta méthode et si je mets un nombre de rety à 10, je suis presque certain d'avoir un check OK avant de passer en état hard. je ne passe donc jamais en état hard ( au mieux, j'ai du bagot ).

    Je pense que la bonne solution pour connaître la charge du lien est de faire une moyenne sur la charge enregistrée sur un grand nombre de check.

    Leave a comment:


  • templuche
    replied
    Je prend un plugin cpu classique, je met un retry_check_interval à 5 mn et je demande 12 retry avant de passer en hard.
    Ainsi, j'ai mon alerte au bout d'une heure de depassement de seuil
    Oui mais tu n'as pas du tout le même fonctionnement. Prenons un exemple simple:
    - ton CPU est à 100% pendant 25 minutes
    - ton CPU est à 0% pendant 10 minutes
    - ton CPU est à 100% pendant 25 minutes.
    Ta moyenne est donc de 83.33% ( (50*100%+10*10%)/60). Cependant, jamais tu ne seras averti.

    De plus, mon plugin est étudié pour prendre en compte les compteurs. Au lieu de me servir d'une valeur ponctuelle toutes les 5 minutes, je gère le principe des compteurs (d'où RRD). Ceci est beaucoup, beaucoup plus précis.

    Leave a comment:


  • DonKiShoot
    replied
    Je prend un plugin cpu classique, je met un retry_check_interval à 5 mn et je demande 12 retry avant de passer en hard.
    Ainsi, j'ai mon alerte au bout d'une heure de depassement de seuil

    Leave a comment:


  • templuche
    replied
    Bonjour,

    J'ai fait un plugin qui calcule le taux d'occupation par CPU, qui fait une moyenne sur 1 heure et qui alerte si jamais la moyenne sur 1 heure dépasse les valeurs seuils.

    Il doit être installé sur chaque Linux supervisé. Il se lance au travers de SSH et de NRPE. Il écrit les valeurs moyennes dans un fichier RRD dans /tmp/. Aucune donnée de performance n'est générée pour le moment. Vous pouvez le modifier et m'envoyer les modifications (merci de modifier le changelog et le versionning en conséquence).
    Attached Files

    Leave a comment:


  • DonKiShoot
    replied
    J'en reviens au fait qu'il n y a pas a utiliser le flapping à mon sens et qu'un nombre de retry plus élevé avant de passer en hard est bien plus propre.

    Leave a comment:


  • kyo
    replied
    non si c'est fait comme ca
    je trouve ca normal que le status change si le comportement de la ressource change ^^
    logiquement si on prend ton exemple imaginons que ton lien reseau sois saturer pour x raison et que dans le meme temps kkn pour x raison est aussi besoin du lien reseaux :
    - avec la methode actuel tu es capable de dire a ce moment la c'etatis critique donc normal que la 2eme personne ne puisse acceder a la ressource
    - avec la methode proposer tu pourra dire non desoler ca marche bien :cry:
    donc sur les 5 dernieres verification tu as eu up up down down up

    enfin c mon opinion. je pense que je dois surement me tromper
    j'espere que kkn d'autre pourra t'aiguiller vers la meilleur solution
    8)

    Leave a comment:


  • rlemble
    replied
    Originally posted by kyo
    Cela m'éviterait d'avoir une alarme CPU à chaque fois qu'un développeur lance une compilation... ou une alarme réseau à chaque gros transfert.
    c'est pas ce que tu voulais ?
    Tu ne trouves pas anormal qu'un lien réseau passe en warning/critical simplement parcequ'il y a un transfert au moment du check ?
    Il devrait changer d'état seulement si le lien est saturé pendant X temps, donc pendant plusieurs checks.

    par exemple : warning si plus de 80% lors des 5 derniers checks, critical si plus de 95% lors des 10 derniers checks...

    Il manque une notion de moyenne temporelle pour tous ce qui est charge réseau, charge CPU, load average...

    Leave a comment:


  • kyo
    replied
    Cela m'éviterait d'avoir une alarme CPU à chaque fois qu'un développeur lance une compilation... ou une alarme réseau à chaque gros transfert.
    c'est pas ce que tu voulais ?

    Leave a comment:


  • rlemble
    replied
    Originally posted by kyo
    http://nagios.sourceforge.net/docs/2_0/flapping.html
    Ca peut éviter les notifications mais je ne crois pas que ça évite les changements d'états. Mes liens réseaux vont quand même passer en warning ou en critical si le check est effectué pendant un transfert.

    Leave a comment:


  • kyo
    replied
    http://nagios.sourceforge.net/docs/2_0/flapping.html

    Leave a comment:


  • rlemble
    replied
    Originally posted by kyo
    utilise le flapping ca t'evitera des alertes ^^
    c dans la configuration des services
    :wink:
    A bon ? Peux-tu m'expliquer comment la détection d'oscillation évite les alertes ?

    Leave a comment:


  • kyo
    replied
    utilise le flapping ca t'evitera des alertes ^^
    c dans la configuration des services
    :wink:

    Leave a comment:


  • rlemble
    replied
    Originally posted by DonKiShoot
    bigger retry_check_interval * bigger nb_retry = more delay :wink:
    Que je check toutes les 5 minutes ou toutes les 20 minutes, le problème est le même : si je check juste au moment ou la charge est élevée, j'ai une alarme alors qu'elle a pu n'être élevée que pendant quelques secondes.

    Je voudrais faire un check toutes les X minutes, puis faire un average sur Y checks pour avoir un résultat plus fiable.

    Originally posted by DonKiShoot
    Checker la cpu c bof, checker le load c bien 8)
    Ok pour le load à la place de la CPU.
    Mais pour le traffic réseau, mon problème est toujours là.

    Leave a comment:


  • DonKiShoot
    replied
    bigger retry_check_interval * bigger nb_retry = more delay :wink:

    Checker la cpu c bof, checker le load c bien 8)

    Leave a comment:

Working...
X