Announcement

Collapse
No announcement yet.

Centreon 1.4.1 - ODS et tunning heartbeat

Collapse
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • Centreon 1.4.1 - ODS et tunning heartbeat

    Bonjour,

    En utilisant la nouvelle fonctionnalité de Gestion d'ODS (dans le menu option),
    Je me suis apperçu que celui-ci, à la regénération des bases rrd, plaçait le heartbeat = step dans tous les rrd (au lieu de la formule heartbeat= step x 2).
    Si j'ai un step 90, il me place le heartbeat à 90.
    Si j'ai un step 330, il me place le heartbeat à 330.

    Du coup, je n'ai plus de graphe, juste des points éparts.

  • #2
    Pas trés tolérant ODS
    Intel(R) Xeon(TM) CPU 3.4GHz - MemTotal : 1034476 kB
    Centreon 2.4.1 - Nagios 3.2.1 - Nagios Plugins 1.4.15 - Manubulon Plugins tuné
    Fedora Core 5 - 2.6.20-1.2320

    Comment


    • #3
      nan pas possible

      C'est le step + 30 pour le cas ou y a un décalage....

      Moi je n'ai aucun pb de graph, sur toutes plateforme confondues... Vous tunnez bien votre nagios ? lancez le en -s et regardez que tout soit bon...

      je vais mailer toby pour connaitre la bonne config...
      Julien Mathis
      Centreon Project Leader
      www.merethis.com |

      Comment


      • #4
        Pourquoi step plus 30 secondes ?

        J'ai tjs lu dans les docs relative à RRDTOOL que le heartbeat est par convention égal à 2 fois le step ce qui permettait d'avoir un check en erreur.
        Mais là avec 30 secondes faut avoir un nagios réglé comme une horlogerie et ne jamais oser demander à la machine de faire une opération lourde qui la ralentirait sous peine d'avoir des trous partout.
        Intel(R) Xeon(TM) CPU 3.4GHz - MemTotal : 1034476 kB
        Centreon 2.4.1 - Nagios 3.2.1 - Nagios Plugins 1.4.15 - Manubulon Plugins tuné
        Fedora Core 5 - 2.6.20-1.2320

        Comment


        • #5
          Oui j'ai regardé avec l'option -S et pas de soucis...

          De toute façon, j'ai des données dans la base mysql.
          Non, j'ai l'impression que mon ODS a des problemes de génération. Déja ce prb de paramétrage du heatbeat par rapport au step, et je me demande si il n'y a pas un probleme de thread bloqué, de mémoire, etc...

          Ca fait 2 mois que je me bat avec les version succéssives d'Oreon et j'ai toujours le même probleme. Soit pas de graphes, soit des graphes qui fonctionnent 2 jours puis plus rien, soit des points epparses....

          Comment


          • #6
            Autre chose....

            En explorant la base ODS, je m'appercois que dans la table INDEX_DATA, la collonne CHECK_INTERVAL est à NULL pour tous mes services....

            Est ce normal ?

            Comment


            • #7
              Je m'incruste , j'ai le même problème. Mes graphs deconne toujours à plein tube. Pourtant la semaine dernière ils fonctionnaient bien.

              Comment


              • #8
                Originally posted by DonKiShoot View Post
                Pourquoi step plus 30 secondes ?

                J'ai tjs lu dans les docs relative à RRDTOOL que le heartbeat est par convention égal à 2 fois le step ce qui permettait d'avoir un check en erreur.
                Mais là avec 30 secondes faut avoir un nagios réglé comme une horlogerie et ne jamais oser demander à la machine de faire une opération lourde qui la ralentirait sous peine d'avoir des trous partout.
                arf oui mais moi j'ai pas de pb... tu fais koi avec ta machine de supervision ? tu fais tourner oracle dessus ?

                Ouais mais normalement si tout est nickel tu dois pouvoir faire ca avec juste le step... si c precis. sinon en step * 2 tu n'as que 1 valeur sur 2 de graphée ! et moi ca me semble pas optimal comme truc.

                Donc je vais faire pour la 1.4.2 differents modes d'utilisation :

                - ODS mode precis = step + 30
                - ODS mode medium = step * 2
                - ODS mode large = step * 4

                ca pourra resoudre les pb...

                chez moi il trourne en step + 10....
                Julien Mathis
                Centreon Project Leader
                www.merethis.com |

                Comment


                • #9
                  Originally posted by boyerf View Post
                  Autre chose....

                  En explorant la base ODS, je m'appercois que dans la table INDEX_DATA, la collonne CHECK_INTERVAL est à NULL pour tous mes services....

                  Est ce normal ?
                  oui c'est normal
                  Julien Mathis
                  Centreon Project Leader
                  www.merethis.com |

                  Comment


                  • #10
                    Originally posted by julio View Post
                    arf oui mais moi j'ai pas de pb... tu fais koi avec ta machine de supervision ? tu fais tourner oracle dessus ?

                    Ouais mais normalement si tout est nickel tu dois pouvoir faire ca avec juste le step... si c precis. sinon en step * 2 tu n'as que 1 valeur sur 2 de graphée ! et moi ca me semble pas optimal comme truc.

                    Donc je vais faire pour la 1.4.2 differents modes d'utilisation :

                    - ODS mode precis = step + 30
                    - ODS mode medium = step * 2
                    - ODS mode large = step * 4

                    ca pourra resoudre les pb...

                    chez moi il trourne en step + 10....
                    C pas kler cette histoire de heartbeat !

                    The heartbeat and the step

                    Here is an explanation by Don Baarda on the inner workings of RRDtool. It may help you to sort out why all this *UNKNOWN* data is popping up in your databases:
                    RRDtool gets fed samples at arbitrary times. From these it builds Primary Data Points (PDPs) at exact times on every ``step'' interval. The PDPs are then accumulated into RRAs.
                    The ``heartbeat'' defines the maximum acceptable interval between samples. If the interval between samples is less than ``heartbeat'', then an average rate is calculated and applied for that interval. If the interval between samples is longer than ``heartbeat'', then that entire interval is considered ``unknown''. Note that there are other things that can make a sample interval ``unknown'', such as the rate exceeding limits, or even an ``unknown'' input sample.
                    The known rates during a PDP's ``step'' interval are used to calculate an average rate for that PDP. Also, if the total ``unknown'' time during the ``step'' interval exceeds the ``heartbeat'', the entire PDP is marked as ``unknown''. This means that a mixture of known and ``unknown'' sample times in a single PDP ``step'' may or may not add up to enough ``unknown'' time to exceed ``heartbeat'' and hence mark the whole PDP ``unknown''. So ``heartbeat'' is not only the maximum acceptable interval between samples, but also the maximum acceptable amount of ``unknown'' time per PDP (obviously this is only significant if you have ``heartbeat'' less than ``step'').
                    The ``heartbeat'' can be short (unusual) or long (typical) relative to the ``step'' interval between PDPs. A short ``heartbeat'' means you require multiple samples per PDP, and if you don't get them mark the PDP unknown. A long heartbeat can span multiple ``steps'', which means it is acceptable to have multiple PDPs calculated from a single sample. An extreme example of this might be a ``step'' of 5 minutes and a ``heartbeat'' of one day, in which case a single sample every day will result in all the PDPs for that entire day period being set to the same average rate.
                    Intel(R) Xeon(TM) CPU 3.4GHz - MemTotal : 1034476 kB
                    Centreon 2.4.1 - Nagios 3.2.1 - Nagios Plugins 1.4.15 - Manubulon Plugins tuné
                    Fedora Core 5 - 2.6.20-1.2320

                    Comment


                    • #11
                      I don't see a good reason to not use heartbeat=2*step, unless of course you like gaps in your graphs ;-)
                      It's only more tolerant to problems, the result will stay the same as with heartbeat=step...

                      Regards
                      Menno van Bennekom

                      Originally posted by DonKiShoot View Post
                      C pas kler cette histoire de heartbeat !

                      The heartbeat and the step

                      Here is an explanation by Don Baarda on the inner workings of RRDtool. It may help you to sort out why all this *UNKNOWN* data is popping up in your databases:
                      RRDtool gets fed samples at arbitrary times. From these it builds Primary Data Points (PDPs) at exact times on every ``step'' interval. The PDPs are then accumulated into RRAs.
                      The ``heartbeat'' defines the maximum acceptable interval between samples. If the interval between samples is less than ``heartbeat'', then an average rate is calculated and applied for that interval. If the interval between samples is longer than ``heartbeat'', then that entire interval is considered ``unknown''. Note that there are other things that can make a sample interval ``unknown'', such as the rate exceeding limits, or even an ``unknown'' input sample.
                      The known rates during a PDP's ``step'' interval are used to calculate an average rate for that PDP. Also, if the total ``unknown'' time during the ``step'' interval exceeds the ``heartbeat'', the entire PDP is marked as ``unknown''. This means that a mixture of known and ``unknown'' sample times in a single PDP ``step'' may or may not add up to enough ``unknown'' time to exceed ``heartbeat'' and hence mark the whole PDP ``unknown''. So ``heartbeat'' is not only the maximum acceptable interval between samples, but also the maximum acceptable amount of ``unknown'' time per PDP (obviously this is only significant if you have ``heartbeat'' less than ``step'').
                      The ``heartbeat'' can be short (unusual) or long (typical) relative to the ``step'' interval between PDPs. A short ``heartbeat'' means you require multiple samples per PDP, and if you don't get them mark the PDP unknown. A long heartbeat can span multiple ``steps'', which means it is acceptable to have multiple PDPs calculated from a single sample. An extreme example of this might be a ``step'' of 5 minutes and a ``heartbeat'' of one day, in which case a single sample every day will result in all the PDPs for that entire day period being set to the same average rate.

                      Comment


                      • #12
                        It'll be corrected in 1.4.2, I totally agree with you... If we have time in the next weeks, we may publish a patch too..
                        Romain Le Merlus
                        Centreon Forge
                        MERETHIS

                        Comment


                        • #13
                          Originally posted by rom View Post
                          It'll be corrected in 1.4.2, I totally agree with you... If we have time in the next weeks, we may publish a patch too..
                          hého moi je vous dis que ca marche en + 30... y a juste que vos brouettes sont à la bourre... je vous ferai un patch quand meme...
                          Julien Mathis
                          Centreon Project Leader
                          www.merethis.com |

                          Comment


                          • #14
                            Je suis d'accord avec toi (moi même je n'ai pas de trous) mais avec les geeks du temps rééls et les noobs de la config, tu arrives vite aux limites misent en place.
                            Intel(R) Xeon(TM) CPU 3.4GHz - MemTotal : 1034476 kB
                            Centreon 2.4.1 - Nagios 3.2.1 - Nagios Plugins 1.4.15 - Manubulon Plugins tuné
                            Fedora Core 5 - 2.6.20-1.2320

                            Comment


                            • #15
                              Originally posted by DonKiShoot View Post
                              Je suis d'accord avec toi (moi même je n'ai pas de trous) mais avec les geeks du temps rééls et les noobs de la config, tu arrives vite aux limites misent en place.
                              Hum... pas tres gentil ça...
                              Pour info, c'est quoi votre nombre de serveurs surveillés et le nombre de service ? Et il est quand même etrange qu'un nombre impressionant de posts parlent de ce probleme... Ne dit on pas... il n'y a pas de fumee sans feux ? ;-)

                              Comment

                              Working...
                              X