Announcement

Collapse
No announcement yet.

Optimisation

Collapse
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • Optimisation

    Salut à tous !

    Je tourne sur une Etch et j'utilise Nagios 2.6 + Centreon 1.4.1 + ODS + php5 + mysql5. La bécane est un Dell bi-xeon 2.8 avec 2.5 Go de DDR... Les 2 disques sont des SCSI 73 Go.

    Je monitor essentiellement du trafic et de la latence sur 200 hosts.
    80% des hosts sont des éléments actifs de type Nortel, Cisco, MRV, Procurve.
    Le reste sont des serveurs Linux.

    L'interface graphique est sur une machine publique et fait les check via nrpe sur une machine dans le LAN qui peut interroger tous les sous-réseaux.

    Tout allait très bien, mais depuis 2 jours, les graphs sont troués, et j'ai régulièrement des états CRITICAL dans le monitoring. Les weathermaps se retrouvent avec des liens gris à 0% alors que la plupart des éléments actifs sont au boulot...

    J'ai bien parcouru les threads de ce forum, mais je ne vois pas comment optimiser la conf... parce que 200 hosts, ce n'est pas grand'chose... Il m'en reste encore autant à faire...

    J'ai d'abord pensé à des problèmes connus sur les Nortel (si l'UPTIME est trop grand par exemple, on a quelques soucis avec certains effets de bascule de trafic selon les trunk et on perd le ping)... Mais les reboot nocturnes réguliers de certains éléments actifs ne changent rien...

    Je me dis alors que c'est le trio centreon/ods/nagios qui ne suit pas la cadence, parce que j'ai du mal à croire que la machine y est pour quelque chose...
    Comment faites-vous pour optimiser vos conf ?
    Pour les services, que mettez-vous dans les ordonnancements réguliers ? irréguliers ?

    Merci de m'avoir lu et de vos réponses...



    Last edited by wesh; 4 November 2007, 21:19. Reason: images
    Antonin "Libfy"

    Debian For Ever
    Nagios + Centreon + NTOP + WeatherMap + StatusMap : 5000 hosts + 18 000 services

  • #2
    Au fait, j'ai déjà vérifié que la machine qui effectue les tests n'est pas le facteur limitant...
    Et c'est bien le cas : elle n'est pas le ralentisseur...
    Elle ne fait que du check...
    Antonin "Libfy"

    Debian For Ever
    Nagios + Centreon + NTOP + WeatherMap + StatusMap : 5000 hosts + 18 000 services

    Comment


    • #3
      Personne ?
      Pas d'idée ?
      Antonin "Libfy"

      Debian For Ever
      Nagios + Centreon + NTOP + WeatherMap + StatusMap : 5000 hosts + 18 000 services

      Comment


      • #4
        Pour info mon serveur est un PIII 866MHz avec 512Mo de ram, j'ai environ 350 services, la plupart sont checkés toutes les 5 minutes et ça tourne nickel. Aucun trou dans les graphs... Ca vient surement de ta configuration...

        PS: J'ai eu quelques soucis de graphs il y a quelques temps, une réinstallation complète et tout est revenu à la normale.
        Last edited by julien60; 5 November 2007, 13:21.

        Comment


        • #5
          Je suis désolé de squatter le topic mais j'ai aussi de gros soucis de latence ( une moyenne de 627 ).

          J'ai testé tout un tas de paramètres pour essayer de la réduire mais rien n'y fait.

          HOST SCHEDULING INFORMATION
          ---------------------------
          Total hosts: 177
          Total scheduled hosts: 25
          Host inter-check delay method: SMART
          Average host check interval: 300.00 sec
          Host inter-check delay: 12.00 sec
          Max host check spread: 15 min
          First scheduled check: Mon Nov 5 13:03:03 2007
          Last scheduled check: Mon Nov 5 13:07:51 2007


          SERVICE SCHEDULING INFORMATION
          -------------------------------
          Total services: 1036
          Total scheduled services: 972
          Service inter-check delay method: SMART
          Average service check interval: 324.38 sec
          Inter-check delay: 0.33 sec
          Interleave factor method: SMART
          Average services per host: 5.85
          Service interleave factor: 6
          Max service check spread: 30 min
          First scheduled check: Mon Nov 5 13:03:57 2007
          Last scheduled check: Mon Nov 5 13:09:21 2007


          CHECK PROCESSING INFORMATION
          ----------------------------
          Service check reaper interval: 10 sec
          Max concurrent service checks: Unlimited


          PERFORMANCE SUGGESTIONS
          -----------------------
          I have no suggestions - things look okay.
          Auriez vous des pistes à nous indiquer ?

          ( de mon côté non plus la machine n'est pas le facteur limitant :
          uptime
          13:04:58 up 11 days, 20:53, 1 user, load average: 1.29, 1.62, 1.61

          Comment


          • #6
            Apparemment, après un changement de la valeur "aggregate_status_updates" comme indiqué dans la doc section "Régler Nagios pour des performances maximales" beaucoup de soucis sont réglés et ma latence est maintenant de 25 secondes, ce qui est bien moins que mes 600 secondes d'avant ...

            Je vous dirai si ça tient

            Comment


            • #7
              et tu as mis quoi comme valeurs ?
              Antonin "Libfy"

              Debian For Ever
              Nagios + Centreon + NTOP + WeatherMap + StatusMap : 5000 hosts + 18 000 services

              Comment


              • #8
                Ça m'interesserai aussi de savoir ce que tu as mis comme valeur ?

                J'ai aussi une latence un peu "lourde" :roll:
                Guigui

                > PAS DE SUPPORT VIA MP <

                "Ce n'est qu'en essayant continuellement que l'on finit par réussir. En d'autres termes, plus ça rate et plus on a de chances que ça marche !!" (Shadoks)

                Comment


                • #9
                  Voici mes valeurs actuellement utilisées :

                  aggregate_status_updates=1
                  status_update_interval=20

                  Et voici ce que ça donne

                  [[email protected] /]# nagiostats -md AVGACTSVCEXT
                  2895
                  Last edited by Poulpatine; 6 November 2007, 12:43.

                  Comment

                  Working...
                  X