PDA

View Full Version : Optimisation


wesh
11-03-2007, 02:01 AM
Salut à tous !

Je tourne sur une Etch et j'utilise Nagios 2.6 + Centreon 1.4.1 + ODS + php5 + mysql5. La bécane est un Dell bi-xeon 2.8 avec 2.5 Go de DDR... Les 2 disques sont des SCSI 73 Go.

Je monitor essentiellement du trafic et de la latence sur 200 hosts.
80% des hosts sont des éléments actifs de type Nortel, Cisco, MRV, Procurve.
Le reste sont des serveurs Linux.

L'interface graphique est sur une machine publique et fait les check via nrpe sur une machine dans le LAN qui peut interroger tous les sous-réseaux.

Tout allait très bien, mais depuis 2 jours, les graphs sont troués, et j'ai régulièrement des états CRITICAL dans le monitoring. Les weathermaps se retrouvent avec des liens gris à 0% alors que la plupart des éléments actifs sont au boulot...

J'ai bien parcouru les threads de ce forum, mais je ne vois pas comment optimiser la conf... parce que 200 hosts, ce n'est pas grand'chose... Il m'en reste encore autant à faire...

J'ai d'abord pensé à des problèmes connus sur les Nortel (si l'UPTIME est trop grand par exemple, on a quelques soucis avec certains effets de bascule de trafic selon les trunk et on perd le ping)... Mais les reboot nocturnes réguliers de certains éléments actifs ne changent rien...

Je me dis alors que c'est le trio centreon/ods/nagios qui ne suit pas la cadence, parce que j'ai du mal à croire que la machine y est pour quelque chose...
Comment faites-vous pour optimiser vos conf ?
Pour les services, que mettez-vous dans les ordonnancements réguliers ? irréguliers ?

Merci de m'avoir lu et de vos réponses...

http://img124.imageshack.us/img124/8816/36015496nk7.th.jpg (http://img124.imageshack.us/my.php?image=36015496nk7.jpg)
http://img124.imageshack.us/img124/7017/70934171lo8.th.jpg (http://img124.imageshack.us/my.php?image=70934171lo8.jpg)
http://img140.imageshack.us/img140/4799/68450635yy0.th.jpg (http://img140.imageshack.us/my.php?image=68450635yy0.jpg)

wesh
11-03-2007, 10:32 AM
Au fait, j'ai déjà vérifié que la machine qui effectue les tests n'est pas le facteur limitant...
Et c'est bien le cas : elle n'est pas le ralentisseur...
Elle ne fait que du check...

wesh
11-04-2007, 08:45 PM
Personne ?
Pas d'idée ?

julien60
11-05-2007, 01:40 PM
Pour info mon serveur est un PIII 866MHz avec 512Mo de ram, j'ai environ 350 services, la plupart sont checkés toutes les 5 minutes et ça tourne nickel. Aucun trou dans les graphs... Ca vient surement de ta configuration...

PS: J'ai eu quelques soucis de graphs il y a quelques temps, une réinstallation complète et tout est revenu à la normale.

Poulpatine
11-05-2007, 01:59 PM
Je suis désolé de squatter le topic mais j'ai aussi de gros soucis de latence ( une moyenne de 627 ).

J'ai testé tout un tas de paramètres pour essayer de la réduire mais rien n'y fait.


HOST SCHEDULING INFORMATION
---------------------------
Total hosts: 177
Total scheduled hosts: 25
Host inter-check delay method: SMART
Average host check interval: 300.00 sec
Host inter-check delay: 12.00 sec
Max host check spread: 15 min
First scheduled check: Mon Nov 5 13:03:03 2007
Last scheduled check: Mon Nov 5 13:07:51 2007


SERVICE SCHEDULING INFORMATION
-------------------------------
Total services: 1036
Total scheduled services: 972
Service inter-check delay method: SMART
Average service check interval: 324.38 sec
Inter-check delay: 0.33 sec
Interleave factor method: SMART
Average services per host: 5.85
Service interleave factor: 6
Max service check spread: 30 min
First scheduled check: Mon Nov 5 13:03:57 2007
Last scheduled check: Mon Nov 5 13:09:21 2007


CHECK PROCESSING INFORMATION
----------------------------
Service check reaper interval: 10 sec
Max concurrent service checks: Unlimited


PERFORMANCE SUGGESTIONS
-----------------------
I have no suggestions - things look okay.


Auriez vous des pistes à nous indiquer ?

( de mon côté non plus la machine n'est pas le facteur limitant :

uptime
13:04:58 up 11 days, 20:53, 1 user, load average: 1.29, 1.62, 1.61

Poulpatine
11-05-2007, 04:22 PM
Apparemment, après un changement de la valeur "aggregate_status_updates" comme indiqué dans la doc section "Régler Nagios pour des performances maximales" beaucoup de soucis sont réglés et ma latence est maintenant de 25 secondes, ce qui est bien moins que mes 600 secondes d'avant ...

Je vous dirai si ça tient

wesh
11-05-2007, 06:44 PM
et tu as mis quoi comme valeurs ?

Guigui2607
11-06-2007, 09:53 AM
Ça m'interesserai aussi de savoir ce que tu as mis comme valeur ?

J'ai aussi une latence un peu "lourde" :roll:

Poulpatine
11-06-2007, 10:30 AM
Voici mes valeurs actuellement utilisées :

aggregate_status_updates=1
status_update_interval=20

Et voici ce que ça donne ;)


[root@machine /]# nagiostats -md AVGACTSVCEXT
2895