PDA

View Full Version : check_snmp_cpqHealth


DonKiShoot
1st March 2007, 20:25
FR : Il s'agit d'un plugin de mon cru pour interroger les mibs Insight Manager des serveurs HP/COMPAQ (raid, réseaux, ventilo, température, ...) afin de savoir si tout va bien.
Il est écrit en Perl et très fortement inspiré du code de Manubulon pour la partie snmp.

EN : It's a plugin for my own to check Insight Manager mibs from HP/COMPAQ servers (raid, nic, fan, temp, ...) to see if everything goes well.
It is written in Perl and strongly inspired by the code of Manubulon for the snmp part.

######################### check_snmp_cpqHealth #########################
# VERSION : 1.0 - "Prod I"
# AUTHOR : DonKiShoot ( donkishoot at wanadoo dot fr )
# HELP : ./check_snmp_cpqHealth.pl -h (for more information go http://forum.oreon-project.org in topic plugin)
# LICENCE : GPL - http://www.fsf.org/licenses/gpl.txt
############################# CHANGELOG ################################
# 1.0 (19 Mai 2008) : Release "Prod I" for production use (no update since last version)
# 0.9 (28 Mar 2008) : Best blade support with little hack
# Add DaCntlrNumberOfInternalPorts & DaCntlrNumberOfExternalPorts & DaCntlrDriveWriteCacheState
# Update MIB information (HeFltTolFanLocale,DaCntlrModel,Sm2CntlrModel,NicI fPhysAdapterConfSpeedDuplex)
# 0.8 (20 Sep 2007) : Fix bug with snmpV2 by adding $session->max_msg_size(8000)
# 0.7 (02 Mar 2007) : Add Spare Drive check
# 0.6 (01 Mar 2007) : Fix bug with multi disk controller
# Update MIB controllers model
# Fix ePN compatibility
# 0.5 (26 Oct 2006) : Add exclude for MIB not accessible on every server
# Display mib info only if in myMibs list and not in exclude
# 0.4 (25 Oct 2006) : Finish parsing mibs i need
# Add diagnose to Nagios service status
# 0.3 (16 Oct 2006) : Add Event Log and ILO
# 0.2 (25 Aug 2006) : Parse improvement with use of regex (no more hack needed)
# Add PCI and Array Controller
# 0.1 (10 Aug 2006) : Initial release
################################################## ######################

xspoon
2nd March 2007, 12:35
Nice !!!!!

un retour sur l'états des disques -- c'est ce que je cherchais

j'admninistre plus d'équipement réseau que de serveurs mais j'en connais que ça va aider...

merci Donkish.

DonKiShoot
2nd March 2007, 16:32
MAJ en 0.7

naparuba
23rd May 2007, 11:37
Bonjour,

J'ai un petit soucis pour utiliser le script. Soucis qui ne repose pas sur le script en lui même, mais au service snmp ouvert par Insight manager. Il semble ne répondre qu'au serveur insight, les autres serveurs n'ont aucune réponse (open|filtered sur un nmap en -sU). Est-ce que quelqu'un à le même comportement sur ses serveurs?

En tout cas merci pour ce script, il pourrait m'être très très pratique.

DonKiShoot
23rd May 2007, 19:38
regarde le snmpd.conf

chez moi j'ai a peu prés ca en snmp v1 :

dlmod cmaX /usr/lib/libcmaX.so
rwcommunity write 127.0.0.1
rocommunity read 127.0.0.1
rocommunity read 192.2.101.1
rocommunity read 192.142.10.147
rocommunity read 192.142.63.141
trapcommunity trap
trapsink 127.0.0.1
syscontact Network Admin
syslocation ici

PS: il faut bien entendu installer les rpm insight qui vont bien sur les clients linux a interroger

LorDa
17th October 2007, 11:21
Bonjour,

Tout d'abord merci pour ce plugin bien pratique quand on a un parc tout en HP :)

Je l'ai intégré dans ma plate-forme de test et voici ce que j'obtiens :

Status des Services CRITICAL
Information sur le status Embedded NEC98431 is Failed - SM2
Données de Performance Fan1CPU=2, Fan2CPU=2, Fan3IOBoard=2, Fan4IOBoard=2, Fan5CPU=2, Fan6CPU=2, Fan7PowerSupply=2, Fan8PowerSupply=2, TempSensor1Cpu=41, TempSensor2Cpu=43, TempSensor3IoBoard=39, TempSensor5PowerSupply=31

Il n'est pas content avec le "Embedded NEC98431" - SM2...
Les =2 preque partout celà veut dire qu'il n'y a pas de données à lire pour ces items là ?

Merci ;)

DonKiShoot
18th October 2007, 19:25
Le 2 c'est la vitesse des ventilos, je crois que c'est expliqué dans le help (0,1 ou 2)

Sinon pour le critical c'est certainement une carte réseau pas branché mais pas désactivé.

LorDa
19th October 2007, 10:45
Merci beaucoup pour ces explications.
Effectivement pour le coup de la carte réseau c'est bien ça ;)

DonKiShoot
1st February 2008, 11:26
Je met en ligne la v0.8 en attendant suffisamment de retour des utilisateurs pour la passer en version final.

shutdown76
6th February 2008, 17:50
Salut,

Voici ce qu j'ai avec le plugin:

./check_snmp_cpqHealth.pl -H 172.17.1.11 -C public
Embedded NEC98431 is Failed - SM2 | Fan1PowerSupply=2, Fan2CPU=2, Fan3CPU=2, TempSensor1IoBoard=40, TempSensor2Ambient=20, TempSensor3Cpu=30, TempSensor4Cpu=30, TempSensor5PowerSupply=26


Quand tout va bien il indique rien et lorsque qu'un état change il nous renvoie une info. C'est ça?

Sinon comme LorDa je m'interoge sur "Embedded NEC98431 is Failed", j'ai pas trouver grand chose dessus.

Et lorsque qu'un état devient critique, on sait quel materiel est concerner? Ou il nous indique juste les problemes Hard en géneral? (comme on peut le voir sur l'exemple de LorDA)

J'ai regarder le mode verbeux et je me suis rendu compte que certainne MIB manquai, J'ai alors copier ces MIB que j'ai trouver sur le CD HP dans /usr/share/snmp/mibs mais il ne les trouve toujour pas. En a t'il besoin? Si oui comment proceder?

- Condition of all Compaq MIBs is Failed

- CPQSTDEQ-MIB::cpqStdEquipment MIB condition is Ok
- CPQSINFO-MIB::cpqSystemInfo MIB condition is Ok
- CPQIDA-MIB::cpqDriveArray MIB condition is Ok
- CPQHLTH-MIB::cpqHealth MIB condition is Ok
- CPQSTSYS-MIB::cpqSsStorageSys MIB condition is Unknown
- CPQSM2-MIB::cpqSm2 MIB condition is Failed
- CPQHOST-MIB::cpqHostOs MIB condition is Unknown
- CPQIDE-MIB::cpqIde MIB condition is Unknown
- CPQNIC-MIB::cpqNic MIB condition is Ok


Merci

DonKiShoot
7th February 2008, 21:39
Quand tout va bien il indique rien et lorsque qu'un état change il nous renvoie une info. C'est ça?
OUI
Sinon comme LorDa je m'interoge sur "Embedded NEC98431 is Failed", j'ai pas trouver grand chose dessus.
J'ai répondu à LORDA (il faut prendre le temp de tout lire ;))
Et lorsque qu'un état devient critique, on sait quel materiel est concerner?
OUI, débranche une alim pour voir :D
Ou il nous indique juste les problemes Hard en géneral? (comme on peut le voir sur l'exemple de LorDA)
Je n'ai pas vu ça moi !
J'ai regarder le mode verbeux et je me suis rendu compte que certainne MIB manquai, J'ai alors copier ces MIB que j'ai trouver sur le CD HP dans /usr/share/snmp/mibs mais il ne les trouve toujour pas. En a t'il besoin? Si oui comment proceder?
S'assurer que les pilotes Insight relevant les informations manquantes sont bien chargés.
Inutile de copier les fichiers de mib, tout est inclus dans le plugin, il n'a pas besoin des fichiers de description de la mib.

shutdown76
8th February 2008, 11:31
Sinon pour le critical c'est certainement une carte réseau pas branché mais pas désactivé.

Les 2 cartes reseau sont brancher.
J'ai suivi ce poste (http://forums12.itrc.hp.com/service/forums/questionanswer.do?admit=109447627+1202463417223+28 353475&threadId=883553), Donc desactiver l'agent Remote Insight Information mais je ne peut plus faire de check dans ce cas... (Je ne possede pas de carte ILO).

Merci.

EDIT: sur un autre serveur j'ai: "Embedded NEC98431 is Failed - Event Log is Failed - SM2 - Health "

DonKiShoot
8th February 2008, 13:04
Les 2 cartes réseaux sont branchés et up ? :shock:

Il faut au contraire mettre un maximum d'agent insight sur le serveur à monitorer pour avoir une mib bien remplie.

Les mib qui sont en erreur et qui ne t'intéressent pas peuvent être désactivé du check par la commande -e (voir le help)

Pour le event log il suffit de clearer la log dans l'interface graphique

Pour le SM2, c'est la carte ilo il me semble, donc si tu n'en a pas tu utilises le -e suivi du numéro de la mib qui correspond au SM2.

Pour le Health, je crois que c'est une erreur générale du aux erreurs précedentes.

shutdown76
11th February 2008, 16:43
Merci, tout est régler.

Les deux cartes réseau était brancher et up. Mais en cherchant un peu plus j'ai trouver une autre carte réseau! J'ai regarder dans le gestionnaire de périphériques et j'ai trouver Cartes multifonction > HP ILO Management; Donc j'ai des interfaces ILO (on m'avait mentie! :D)
Le nettoyage des logs a bien fonctionner aussi.

Merci pour ce plugin!!!

PS: Juste une chose, comment retrouve t'on les MIBid ?

DonKiShoot
11th February 2008, 23:24
Si ce n'est pas dans le help, il faut regarder dans le début du code.;)

romsworld
15th February 2008, 15:06
Il a l'air pas mal ce script. Pour ma part, j'ai un parc info entierement HP.

Je l'ai tester sur un DL 360 G5 dernierement, mais je n'arrive a retourner que l'info sur le cdrom OK.

Le reste ne fonctionnementp pas. Est ce normal ou je m'y prend mal ? Avec quel type de machine fonctionne ce script ?

merci

DonKiShoot
16th February 2008, 15:24
Il faut impérativement installé la partie client insight manager qui permet de renseigner les mibs à interroger.

jfw.ho
24th March 2008, 12:53
Bonjour,

Tout d'abord je tiens à vous remercie pour ce travail accomplit.
Je l'utilise sans soucis sur des HP Proliant DL380 G5.

Par contre en essayant de lui faire remonter les infos d'une lame HP Proliant BL460 qui se trouve dans un chassis HP C7000, sur laquelle tourne W2K3 et les agents Insigth, j'ai les erreurs suivantes:

./check_snmp_cpqHealth.pl -H 10.0.1.21 -C *-*-*-* -e14
Use of uninitialized value in concatenation (.) or string at ./check_snmp_cpqHealth.pl line 2430.
Use of uninitialized value in concatenation (.) or string at ./check_snmp_cpqHealth.pl line 2431.
Use of uninitialized value in concatenation (.) or string at ./check_snmp_cpqHealth.pl line 2432.
NIC1 in Slot0 Port2 is Ok - Embedded NEC98431 is Ok - Event Log is Ok - Temp ... | Fan1=2, TempSensor1System=39, TempSensor2Cpu=26, TempSensor3Cpu=30, TempSensor4Cpu=30, TempSensor5Cpu=26, TempSensor8Memory=44, TempSensor9Ambient=19

J'ai du rajouter le -e 14, car sinon j'obtients en plus:
ERROR in cpqIdeControllerTable or cpqIdeIdentTable, you should suppress mib 14 from @myMibs or use "-e 14" parameter
Requested table is empty or does not exist.

Comment puis-je résoudre ces quelques messages d'erreur qui empêche la remontée des infos dans Centreon.

Merci d'avance pour votre aide

DonKiShoot
25th March 2008, 13:15
Entre en contact avec moi par mp ou par mail (idem à mon msn id).
Tu interroges un matériel que je n'ai pas encore rencontré.

Fournis moi le résultat du snmpwalk de la machine en question sur l'oid (1.3.6.1.4.1.232.0) stp

Ainsi que le résultat complet de ta commande habituel sans utiliser de -e (exclude) mais en incluant le -v (verbose)

Merci

tiergau
11th April 2008, 11:16
il est ecrit en kel langage ton script là ?? Je debute dans la création de script...

ah il est fait en perl lol jai du mal c'est un truc de ouf... Mais tu pe mexpliquer comment il fonctionne stp et comment faire pour le mettre en place pour mon Nagios... J'utilise une interface Graphique Monarch si tu connais...

DonKiShoot
11th April 2008, 12:38
Commences par faire marcher des scripts de base, celui-ci n'est pas le plus simple à faire fonctionner.

Sinon il y a l'aide comme tout plugin nagios : ./commande --help

DonKiShoot
19th May 2008, 14:08
Bonjour à tous,

Je vous annonce la sortie de la version "Prod I" (v1.0)

Pourquoi 1.0 ? Prod ? I ?
Parce qu'après plusieurs années de remonté de bug quasi nul et de fonctionnement en interne, j'ai décidé de rassurer les derniers réticents en passant à une version au delà du 0.x (c'est purement marketing ;))
C'était également une volonté de ma part de donner une fin à une série que je considère aboutie.
Le mot "Prod" définit une version ultra stable et donc utilisable en production sans soucies.
Le "I" me sert juste à envisager d'autres évolutions (on m'a déjà mis sur une piste en me proposant de passer tout mes OID dans un tableaux d'OID , c'est purement cosmétique je pense mais je me le garde sous le coude)

Merci à tous et n'hésiter pas à me remonter vos infos (il n'y a pas que les bugs qui m'intéressent :D)

Lap923
1st August 2008, 18:18
Tout d'abord merci pour ton plugin !!
Il a l'air super.
Par contre, j'arrive pas à le faire marcher...je me sens con.. je trouve pas insight manager client. J'ai déjà installé insight manager 7.0 et 5.2 mais ce sont les parties serveur...
Si une bonne âme pouvais me donner un lien ou éclairer ma lanterne..?

DonKiShoot
1st August 2008, 18:26
La partie serveur ne te servira à rien pour mon plugin.
Il te faut juste les clients hp/cpq à installer sur les serveurs à surveiller.

Vla un exemple pour debian:

http://www.google.fr/url?sa=t&ct=res&cd=2&url=http%3A%2F%2Fdbprog.developpez.com%2Flinux%2Fh pagentsdebian%2FHPAgentsDebian.pdf&ei=iyqTSJaHKpCc0QSJx5G1Cg&usg=AFQjCNHuHe2FF_OkqChDbR366puhxWTYgw&sig2=zOb9gg7B51B-G6zzUH7qhg

Pour redhat/fedora c'est juste des rpm à trouver chez le constructeur.

Lap923
1st August 2008, 18:55
Arf, merci d'avoir répondu si rapidement (c'est chouette ça !!).

Ta réponse me fiche un vieux doute !!! Mes serveurs étant quasiment tous des windows, est ce que ton plugin n'est pas fait que pour des machines type unix ?

DonKiShoot
2nd August 2008, 00:37
Non je surveille également les windows avec.
Le client pour windows est encore plus simple à trouver il me semble, il est installé par défaut avec le cd fournit avec le serveur.

http://h20000.www2.hp.com/bizsupport/TechSupport/SoftwareDescription.jsp?lang=en&cc=US&swItem=MTX-09b2f920d5c34f6a85f096fd6b

Lap923
3rd August 2008, 06:44
J'ai bien installé la partie cliente dont tu m'a parlé... D'ailleurs ce n'était que des mises à jour car nous avons installé systématiquement les cd d'HP sur nos serveurs...
Cependant j'ai toujours la mm erreur.

[root@pc35 plugins]# ./check_snmp_cpqHealth.pl -H 10.240.54.40 -C public
ERROR in cpqHoMibStatusArray, you should install cpq snmp client on 10.240.54.40
No response from remote host '10.240.54.40'.


Donc, après cette petite déception, je me suis dis que le problème venait peut-être de ma machine linux hébergeant mon nagios.
J'ai installé SMTPTT.... configuré et tout rien y fait (fallait-il le faire ?? )

Autrement sur mon serveur HP j'ai bien configuré le service SNMP (mais ai-je vraiment besoin de ça car il était bien configuré). Disons que j'ai mis full-access partout et que j'ai vérifié que la community s'appelait bien : public.

J'ai testé sur plusieurs serveurs HP... rien n'y fait tjs la mm..


Un truc bizarre : Le service est bien démarré sur mon serveur mais :

C:>nmap 10.240.54.221

Starting Nmap 4.20 ( http://insecure.org ) at 2008-08-03 05:38 Paris, Madrid
Interesting ports on pc221 (10.240.54.221):
Not shown: 1683 closed ports
PORT STATE SERVICE
21/tcp open ftp
53/tcp open domain
80/tcp open http
135/tcp open msrpc
139/tcp open netbios-ssn
445/tcp open microsoft-ds
873/tcp open rsync
1033/tcp open netinfo
1043/tcp open boinc-client
2301/tcp open compaqdiag
3128/tcp open squid-http
3389/tcp open ms-term-serv
5800/tcp open vnc-http
5900/tcp open vnc
MAC Address: 00:16:35:80:76:BD (Hewlett Packard)

Nmap finished: 1 IP address (1 host up) scanned in 1.703 seconds

On ne vois pas apparaitre le port 161 ... c'est peux être normal mais ça reste intriguant..


Puis c'est tout...
Si tu avais une piste....
(^-^)

Lap923
3rd August 2008, 15:21
Heu Erratum !! finalement ça marche !
Je n'avais pas configuré la partie snmp sous windows....(lapidation sur la place public ??)


En tout cas, merci pour ton aide..et pour le script!
on s'amuse tous comme des petit fou avec!!!

Deacon
26th August 2008, 12:02
Bonjour, tout d'abord merci pour ce plugin qui m'intéresse fortement. :)

J'aimerais savoir si il est possible d'éviter que le Status Information du service dans Monitoring soit tronqué?
Voilà ce que je peux lire pour le moment =>

Status Information : NIC1 in Slot0 Port1 is Ok - Embedded NEC98431 is Ok - Event Log is Ok - Powe ...

DonKiShoot
26th August 2008, 18:36
La limite se trouve dans nagios (en tous cas avec la 1.x et la 2.x)
Par contre avec nagios 3.x je ne sais pas si il y a toujours une limite du nombres de caractères en retour du check, ni si c'est toujours la même.

surcouf
26th August 2008, 22:20
La limite se trouve dans nagios (en tous cas avec la 1.x et la 2.x)
Par contre avec nagios 3.x je ne sais pas si il y a toujours une limite du nombres de caractères en retour du check, ni si c'est toujours la même.

Ça n'a même plus rien à voir puisqu'il est possible d'avoir plusieurs lignes en retour avec Nagios3.
Quant à la limite, elle est passée de 350 octets à 4Ko.

# Plugin Output:

* Multiline plugin output is now supported for host and service checks. Hooray! The plugin API has been updated to support multiple lines of output in a manner that retains backward compatability with older plugins. Additional lines of output (aside from the first line) are now stored in new $LONGHOSTOUTPUT$ and $LONGSERVICEOUTPUT$ macros.
* The maximum length of plugin output has been increased to 4K (from around 350 bytes in previous versions). This 4K limit has been arbitrarily chosen to protect again runaway plugins that dump back too much data to Nagios.
* More information on the plugins, multiline output, and max plugin output length can be found here.

http://nagios.sourceforge.net/docs/3_0/whatsnew.html
http://nagios.sourceforge.net/docs/3_0/pluginapi.html

DonKiShoot
27th August 2008, 10:53
C'est déjà prévu dans le code mais je coupais pour ne pas avoir un affichage énorme, passe le paramètre m à 0

-m, --maxdisplay=<max length>
Nagios display status max length (Default: 60, 0 = infinite)

Deacon
27th August 2008, 12:49
Ah super! Pile ce qu'il me fallait merci.

edit: mince j'ai parlé trop vite. En ligne de commande c'est top je vois tout par contre dans Centreon ça s'arrête à 3 lignes. Mais là ça doit venir du code de Centreon j'imagine.

DonKiShoot
27th August 2008, 18:19
Je pense ou d'un buffer de nagios peut-être (je ne sais pas ou centreon récupère les infos de nagios).

romsworld
20th November 2008, 00:10
Merci, tres bon script.

Pour info, il y a aussi celui ci : http://www.consol.de/opensource/nagios/check-hpasm

romsworld
20th November 2008, 15:28
Salut,

Peux tu nous dire la liste des RPM a installer exactement ?
Merci.


PS: il faut bien entendu installer les rpm insight qui vont bien sur les clients linux a interroger[/QUOTE]

DonKiShoot
20th November 2008, 21:38
Merci, tres bon script.

Pour info, il y a aussi celui ci : http://www.consol.de/opensource/nagios/check-hpasm
Il a l'air très similaire et bien poussé aussi (dommage que je ne comprenne rien à l'Allemand);-).

Du coup, je vais pouvoir arrêter de me poser la question de savoir si c'est utile de poursuivre un dev quelconque sur mon plugin :d

Si quelqu'un à tester les 2 et peut me donner les points forts et faibles de chaque ? Cela m'intéresse grandement :d

Disciplus
20th January 2009, 15:03
Bonjour,

Tout d'abord bravo pour ce plugin. il est très bien fait.

J'ai 2 questions:

1. comment modifier les seuils de température du SNMP? (exemple: température mémoire critique : 110°C)
pas top top...

2. je cherche à isoler une sonde température ambiante pour m'alerter de la température de la salle (Clim en rad régulièrement).

Merci d'avance

DonKiShoot
21st January 2009, 00:19
Je n'ai pas mis d'alerte sur les températures que je relève car je n'en ai pas trouvé l'intérêt vu que je pense que les outils compaq positionnent automatiquement leurs compteurs d'alertes (mib) lorsque l'on franchit un seuil dangereux pour le serveur mais je peu me tromper.

Il doit probablement y avoir des threshold configurable sur l'interface web de l'insight management du serveur.

Pour ta question numéro 2, je n'ai pas saisi le rapport avec ce plugin ;-)

Disciplus
21st January 2009, 09:15
Et bien pour la question 2 votre plugin ma permis de voir que le serveur disposé d'une sonde "ambient", mon but est d'isolé la MIB pour pouvoir mettre une alerte température lorsque la salle dépasse les 26°C.

Voila ou j'en suis dans la lecture de votre script:

my @cpqHeFltTolFanLocale;
...
$cpqHeFltTolFanLocale[11]='Ambient';
...
$oid{'cpqHeFltTolFanLocale'}='1.3.6.1.4.1.232.6.2. 6.7.1.3';

ou

my @cpqHeTemperatureLocale

$cpqHeTemperatureLocale[11]='Ambient';

$oid{'cpqHeTemperatureLocale'}='1.3.6.1.4.1.232.6. 2.6.8.1.3';

et losque je fait un snmpwalk :

centreon:/usr/lib/nagios/plugins# snmpwalk -v 1 -c public @ipserveur 1.3.6.1.4.1.232.6.2.6.8.1.3
SNMPv2-SMI::enterprises.232.6.2.6.8.1.3.0.1 = INTEGER: 11
SNMPv2-SMI::enterprises.232.6.2.6.8.1.3.0.2 = INTEGER: 7
SNMPv2-SMI::enterprises.232.6.2.6.8.1.3.0.3 = INTEGER: 6
SNMPv2-SMI::enterprises.232.6.2.6.8.1.3.0.4 = INTEGER: 6
SNMPv2-SMI::enterprises.232.6.2.6.8.1.3.0.5 = INTEGER: 5
SNMPv2-SMI::enterprises.232.6.2.6.8.1.3.0.6 = INTEGER: 6
SNMPv2-SMI::enterprises.232.6.2.6.8.1.3.0.7 = INTEGER: 6

ou

centreon:/usr/lib/nagios/plugins# snmpwalk -v 1 -c public @ipserveur 1.3.6.1.4.1.232.6.2.6.7.1.3
SNMPv2-SMI::enterprises.232.6.2.6.7.1.3.0.1 = INTEGER: 3
SNMPv2-SMI::enterprises.232.6.2.6.7.1.3.0.2 = INTEGER: 3
SNMPv2-SMI::enterprises.232.6.2.6.7.1.3.0.3 = INTEGER: 3
SNMPv2-SMI::enterprises.232.6.2.6.7.1.3.0.4 = INTEGER: 3
SNMPv2-SMI::enterprises.232.6.2.6.7.1.3.0.5 = INTEGER: 6
SNMPv2-SMI::enterprises.232.6.2.6.7.1.3.0.6 = INTEGER: 6

mais en aucun cas je n'obtiens la valeur de la sonde :

centreon:/usr/lib/nagios/plugins# ./check_snmp_cpqHealth.pl -H @ipserveur -C public
Embedded NEC98431 is Failed - SM2 | Fan1System=2, Fan2System=2, Fan3System=2, Fan4System=2, Fan5CPU=2, Fan6CPU=2, TempSensor1Ambient=20, TempSensor2Memory=43, TempSensor3Cpu=30, TempSensor4Cpu=30, TempSensor5IoBoard=40, TempSensor6Cpu=30, TempSensor7Cpu=30

DonKiShoot
21st January 2009, 14:11
Le bout de code intéressant est celui-ci :

perfUpdate('TempSensor'.$$response1{$oid{'cpqHeTem peratureIndex'}.".$1.$2"}.$cpqHeTemperatureLocale[$$response1{$oid{'cpqHeTemperatureLocale'}.".$1.$2"}],$$response1{$oid{'cpqHeTemperatureCelsius'}.".$1.$2"});

Si j'utilises to snmpwalk :

SNMPv2-SMI::enterprises.232.6.2.6.8.1.3.0.1 = INTEGER: 11

et l'oid concernant la température :

$oid{'cpqHeTemperatureCelsius'}='1.3.6.1.4.1.232.6 .2.6.8.1.4';

J'en déduis que tes 20 degrés devrait être ici :

1.3.6.1.4.1.232.6.2.6.8.1.4.0.1

Disciplus
21st January 2009, 16:50
Exact!
Merci beaucoup je vais tenter d'isoler ça en trouvant un plugin adéquate.

Par contre je ne sais pas comment tu passe de
$oid{'cpqHeTemperatureCelsius'}='1.3.6.1.4.1.232.6 .2.6.8.1.4';
à 1.3.6.1.4.1.232.6.2.6.8.1.4.0.1
Il me manque la logique snmp. Utilise tu un utilitaire afin de naviguer dans les chemin SNMP si oui je suis preneur.
Le snmpwalk est gentil mais un peut ... soyont polis ... chiant.

Merci encore en tout cas !

Disciplus
21st January 2009, 17:07
Impec, ça roule avec le ptit plugin:
check_snmp -H @ipserveur -o 1.3.6.1.4.1.232.6.2.6.8.1.4.0.1 -w 24 -c 30

Bonne continuation

DonKiShoot
21st January 2009, 20:40
Exact!
Merci beaucoup je vais tenter d'isoler ça en trouvant un plugin adéquate.

Par contre je ne sais pas comment tu passe de
$oid{'cpqHeTemperatureCelsius'}='1.3.6.1.4.1.232.6 .2.6.8.1.4';
à 1.3.6.1.4.1.232.6.2.6.8.1.4.0.1
Il me manque la logique snmp. Utilise tu un utilitaire afin de naviguer dans les chemin SNMP si oui je suis preneur.
Le snmpwalk est gentil mais un peut ... soyont polis ... chiant.

Merci encore en tout cas !

J'ai écris le plugin donc je connais la logique de la mib compaq.
Vois juste les 2 derniers chiffres de l'oid comme des sous adresses définissant un objet bien précis.

Carter
10th February 2009, 14:40
Ca vient peut être de la fatigue accumulée à force de prendre la tête sur nagios/centreon, mais malgrès une lecture attentive de ce post et de l'help, j'ai du mal à comprendre le fonctionnement de ce script :confused:

En gros, je cherche à connaitre l'état physique de mes disques, ainsi que l'état des alimentations... Et exploiter cela dans centreon...
Mais j'avoue ne pas piger comment isoler ces infos...

Si quelqu'un peut m'éclairer (j'ai un proliant 370 sous W2K3 pour tester)

DonKiShoot
11th February 2009, 10:42
Ce script interroge l'état global physique de ton serveur hp (ventilo, alim, carte raid, hd, etc ...)
Lors d'une défaillance de l'un de ces systèmes, il te remonte l'alerte et t'indique le système en défaut
Utilise le plugin et débranche une de tes alims si tu as des alims redondantes ou un disque si tu es en raid 5.
En principe le plugin devrait t'alerter !

Carter
11th February 2009, 11:28
Merci bien, j'avais finalement compris ;)

Par contre, pour superviser une foultitude de serveur, je devrais peut etre utiliser les traps pour éviter de charger le WAN en check :rolleyes:

DonKiShoot
11th February 2009, 13:29
C'est un choix (j'ai déjà entendu dire que des traps pouvaient se perdre surtout sur un wan et encore plus quand il y a de la congestion mais c'est difficile à vérifier).

surcouf
11th February 2009, 14:39
C'est un choix (j'ai déjà entendu dire que des traps pouvaient se perdre surtout sur un wan et encore plus quand il y a de la congestion mais c'est difficile à vérifier).

Bah, ça reste de l'UDP, par défaut, hein...

fgalle
11th June 2009, 17:28
Je vais sans doute paraitre complètement dans les choux mais comment installer et utiliser le plug-in ? J'arrive sur un système tout prêt et je n'ai jamais installé le moindre plug-in. J'imagine qu'il suffit de le copier dans le répertoire approprié.

Mais comment s'utilise t-il ensuite ? Doit on créer des commandes et services ?


Je travaille avec l'agent SNMP constructeur installé sur les serveurs HP. Je me tourne vers ce plugin car avec check_snmp, je suis très embêté pour monitorer les disques et le RAID car il faut indiquer une OID complète, et selon le serveur elle change.

DonKiShoot
11th June 2009, 22:51
Tout à fait !

Mettre le plugin dans le dossier libexec.

su - nagios
tester le plugin en ligne de commande pour trouver les bons paramètres

Créer la commande dans Centreon puis le service et l'attaché au serveur.

romsworld
12th June 2009, 00:05
Le mettre dans /usr/local/nagios/libexec en general.

Ensuite ./check_snmp_cpqHealth.pl -H ip -C public

Et c'est tout :), sauf si tu veux des rrd, je ne sais plus l'option.

fgalle
16th June 2009, 12:52
J'ai vu en parcourant le topic qu'il est nécessaire d'avoir le client insight installé. est-ce qu'il faut installer toute la suite de supervision insight ou l'agent snmp HP suffit ?

DonKiShoot
16th June 2009, 15:33
Les agents snmp sur le serveur à monitorer suffisent.

fgalle
17th June 2009, 14:34
Malgré tout sur mes serveurs j'ai le message :

(Return code of 127 is out of bounds - plugin may be missing)
en critical.

Je ne comprends pas quel plugin il pourrait manquer.

DonKiShoot
17th June 2009, 16:59
T'as juste mal configurer nagios, ce n'est pas un problème de plugin.
Nagios ne trouve pas le plugin que tu lui as indiqué (certainement une erreur de saisi)

fgalle
18th June 2009, 09:58
OK j'ai corrigé l'erreur :D
Par contre malgré le fait que j'ai installé l'agent, j'ai des MIBs qui ne répondent pas. Ne peut-on pas les activer ou les rajouter manuellement ? En attendant je vais les désactiver grâce à -e.

edit : Là je retire la mib 9. Et malgré l'un des serveurs me met toujours un message par rapport à cette mib. :/
re edit : Non c'est bon il fallait juste que j'attende plus longtemps. Seule la MIB 9 posait problème apparemment.

fgalle
30th June 2009, 11:16
Avant la réponse habituelle, j'obtiens ce message là en lançant la commande manuellement sur un serveur Windows 2000 :
Use of uninitialized value in concatenation (.) or string at ./check_snmp_cpqHealth.pl line 2262.


Je regarde dans le script à quoi ça correspond. Si vous avez une réponse à m'apporter je suis malgré tout preneur.

DonKiShoot
30th June 2009, 17:44
Avant la réponse habituelle, j'obtiens ce message là en lançant la commande manuellement sur un serveur Windows 2000 :


Je regarde dans le script à quoi ça correspond. Si vous avez une réponse à m'apporter je suis malgré tout preneur.

Matériel récent ? ancien ? agent insight récent ? ancien ?

fgalle
30th June 2009, 17:45
L'agent insight est sans doute ancien sur les matériels qui me répondent cela. En fait j'ai remarqué que certains serveurs me donnent ce message sur bien plus de lignes.

Crois-tu que mettre à jour l'agent corrigerait le problème ?

DonKiShoot
30th June 2009, 18:07
S'il a plus de 4 ans oui.

fgalle
3rd July 2009, 10:48
J'ai une alerte sur une OID qui semble concerner quelque chose de logiciel, mais sans doute lié à l'agent Insight.

Event Log is Degraded

Voici un lien vers une description de l'oid : http://www.oid-info.com/get/1.3.6.1.4.1.232.6.2.11.2

Je ne sais pas trop à quoi c'est lié et comment le corriger. On dirait que c'est le journal qui liste les erreurs matérielles qui serait altéré...

fgalle
3rd July 2009, 11:02
Ok c'est corrigé, c'était en fait lié à de très vieilles alertes dans le log. Je l'ai nettoyé en passant par le homepage du serveur.

Célé
10th July 2009, 10:10
Bonjour à tous ,

J'aimerai savoir si ton plugins est disponible via rpm, en effet je suis sous FAN sans interface graphique et je ne vois pas trop comment le prendre autrement.

Merci d'avance.:)

DonKiShoot
10th July 2009, 13:26
Je ne vais pas faire un rpm qui va déposer le fichier perl dans /usr/local/nagios/libexec et faire un chmod 755 quand même :d

Célé
10th July 2009, 16:49
Non non tu ma mal compris :)

Je ne cherche pas a me faire mâcher le boulot , c'est juste que je suis sous FAN et donc CentOS sans aucun interface graphique. Débutant dans le monde libre je ne vois pas bien comment je peux avoir ton plugins sans passer par les rpm.

Voila si tu as une manip je suis preneur :)

DonKiShoot
10th July 2009, 23:49
Il suffit d'aller lire le tout premier message de ce fil de discussion et de télécharger l'archive du plugin :D

surcouf
11th July 2009, 01:58
Je ne vais pas faire un rpm qui va déposer le fichier perl dans /usr/local/nagios/libexec et faire un chmod 755 quand même :d

Et pourquoi pas ?

DonKiShoot
11th July 2009, 16:26
Et pourquoi pas ?
C'est fait mais vu que c'est mon premier rpm, je doute qu'il s'install bien et où il faut :D

http://forum.centreon.com/attachment.php?attachmentid=947&d=1247318557

Célé
15th July 2009, 16:38
Merci pour tout ce boulot DonKiShoot :)

Ton plugin est installé sur Nagios, le seul hic ... il me remonte beaucoup de chose mais certaines MIB reste problématique.

Lorsque je lance la commande :

#./check_snmp_cpqHealth.pl -H @ -C public

Une erreur survient alors :

#ERROR in cpqIdeControllerTable or cpqIdeIdentable, your may suppress mib 14 from@myMybs
Requested table is empty or does not exist

Je commente alors cette ligne et passe en mode verbeux

#./check_snmp_cpqHealth.pl -H @ -C public -v e14

Certaine info remonte correctement mais je me rend compte que certaines MIB rencontrent des problèmes :

CPQHLTH-MIB:cpqHealth is FAILDED
CPQSTSYS-MIB:cpqSstorageSys condition is Not Available
CPQSM2-MIB:cpqSm2 is FAILED
CPQHOST-MIB:cpqHostOS condition is Unknow
CPQNIC-MIB:cpqNic is FAILED

J'ai vérifié la correspondance des MIB pas de problème à ce niveau la ...

Je cherche a superviser une serveur HP Profiliant DL360 G5, sous W2003 R2

Merci d'avance pour m'éclairer :)

DonKiShoot
15th July 2009, 22:13
#./check_snmp_cpqHealth.pl -H @ -C public -v e14

#./check_snmp_cpqHealth.pl -H @ -C public -v -e 14

S'il n'arrive pas à tout obtenir, c'est peut-être que le serveur ou les agents insight sont trop vieux voir un problème de droit d'accès aux oid manquants mais je n'y croit pas.

Célé
22nd July 2009, 12:51
Hello,

Encore un grand merci DonKiShoot, ton script me permet de superviser la totalité du parck informatique de mon entreprise. Tout le SI est ravis :).

Pour répondre au post plus haut, tu avais effectivement raison les agents Insight étaient un peux viello.

Cependant un problème persiste sur un seul serveur, il me remonte une erreur :

#NIC4 in slot 0 is failed - NIC

Je ne vois pas vraiment a quoi correspond cette carte puisque ce serveur ne possède que 2 cartes réseaux physiques. Il possède aussi deux cartes VMWARE mais toutes les deux sont désactivées, donc si c'est une de ces cartes qui pose problème, pourquoi je n'ais qu'une seule erreur...

Je ne vois pas trop de solution car si je modifie ton script en supprimant la supervision de la MIB NIC je vais empêcher la supervision de toutes les cartes réseaux.

Existe t'il un moyen de ne PAS checker une carte ?

Merci d'avance et encore chapeau:)

DonKiShoot
22nd July 2009, 14:08
La solution que j'ai trouvé c'est de désactiver la carte si c'est un windows ou de faire un ifdown si c'est un linux puis relancer le service snmp et les agents insight.

Célé
22nd July 2009, 15:29
Problème résolu !

J'ai donc suivi tes conseils. Désactivation des deux cartes VMWARE cad :

VMARE Network Adapter VMnet 1
VMARE Network Adapter VMnet 8

A partir de la, le message d'erreur de Nagios à changé au lieu de :

#NIC4 in slot 0 port2 is failed - NIC

le nouveau message :

#NIC2 in slot 0 port2 is failed - NIC

Et en effet il y avait une carte réseau active mais non branchée. J'ai donc désactivé cette carte, relancer tous mes services HP et SNMP. Et la Nagios me remonte aucune erreur.

Merci encore !

chicanos
6th August 2009, 13:23
Salut à tous,

J'essaye en vain d'installer le client Hp Insight Manager sur un DL 380 G2.

J'ai trouver les cd HP et j'ai donc voulu installer HP "System" Insight Manager mais pendant l'installation je dois renseigner le nom d'une base de données...

J'ai peur que le "System" soit la suite complète avec 10 millions d'outils... Je voulais juste le client ! Et encore, je n'ai coché que ca au début de l'installation.

Pouvez vous me renseigner la dessus ?

D'avance merci.

DonKiShoot
6th August 2009, 14:18
Oui tu te gourre de programme à installer, il faut que tu regardes du cote de HPSMH je crois.

chicanos
6th August 2009, 15:29
Ok donc en fait j'avais déja l'agent d'installer, mais je ne vois pas ou il est vraiment, bref.

Par contre au début de ton poste je vois qu'il y a 3 fichiers à télécharger, je pense que le premier est le plugin qu'il faudra éxécuté par la suite, mais à quoi servent les 2 autres ?

DonKiShoot
6th August 2009, 22:59
C'est au choix, soit en version compréssé normal, soit en version rpm, le fichier restant étant le fichier de spec du rpm.

Pour conclure, tu n'en choisi qu'un.

fgalle
17th August 2009, 16:58
Ce n'est pas lié au plugin mais depuis que j'ai installé hpasm sur des serveurs HP sous RH4, certains figent. Ils répondent au ping mais on ne peut plus les atteindre par SSH et beaucoup de services plantent.

Le serveur n'a aucun problème physique selon Insight.

D'autres ont-il rencontré ce problème ici ?

Je testerais bien avec un hpasm plus ancien. Quelle est la plus vieille version qui supporte toutes les mibs (exceptée la 9 qui ne fonctionne même pas avec la dernière version d'hpasm) ?

C'est certainement lié au firmware mais je me vois mal mettre à jour 80 serveurs dont la majorité en production.


edit : D'après le support HP déjà il faut passer en firmware 8.0 sur ces ML 350 G3 et installer le PSP plutôt que seulement le rpm hpasm. Selon eux, la machine ne sait pas communiquer avec l'agent avec seulement le hpasm ce qui entraine des plantages. Pourtant avec le hpasm le plugin sait interroger les mibs... Je ne comprends pas trop. Moi qui voulais un truc épuré, passer par le PSP c'est choisir l'usine à gaz...

D'autres ont eu une expérience similaire ?

bigoud
9th September 2009, 15:43
Bonjour,

voila, j'ai testé le plugin et il marche bien pour les disques, les alims, les NICs (malgré un petit temps de latence entre le moment où se passe l'erreur et le moment où elle est effectivement détectée...),
mais elle ne détecte pas les pannes de ventilateurs. Quand je débranche un ventilo, il n'y a pas d'erreur détectée. Seule la vitesse du ventilateur change et passe de 2 à 1.
Est-ce normal?

de plus, j'ai une erreur : "Event Log is Failed". Comment faire pour la faire disparaitre?

merci d'avance de vos réponses et bravo à DonKiShoot pour son travail!!
Cordialement

DonKiShoot
9th September 2009, 21:17
Je suis déçu d'apprendre qu'un ventilo HS ne soit pas détecté :(

Pour le problème d'event log, il sufit de la clearer au travers de l'interface de management insight http://@ip:2381 je crois.

kinai
15th January 2010, 00:30
Bonsoir à tous,

Comment peut-on exploiter ce script via NSClient++ sans avoir à installer Perl sous Windows ? Existe-t-il une version compilée ?

Merci,

surcouf
15th January 2010, 01:51
Bonsoir à tous,

Comment peut-on exploiter ce script via NSClient++ sans avoir à installer Perl sous Windows ? Existe-t-il une version compilée ?

Merci,
Pourquoi installer Perl sous Windows ?
Ce plugin peut être utilisé directement sur le même serveur que Nagios.
Le système supervisé doit simplement disposer des agents SNMP nécessaires.

kinai
15th January 2010, 11:49
Pourquoi installer Perl sous Windows ?
Ce plugin peut être utilisé directement sur le même serveur que Nagios.
Le système supervisé doit simplement disposer des agents SNMP nécessaires.

Tout simplement parce que je veux l'utiliser depuis NSClient++. Le serveur Nagios n'a pas accès directement aux serveurs en SNMP.

surcouf
15th January 2010, 14:52
Tout simplement parce que je veux l'utiliser depuis NSClient++. Le serveur Nagios n'a pas accès directement aux serveurs en SNMP.

C'est dommage : la version 3 du protocole SNMP n'a rien à envier à NRPE/SSL.

Cependant, le plugin a été écrit pour exploiter le protocole SNMP et les agents SNMP qui vont avec...

DonKiShoot
15th January 2010, 21:22
Bonsoir à tous,

Comment peut-on exploiter ce script via NSClient++ sans avoir à installer Perl sous Windows ? Existe-t-il une version compilée ?

Merci,

Pas possible ! Il nécessite l'accès à un service snmp implémentant les mibs HP/COMPAQ Insight.

Sauf peut-être si le serveur monitoré contient tout cela et un interpréteur perl (il en existe des gratuits ou presque il me semble).

Il existe aussi des programmes pour compiler du perl il me semble mais la faut une licence si mes souvenirs sont exacts (active perl).

kinai
19th January 2010, 10:45
Je peux parfaitement faire de requete SNMP sous Windows (avec les OIDs qui vont bien) pour interroger le matériel. L'intêret de ce plugin est d'avoir une seule commande pour remonter l'état de santé du serveur sans avoir à faire des quantités importantes de règles.

Il existe un plugin comparable pour DELL (check_openmanage) et il livre une version compilée du script perl. Il semble qu'il existe quelque chose en effet.

je serais prêt à utiliser le script tel que (sans le compiler) et à installer perl sur les serveurs à monitorer mais je reste bloquer par l'usage du module perl snmp. Sous Linux, on l'installe très facilement. Sous windows, c'est une galère sans nom, sauf si j'ai loupé quelque chose.

Je vais voir comme je fais, mais je pense que je ne suis pas le seul a être interressé par ce mode de fonctionnement.

ch-pgv
20th January 2010, 14:31
bonjour,
tout d'abord félicitation pour ce plugin bien pratique :)

sur certaines machine je rencontre un petit pb, dans les données de performance centreon j'obtiens un
ERROR: General time-out (Alarm signal)j'ai testé en mettant le parametre "-t 60" qui est la valeure max, mais ca ne change rien.

en regardant ce qui se passait avec l'option "-v", je me suis apercu que tous les tests ce terminaient par cette erreur :shock:

voila 2 exples (1 qui marche et l'autre non) :
./check_snmp_cpqHealth.pl -H MonHost1 -C public -e1,8 -t 60 -m 0
NIC1 in Slot0 Port0 is Ok - Embedded NEC98431 is Ok - Event Log is Ok - TempSensor3 from Ambient is Ok - TempSensor2 from Cpu is Ok - TempSensor1 from System is Ok - Fan 2 for System is OK - Fan 1 for System is OK - Automatic Server Recovery is Ok - Memory Board in Slot 0 is Ok - Advanced Memory Protection is Ok - NIC - SM2 - Health - Drive - SysInf | Fan1System=2, Fan2System=2, TempSensor1System=31, TempSensor2Cpu=30, TempSensor3Ambient=25

./check_snmp_cpqHealth.pl -H MonHost1 -C public -e1,8 -t 60 -m 0 -v
Timeout alarm at 15
SNMP v1 login

- Condition of all Compaq MIBs is Ok

- CPQSINFO-MIB::cpqSystemInfo MIB condition is Ok
- CPQIDA-MIB::cpqDriveArray MIB condition is Ok
- CPQHLTH-MIB::cpqHealth MIB condition is Ok
- CPQSM2-MIB::cpqSm2 MIB condition is Ok
- CPQHOST-MIB::cpqHostOs MIB condition is Unknown
- CPQIDE-MIB::cpqIde MIB condition is Unknown
- CPQNIC-MIB::cpqNic MIB condition is Ok

> Model is ProLiant ML310 G5 with serial number xxxxxxxxxx
OS is Microsoft Windows Server 2003 R2, Standard Edition Service Pack 2 5.2
with Service Pack 2, Build 3790 Multiprocessor Free

> Firmware0 DeviceType: SystemRom Location: System Board UpdateMethod: Softwareflash
Name: Compaq System ROM Version: W05 2008.02.26
> Firmware1 DeviceType: RemoteInsightBoard Location: System Board UpdateMethod: Softwareflash
Name: Compaq Remote Insight ROM Version: RI7 1.43

- Advanced Memory Protection (AMP) is Ok
Mode currently configured: AdvancedEcc Current state: AdvancedEcc
HotPlug: NonHotPluggable OperatingSpeed: 800Mhz
State of the Rebuild/Initialize/Verify(RIV) engine: Unknown

- Memory Board in Slot 0 is Present and Ok with status AdvancedEcc
Locked state: Unknown Number of memory sockets: 4 HotPlug: NonHotPluggable
In use by OS: 2048Mo Including spare, mirrored or XOR: 2048Mo
- Module1 in Slot 0 is Ok with status Good
Size: 1024Mo Speed: 1ns Type: Dimm Technology: Synchronous
- Module2 in Slot 0 is Unknown with status NotPresent
Size: 0Mo Speed: 1ns Type: Dimm Technology: Synchronous
- Module3 in Slot 0 is Ok with status Good
Size: 1024Mo Speed: 1ns Type: Dimm Technology: Synchronous
- Module4 in Slot 0 is Unknown with status NotPresent
Size: 0Mo Speed: 1ns Type: Dimm Technology: Synchronous

> Physical Memory Free: 1275/2046Mo Paging Memory Free: 1398/1809Mo

> File System 0 is C:\ [:NTFS]
Used: 5681/30004Mo (18%) Allocated Unit : 11635688/61448592files
> File System 1 is E:\ [SWAP:NTFS]
Used: 4052/10001Mo (40%) Allocated Unit : 1037519/2560359files
> File System 2 is F:\ [Backup:NTFS]
Used: 2282/28655Mo (7%) Allocated Unit : 584200/7335680files
> File System 3 is G:\ [Data:NTFS]
Used: 2712/68660Mo (3%) Allocated Unit : 694425/17577110files

- Automatic Server Recovery (ASR) is Enabled and Ok
Timeout: 10 Reboot: 0/10 LastResetCause: ManualReset NextReboot: BootOs

- All thermal and fan subsystems are Ok
- All temperatures are Ok
- All systems fans are Ok
- All cpus fans are Unknown
Action to perform when the thermal condition is degraded: ShutDown

- Fan 1 for System on Chassis 0 is Present and OK
Speed: Normal Type: SpinDetect HotPlug: NonHotPluggable
RedundancyState: NotRedundant RedundantPartner: Fan 0
- Fan 2 for System on Chassis 0 is Present and OK
Speed: Normal Type: SpinDetect HotPlug: NonHotPluggable
RedundancyState: NotRedundant RedundantPartner: Fan 0

- Temp Sensor 1 from System on Chassis 0 is Ok
Temperature: 31°C Threshold: 46°C Type: Caution
- Temp Sensor 2 from Cpu on Chassis 0 is Ok
Temperature: 30°C Threshold: 100°C Type: Caution
- Temp Sensor 3 from Ambient on Chassis 0 is Ok
Temperature: 25°C Threshold: 39°C Type: Caution

- All power supply subsystems are Unknown

- The Event Log is Supported and Ok

- PciIntegratedLightsOutRemoteInsight2 (V2 Rev 1.43 12/12/2007) is Ok
Battery is NoBattery with Unknown (0% charged) OnlineData for OS (Updated: 00/00/0000 00:00)
Keyboard is Unknown Mouse is Unknown Video is Unknown Alerting is Disabled (NoAlertsPending)
RemoteSession is Inactive ColdReboot is NotAvailable BadLoginThreshold: N/A
SelfTestErrors 0 with mask 1001110000000000000
VirtualPower is NotApplicable ExternalPower is InternallyConnected
ResetSupportBit is available iLO alerts are disabled Host alerts are disabled
@IP: 0.0.0.0 SN: ILOCZ18150026 iLO Security Override Switch is NotSet
ERROR: General time-out (Alarm signal)./check_snmp_cpqHealth.pl -H MonHost2 -C public -e1,8 -t 60 -m 0
ERROR: General time-out (Alarm signal)

./check_snmp_cpqHealth.pl -H MonHost2 -C public -e1,8 -v -t 60 -m 0
Timeout alarm at 15
SNMP v1 login

- Condition of all Compaq MIBs is Failed

- CPQSINFO-MIB::cpqSystemInfo MIB condition is Ok
- CPQIDA-MIB::cpqDriveArray MIB condition is Ok
- CPQHLTH-MIB::cpqHealth MIB condition is Failed
- CPQSM2-MIB::cpqSm2 MIB condition is Ok
- CPQHOST-MIB::cpqHostOs MIB condition is Unknown
- CPQIDE-MIB::cpqIde MIB condition is Unknown
- CPQNIC-MIB::cpqNic MIB condition is Ok

> Model is ProLiant ML310 G5p with serial number xxxxxxxxxx
OS is Microsoft Windows Server 2003 R2, Standard Edition Service Pack 2 5.2
with Service Pack 2, Build 3790 Multiprocessor Free

> Firmware0 DeviceType: SystemRom Location: System Board UpdateMethod: Softwareflash
Name: Compaq System ROM Version: W08 2009.01.22
> Firmware1 DeviceType: RemoteInsightBoard Location: System Board UpdateMethod: Softwareflash
Name: Compaq Remote Insight ROM Version: RI7 1.78

- Advanced Memory Protection (AMP) is Ok
Mode currently configured: AdvancedEcc Current state: AdvancedEcc
HotPlug: NonHotPluggable OperatingSpeed: 800Mhz
State of the Rebuild/Initialize/Verify(RIV) engine: Unknown

- Memory Board in Slot 0 is Present and Ok with status AdvancedEcc
Locked state: Unknown Number of memory sockets: 4 HotPlug: NonHotPluggable
In use by OS: 2048Mo Including spare, mirrored or XOR: 2048Mo
- Module1 in Slot 0 is Ok with status Good
Size: 1024Mo Speed: 1ns Type: Dimm Technology: Synchronous
- Module2 in Slot 0 is Unknown with status NotPresent
Size: 0Mo Speed: 1ns Type: Dimm Technology: Synchronous
- Module3 in Slot 0 is Ok with status Good
Size: 1024Mo Speed: 1ns Type: Dimm Technology: Synchronous
- Module4 in Slot 0 is Unknown with status NotPresent
Size: 0Mo Speed: 1ns Type: Dimm Technology: Synchronous

> Physical Memory Free: 1262/2046Mo Paging Memory Free: 1389/1903Mo

> File System 0 is C:\ [System:NTFS]
Used: 6357/49999Mo (12%) Allocated Unit : 1627401/12799780files
> File System 1 is E:\ [Swap:NTFS]
Used: 4147/10001Mo (41%) Allocated Unit : 1061835/2560359files
> File System 2 is F:\ [Sauvegardes:NTFS]
Used: 69/79226Mo (0%) Allocated Unit : 17789/20282062files
> File System 3 is G:\ [Donnees Utilisateurs:NTFS]
Used: 4630/139227Mo (3%) Allocated Unit : 1185372/35642202files

- Automatic Server Recovery (ASR) is Enabled and Ok
Timeout: 10 Reboot: 0/10 LastResetCause: ManualReset NextReboot: BootOs

- All thermal and fan subsystems are Ok
- All temperatures are Ok
- All systems fans are Ok
- All cpus fans are Unknown
Action to perform when the thermal condition is degraded: ShutDown

- Fan 1 for System on Chassis 0 is Present and OK
Speed: Normal Type: SpinDetect HotPlug: NonHotPluggable
RedundancyState: NotRedundant RedundantPartner: Fan 0
- Fan 2 for System on Chassis 0 is Present and OK
Speed: Normal Type: SpinDetect HotPlug: NonHotPluggable
RedundancyState: NotRedundant RedundantPartner: Fan 0

- Temp Sensor 1 from System on Chassis 0 is Ok
Temperature: 26°C Threshold: 46°C Type: Caution
- Temp Sensor 2 from Cpu on Chassis 0 is Ok
Temperature: 30°C Threshold: 100°C Type: Caution
- Temp Sensor 3 from Ambient on Chassis 0 is Ok
Temperature: 21°C Threshold: 39°C Type: Caution

- All power supply subsystems are Failed
- Power Supply on Chassis 0 in Bay 1 is Present and Ok with status NoError
RedundancyState: NotRedundant HotPlug: HotPluggable
- Power Supply on Chassis 0 in Bay 2 is Present and Failed with status GeneralFailure
RedundancyState: NotRedundant HotPlug: HotPluggable
ERROR: General time-out (Alarm signal)ce que l'on peut voir c'est que d'un coté les powersupply sont unkown (manquerait-il 1 outil HP?) et ca passe à la suite jusqu'au "General time-out" mais le plugin récupère suffisament d'infos.
et de l'autre coté 1 powersupply failed et ca ne va pas + loin.

qqu'un a t-il une idée sur l'origine du pb ?

surcouf
20th January 2010, 17:53
Je peux parfaitement faire de requete SNMP sous Windows (avec les OIDs qui vont bien) pour interroger le matériel. L'intêret de ce plugin est d'avoir une seule commande pour remonter l'état de santé du serveur sans avoir à faire des quantités importantes de règles.

Il existe un plugin comparable pour DELL (check_openmanage) et il livre une version compilée du script perl. Il semble qu'il existe quelque chose en effet.

je serais prêt à utiliser le script tel que (sans le compiler) et à installer perl sur les serveurs à monitorer mais je reste bloquer par l'usage du module perl snmp. Sous Linux, on l'installe très facilement. Sous windows, c'est une galère sans nom, sauf si j'ai loupé quelque chose.

Je vais voir comme je fais, mais je pense que je ne suis pas le seul a être interressé par ce mode de fonctionnement.

Ce plugin, check_snmp_cpqHealt, n'a pas à être installé sur les serveurs à surveiller.
Tu dois uniquement y installer les agents SNMP fournis par Dell.

DonKiShoot
21st January 2010, 00:22
bonjour,
tout d'abord félicitation pour ce plugin bien pratique :)

sur certaines machine je rencontre un petit pb, dans les données de performance centreon j'obtiens un
ERROR: General time-out (Alarm signal)j'ai testé en mettant le parametre "-t 60" qui est la valeure max, mais ca ne change rien.

en regardant ce qui se passait avec l'option "-v", je me suis apercu que tous les tests ce terminaient par cette erreur :shock:

voila 2 exples (1 qui marche et l'autre non) :
./check_snmp_cpqHealth.pl -H MonHost1 -C public -e1,8 -t 60 -m 0
NIC1 in Slot0 Port0 is Ok - Embedded NEC98431 is Ok - Event Log is Ok - TempSensor3 from Ambient is Ok - TempSensor2 from Cpu is Ok - TempSensor1 from System is Ok - Fan 2 for System is OK - Fan 1 for System is OK - Automatic Server Recovery is Ok - Memory Board in Slot 0 is Ok - Advanced Memory Protection is Ok - NIC - SM2 - Health - Drive - SysInf | Fan1System=2, Fan2System=2, TempSensor1System=31, TempSensor2Cpu=30, TempSensor3Ambient=25

./check_snmp_cpqHealth.pl -H MonHost1 -C public -e1,8 -t 60 -m 0 -v
Timeout alarm at 15
SNMP v1 login

- Condition of all Compaq MIBs is Ok

- CPQSINFO-MIB::cpqSystemInfo MIB condition is Ok
- CPQIDA-MIB::cpqDriveArray MIB condition is Ok
- CPQHLTH-MIB::cpqHealth MIB condition is Ok
- CPQSM2-MIB::cpqSm2 MIB condition is Ok
- CPQHOST-MIB::cpqHostOs MIB condition is Unknown
- CPQIDE-MIB::cpqIde MIB condition is Unknown
- CPQNIC-MIB::cpqNic MIB condition is Ok

> Model is ProLiant ML310 G5 with serial number xxxxxxxxxx
OS is Microsoft Windows Server 2003 R2, Standard Edition Service Pack 2 5.2
with Service Pack 2, Build 3790 Multiprocessor Free

> Firmware0 DeviceType: SystemRom Location: System Board UpdateMethod: Softwareflash
Name: Compaq System ROM Version: W05 2008.02.26
> Firmware1 DeviceType: RemoteInsightBoard Location: System Board UpdateMethod: Softwareflash
Name: Compaq Remote Insight ROM Version: RI7 1.43

- Advanced Memory Protection (AMP) is Ok
Mode currently configured: AdvancedEcc Current state: AdvancedEcc
HotPlug: NonHotPluggable OperatingSpeed: 800Mhz
State of the Rebuild/Initialize/Verify(RIV) engine: Unknown

- Memory Board in Slot 0 is Present and Ok with status AdvancedEcc
Locked state: Unknown Number of memory sockets: 4 HotPlug: NonHotPluggable
In use by OS: 2048Mo Including spare, mirrored or XOR: 2048Mo
- Module1 in Slot 0 is Ok with status Good
Size: 1024Mo Speed: 1ns Type: Dimm Technology: Synchronous
- Module2 in Slot 0 is Unknown with status NotPresent
Size: 0Mo Speed: 1ns Type: Dimm Technology: Synchronous
- Module3 in Slot 0 is Ok with status Good
Size: 1024Mo Speed: 1ns Type: Dimm Technology: Synchronous
- Module4 in Slot 0 is Unknown with status NotPresent
Size: 0Mo Speed: 1ns Type: Dimm Technology: Synchronous

> Physical Memory Free: 1275/2046Mo Paging Memory Free: 1398/1809Mo

> File System 0 is C:\ [:NTFS]
Used: 5681/30004Mo (18%) Allocated Unit : 11635688/61448592files
> File System 1 is E:\ [SWAP:NTFS]
Used: 4052/10001Mo (40%) Allocated Unit : 1037519/2560359files
> File System 2 is F:\ [Backup:NTFS]
Used: 2282/28655Mo (7%) Allocated Unit : 584200/7335680files
> File System 3 is G:\ [Data:NTFS]
Used: 2712/68660Mo (3%) Allocated Unit : 694425/17577110files

- Automatic Server Recovery (ASR) is Enabled and Ok
Timeout: 10 Reboot: 0/10 LastResetCause: ManualReset NextReboot: BootOs

- All thermal and fan subsystems are Ok
- All temperatures are Ok
- All systems fans are Ok
- All cpus fans are Unknown
Action to perform when the thermal condition is degraded: ShutDown

- Fan 1 for System on Chassis 0 is Present and OK
Speed: Normal Type: SpinDetect HotPlug: NonHotPluggable
RedundancyState: NotRedundant RedundantPartner: Fan 0
- Fan 2 for System on Chassis 0 is Present and OK
Speed: Normal Type: SpinDetect HotPlug: NonHotPluggable
RedundancyState: NotRedundant RedundantPartner: Fan 0

- Temp Sensor 1 from System on Chassis 0 is Ok
Temperature: 31°C Threshold: 46°C Type: Caution
- Temp Sensor 2 from Cpu on Chassis 0 is Ok
Temperature: 30°C Threshold: 100°C Type: Caution
- Temp Sensor 3 from Ambient on Chassis 0 is Ok
Temperature: 25°C Threshold: 39°C Type: Caution

- All power supply subsystems are Unknown

- The Event Log is Supported and Ok

- PciIntegratedLightsOutRemoteInsight2 (V2 Rev 1.43 12/12/2007) is Ok
Battery is NoBattery with Unknown (0% charged) OnlineData for OS (Updated: 00/00/0000 00:00)
Keyboard is Unknown Mouse is Unknown Video is Unknown Alerting is Disabled (NoAlertsPending)
RemoteSession is Inactive ColdReboot is NotAvailable BadLoginThreshold: N/A
SelfTestErrors 0 with mask 1001110000000000000
VirtualPower is NotApplicable ExternalPower is InternallyConnected
ResetSupportBit is available iLO alerts are disabled Host alerts are disabled
@IP: 0.0.0.0 SN: ILOCZ18150026 iLO Security Override Switch is NotSet
ERROR: General time-out (Alarm signal)./check_snmp_cpqHealth.pl -H MonHost2 -C public -e1,8 -t 60 -m 0
ERROR: General time-out (Alarm signal)

./check_snmp_cpqHealth.pl -H MonHost2 -C public -e1,8 -v -t 60 -m 0
Timeout alarm at 15
SNMP v1 login

- Condition of all Compaq MIBs is Failed

- CPQSINFO-MIB::cpqSystemInfo MIB condition is Ok
- CPQIDA-MIB::cpqDriveArray MIB condition is Ok
- CPQHLTH-MIB::cpqHealth MIB condition is Failed
- CPQSM2-MIB::cpqSm2 MIB condition is Ok
- CPQHOST-MIB::cpqHostOs MIB condition is Unknown
- CPQIDE-MIB::cpqIde MIB condition is Unknown
- CPQNIC-MIB::cpqNic MIB condition is Ok

> Model is ProLiant ML310 G5p with serial number xxxxxxxxxx
OS is Microsoft Windows Server 2003 R2, Standard Edition Service Pack 2 5.2
with Service Pack 2, Build 3790 Multiprocessor Free

> Firmware0 DeviceType: SystemRom Location: System Board UpdateMethod: Softwareflash
Name: Compaq System ROM Version: W08 2009.01.22
> Firmware1 DeviceType: RemoteInsightBoard Location: System Board UpdateMethod: Softwareflash
Name: Compaq Remote Insight ROM Version: RI7 1.78

- Advanced Memory Protection (AMP) is Ok
Mode currently configured: AdvancedEcc Current state: AdvancedEcc
HotPlug: NonHotPluggable OperatingSpeed: 800Mhz
State of the Rebuild/Initialize/Verify(RIV) engine: Unknown

- Memory Board in Slot 0 is Present and Ok with status AdvancedEcc
Locked state: Unknown Number of memory sockets: 4 HotPlug: NonHotPluggable
In use by OS: 2048Mo Including spare, mirrored or XOR: 2048Mo
- Module1 in Slot 0 is Ok with status Good
Size: 1024Mo Speed: 1ns Type: Dimm Technology: Synchronous
- Module2 in Slot 0 is Unknown with status NotPresent
Size: 0Mo Speed: 1ns Type: Dimm Technology: Synchronous
- Module3 in Slot 0 is Ok with status Good
Size: 1024Mo Speed: 1ns Type: Dimm Technology: Synchronous
- Module4 in Slot 0 is Unknown with status NotPresent
Size: 0Mo Speed: 1ns Type: Dimm Technology: Synchronous

> Physical Memory Free: 1262/2046Mo Paging Memory Free: 1389/1903Mo

> File System 0 is C:\ [System:NTFS]
Used: 6357/49999Mo (12%) Allocated Unit : 1627401/12799780files
> File System 1 is E:\ [Swap:NTFS]
Used: 4147/10001Mo (41%) Allocated Unit : 1061835/2560359files
> File System 2 is F:\ [Sauvegardes:NTFS]
Used: 69/79226Mo (0%) Allocated Unit : 17789/20282062files
> File System 3 is G:\ [Donnees Utilisateurs:NTFS]
Used: 4630/139227Mo (3%) Allocated Unit : 1185372/35642202files

- Automatic Server Recovery (ASR) is Enabled and Ok
Timeout: 10 Reboot: 0/10 LastResetCause: ManualReset NextReboot: BootOs

- All thermal and fan subsystems are Ok
- All temperatures are Ok
- All systems fans are Ok
- All cpus fans are Unknown
Action to perform when the thermal condition is degraded: ShutDown

- Fan 1 for System on Chassis 0 is Present and OK
Speed: Normal Type: SpinDetect HotPlug: NonHotPluggable
RedundancyState: NotRedundant RedundantPartner: Fan 0
- Fan 2 for System on Chassis 0 is Present and OK
Speed: Normal Type: SpinDetect HotPlug: NonHotPluggable
RedundancyState: NotRedundant RedundantPartner: Fan 0

- Temp Sensor 1 from System on Chassis 0 is Ok
Temperature: 26°C Threshold: 46°C Type: Caution
- Temp Sensor 2 from Cpu on Chassis 0 is Ok
Temperature: 30°C Threshold: 100°C Type: Caution
- Temp Sensor 3 from Ambient on Chassis 0 is Ok
Temperature: 21°C Threshold: 39°C Type: Caution

- All power supply subsystems are Failed
- Power Supply on Chassis 0 in Bay 1 is Present and Ok with status NoError
RedundancyState: NotRedundant HotPlug: HotPluggable
- Power Supply on Chassis 0 in Bay 2 is Present and Failed with status GeneralFailure
RedundancyState: NotRedundant HotPlug: HotPluggable
ERROR: General time-out (Alarm signal)ce que l'on peut voir c'est que d'un coté les powersupply sont unkown (manquerait-il 1 outil HP?) et ca passe à la suite jusqu'au "General time-out" mais le plugin récupère suffisament d'infos.
et de l'autre coté 1 powersupply failed et ca ne va pas + loin.

qqu'un a t-il une idée sur l'origine du pb ?

Je serais tenter de dire que ce sont probablement des machines trop lente (via réseau ou système)
Essais de passer en snmp v2.

ch-pgv
27th January 2010, 14:30
j'ai résolu mon pb en isolant la requete concernant la MIB n°6.
merci pour l'info qui m'a mis sur la bonne piste :)

surcouf
27th January 2010, 18:37
j'ai résolu mon pb en isolant la requete concernant la MIB n°6.
merci pour l'info qui m'a mis sur la bonne piste :)

La MIB n°6 ?

ch-pgv
28th January 2010, 11:32
oui, la MIB n°6 du script de donkishoot.

]# ./check_snmp_cpqHealth.pl --help

SNMP CPQ Health Monitor for Nagios, version 1.0
Author: DonKiShoot - donkishoot at wanadoo dot fr - (c)2006 to my dog Kawet
Help: http://forum.oreon-project.org in topic plugin
Licence: GPL - http://www.fsf.org/licenses/gpl.txt

This plugin will monitor following MIB(s) condition:
Mib n°01: CPQSTDEQ-MIB::cpqStdEquipment
Mib n°02: CPQSINFO-MIB::cpqSystemInfo
Mib n°03: CPQIDA-MIB::cpqDriveArray
Mib n°06: CPQHLTH-MIB::cpqHealth
Mib n°08: CPQSTSYS-MIB::cpqSsStorageSys
Mib n°09: CPQSM2-MIB::cpqSm2
Mib n°11: CPQHOST-MIB::cpqHostOs
Mib n°14: CPQIDE-MIB::cpqIde
Mib n°18: CPQNIC-MIB::cpqNicelle mets énormément de tps à s'exécuter sur mes machines (ou une latence vraiment tres longue avec les sites distants).

j'ai d'ailleur aussi modifié un peu le script de donki comme ceci :
# Nagios specific (comment the two next line and uncomment the two after if you do not use nagios librarie)
use lib "/usr/local/nagios/libexec";
#use utils qw(%ERRORS $TIMEOUT);
my $TIMEOUT=40;
my %ERRORS=('OK'=>0,'WARNING'=>1,'CRITICAL'=>2,'UNKNOWN'=>3,'DEPENDENT'=>4);je sais, un time out de 40s c long... mais sur 2 de mes machines j'arrive encore à le dépasser ! bien que la plupart du tps, la requete s'exécute en ~38s

aletor
1st March 2010, 15:58
Bonjour,

Cette commande a l'air d'être super intéressante, c'est pourquoi j'ai décidé de l'essayer. Mais étant donne que le tutoriel n'est plus disponible.

Je me sens un peu con car lorsque j'exécute la commande je récupère une erreur :

./check_snmp_cpqHealth.pl -H 10.120.2.21 -C public
ERROR in cpqHoMibStatusArray, you should install cpq snmp client on 10.120.2.21
Received noSuchName(2) error-status at error-index 1.

Et pourtant, j'ai bien installé et configurer l'agent SNMP de Windows (Windows 2000 Server), HP System Management Homepage (qui n'est qu'une interface web). J'ai fait l'installation du serveur a partir des disques fournis (HP ProLiant Essentials, Foundation Pack ver. 7.60).

Pour récapituler, je possède un serveur Centreon à jours, avec Nagios à jours sur un serveur ESX et je souhaite monitorer en détail mon serveur Windows 2000 qui est un HP ProLiant DL 360 G4.

Je ne sais pas où récupérer l'agent snmp hp ou compaq sur le disque de logiciels.

Merci d'avance pour le coup de main.

DonKiShoot
1st March 2010, 20:51
Il doit te manquer la partie snmp.
Tu peux peut-être vérifier si la homepage HP est complète.

Sinon les agents snmp doivent se trouver là si je ne me trompe pas :

http://h20000.www2.hp.com/bizsupport/TechSupport/Document.jsp?lang=en&cc=us&objectID=c01611583&jumpid=reg_R1002_USEN

aletor
2nd March 2010, 11:54
Bonjour DonkiShoot,

Merci pour ta réponse, bizarrement, je n'étais pas tombé sur une liste aussi complète hier matin.

J'ai donc pu trouver mon bonheur dessus. Je continu mon bout de chemin et je te fais part de mon feedback si ça peut t'être utile. Bien qu'apparemment ton script a fait son bonhomme de chemin et est très utilisé.

Take care,

Aletor.

EDIT : Super, tout fonctionne a merveille depuis ton coup de main DonKiShoot, et le script correspond parfaitement a mes attentes.

Merci a toi et bonne continuation.