| Qu'est-ce que la supervision? |
En temps normal, un serveur d'hébergement tourne comme une mécanique bien rodée, et aucune intervention n'est nécessaire. Cependant, il existe un bon nombre de facteurs pouvant perturber cette situation idéale :
- les services produisent des données (base mysql, logs, fichier temporaire ...), qui finissent par s'accumuler et prendre de l'espace disque ; lorsque vos disques sont pleins, les services peuvent s'arrêter ;
- un élément matériel peut tomber en panne ;
- votre serveur peut être la cible d'une attaque de "pirates", ou d'un virus se propageant par Internet (un "ver", ou worm) ...
- votre serveur peut manquer de ressources (processeur, mémoire) suite a une augmentation de son activité (consultation importante d'un site suite a une annonce publicitaire, par exemple)
Il faut bien sûr se protéger de ces incidents dans la mesure du possible. C'est le rôle d'un administrateur système : réaliser l'installation la plus pérenne possible pour vos applicatifs, et la maintenir (voir à ce sujet nos offres d'infogérance ).
Mais un problème imprévu doit être détecté le plus rapidement possible, afin de déclencher une intervention immédiate pour rétablir vos services : c'est le rôle de la supervision (ou monitoring).
|
| L'offre de supervision Enix |
Une supervision cohérente se réalise en plusieurs temps :
Surveillance des paramètres vitaux du serveur (espace disque, occupation mémoire, charge processeur, temps de réponse réseau...). Ceci permet de contrôler l'utilisation des différentes ressources dont vous disposez, d'anticiper certains problèmes, mais surtout, en cas d'incident sporadique, d'aider l'administrateur à en détecter la source.
Vérification du bon fonctionnement des services, par un protocole clairement défini. Par exemple, vérifier que telle page du site Web est bien accessible ; ou encore que tel formulaire renvoie bien le résultat attendu ; ou encore, vérifier que l'e-mail fonctionne correctement, en envoyant un message de test puis en le relevant - le tout de manière automatisée.
Remontée d'alerte. Si la surveillance indique qu'un paramètre a atteint une valeur critique, ou si la vérification d'une opération s'est effectuée incorrectement, il faut prévenir un technicien. Selon la disponibilité dont vous avez besoin, l'alerte peut être donnée par l'envoi d'un e-mail à un ensemble de personnes prédéfinies, ou par pager ou SMS par exemple.
Résolution de l'incident. Dès qu'il prend connaissance du problème, le technicien intervient, faisant escalader l'alerte si nécessaire (défaillance matérielle, perte de données...). |
|