Il est relativement facile pour un administrateur système d'oublier de se préparer à un éventuel un sinistre — ce n'est en effet pas une tâche plaisante et il semble toujours y avoir quelque chose de plus urgent à faire. Néanmoins, la négligence en matière de préparation à un sinistre est une des pires choses qu'un administrateur système puisse faire.
Bien que les terribles sinistres soient souvent ceux qui viennent à l'esprit en premier (tels que les incendies, les inondations ou les orages), les problèmes les plus banals (tels que la coupure accidentelle de câbles par des ouvriers du bâtiment ou même le débordement d'un évier) peuvent s'avérer tout aussi perturbateurs. Dans de telles circonstances, la définition du concept de sinistre qu'un administrateur système doit garder à l'esprit est la suivante : tout événement imprévu pouvant perturber le fonctionnement normal de l'entreprise.
Alors qu'il est absolument impossible de dresser la liste de tous les différents types de sinistres pouvant se produire, cette section examine les facteurs principaux faisant partie de chaque type de sinistre afin que toute confrontation possible à un sinistre puisse être analysée, non pas en termes de probabilité de la situation, mais en termes des facteurs réels qui pourraient entraîner un sinistre.
En général, quatre facteurs différents pouvent engendrer un sinistre, à savoir :
des pannes matérielles
des pannes logicielles
des pannes environnementales
des erreurs d'origine humaine
Les pannes matérielles elles-mêmes sont faciles à comprendre — le matériel tombe en panne et arrête toute activité. Les aspects les plus difficiles à comprendre sont la nature des pannes et la manière de minimiser votre contact avec ces pannes. Ci-après figurent certaines des approches que vous pouvez utiliser pour limiter l'impact d'un éventuel sinistre.
Dans le cas le plus simple, une exposition due à des problèmes matérielles peut être réduite en gardant du matériel de rechange. Évidemment, cette approche suppose deux choses :
D'une part, qu'une personne sur place dispose des compétences nécessaires pour diagnostiquer le problème, identifier le matériel défaillant et le remplacer.
D'autre part, que du matériel de rechange soit disponible pour le matériel défaillant.
Ces aspects sont abordés de manière plus détaillée dans les sections suivantes.
Selon votre expérience passée et le matériel utilisé, le fait de disposer des connaissances nécessaires ne sera peut-être pas un problème. Toutefois, si vous n'avez pas travaillé avec du matériel dans le passé, vous souhaiterez peut-être consulter des institutions d'enseignement de votre communauté locale pour explorer l'éventail des cours d'introduction consacrés à la réparation de PC. Bien qu'un tel cours ne soit pas en soi et par lui-même suffisant pour vous préparer à affronter des problèmes avec des serveurs de niveau entreprise, il représente néanmoins une excellente manière d'acquérir des connaissances de base en la matière (telles que la bonne manipulation des outils et composants, procédures élémentaires de diagnostic, etc.).
![]() | Astuce |
|---|---|
Avant d'adopter une approche consistant à effectuer d'abord les réparations vous-même, assurez-vous que le matériel en question :
Si vous tentez d'effectuer des réparations sur du matériel couvert par une garantie et/ou un contrat d'assistance, vous serez probablement en infraction avec les conditions de ces accords et risquerez par là-même de compromettre la couverture continue de votre matériel. |
Toutefois, même en disposant d'un minimum de compétences, il sera peut-être possible de bien diagnostiquer et remplacer le matériel défaillant — à condition que vous choisissiez correctement votre stock de rechange
Cette question illustre la nature à facettes multiples de toute tâche en relation avec la récupération après un sinistre. Lorsque vous considérez le matériel à stocker, gardez à l'esprit les éléments suivants :
La durée maximum du temps d'indisponibilité possible
Les compétences nécessaires pour effectuer la réparation
Le budget disponible pour des pièces de rechange
L'espace nécessaire pour le stockage des pièces de rechange
Tout autre matériel qui pourrait utiliser les mêmes pièces de rechange
Chacun de ces aspects a une influence sur les différents types de pièces de rechange qui devraient être stockés. Par exemple, le stockage de systèmes complets pourrait minimiser le temps d'indisponibilité et leur installation ne nécessite que des compétences minimales, mais une telle stratégie serait beaucoup plus coûteuse que le stockage d'un module CPU et RAM de rechange sur une étagère. Cette dépense est néanmoins peut-être justifiable si votre entreprise dispose de plusieurs dizaines de serveurs identiques qui pourraient profiter d'un seul système de rechange.
Indépendamment de la décision finale, la question suivante, abordée ci-après, est inévitable.
Cette question des niveaux de stock pour le matériel de rechange a également de multiples facettes. Toutefois, les principaux aspects sont les suivants :
La durée maximum du temps d'indisponibilité possible
L'estimation du taux de panne
L'estimation de la durée nécessaire au réapprovisionnement du stock
Le budget disponible pour des pièces de rechange
L'espace nécessaire pour le stockage des pièces de rechange
Tout autre matériel qui pourrait utiliser les mêmes pièces de rechange
Dans le cas extrême où un système peut être indisponible pour un maximum de deux jours et où une pièce de rechange ne serait probablement utilisée qu'une fois par an avec la possibilité de réapprovisionner le stock en un jour, il semblerait raisonnable de ne disposer que d'une pièce de rechange (voire aucune, dans le cas où vous auriez la certitude de pouvoir obtenir une pièce de rechange en 24 heures).
Dans le cas extrême inverse, si un système ne peut pas se permettre d'être indisponible pendant plus de quelques minutes et si une pièce de rechange sera peut-être utilisée une fois par mois (et qu'une nouvelle acquisition pourrait prendre plusieurs semaines), il serait judicieux de conserver sur les étagères une demi-douzaine de pièces de rechange (voire plus).
Dans quel cas une pièce de rechange n'est pas vraiment une pièce de rechange ? Dans le cas de matériel qui est utilisé tous les jours mais sert également de pièce de rechange pour un système ayant une priorité supérieure, le cas échéant. Cette approche présente un certain nombre d'avantages, à savoir :
Un budget moindre est alloué à des pièces de rechange "non-productives"
Le matériel est considéré comme opérationnel
Il existe néanmoins certains inconvénient associés à cette approche, à savoir :
Le déroulement normal de la tâche ayant la priorité la plus basse est interrompu
Un risque de sinistre existe en cas de panne du matériel ayant la propriété la plus basse (et dans ce cas, le matériel doté de la propriété la plus haute est dépourvu de pièce de rechange)
Dans de telles conditions, il se peut que l'utilisation d'un autre système de production comme rechange soit possible, mais le succès de cette approche dépend d'une part de la charge de travail spécifique du système et d'autre part, de l'impact que l'absence du système a sur les opérations générales du centre de données.
Grâce aux contracts d'assistance, le problème des pannes matérielles est du ressort d'une autre personne. La seule chose à faire dans ce cas est de confirmer qu'une panne s'est bien produite et qu'elle ne semble pas être d'origine logicielle. Il vous suffit alors de passer un coup de fil et quelqu'un se rendra sur place pour résoudre le problème.
Cette situation semble tellement simple. Mais comme c'est le cas avec la plupart des choses dans la vie, ce n'est qu'un aspect de la situation. Ci-après figurent certaines des choses que vous devez prendre en considération lors de l'examen d'un contrat d'assistance :
Heures de couverture
Temps de réponse
Disponibilité des pièces
Budget disponible
Matériel à couvrir
Chacun de ces points sera examiné de manière plus détaillée dans les sections suivantes.
Il existe différents contrats d'assistance répondant à différents besoins ; en la matière, les heures de couverture constituent un point essentiel sur lequel les différents contrats varient. À moins que vous ne soyez prêt à payer un supplément pour le privilège, vous ne pouvez pas prendre le téléphone à tout moment et espérer voir le technicien arriver dans votre entreprise aussitôt après.
En fait, selon votre contrat, vous ne pourrez peut-être même pas téléphoner à la société d'assistance avant un jour ou une heure spécifiques, ou si vous pouvez appeler la société, vous ne recevrez pas la visite du technicien avant le jour ou l'heure figurant dans votre contrat.
Dans la plupart des contrats, les heures de couverture sont définies en termes d'heures et de jours pendant lesquels un technicien peut être envoyé sur place. Les heures de couverture les plus courantes sont les suivantes :
Du lundi au vendredi, de 09:00 à 17:00
Du lundi au vendredi, tous les jours pendant 12/18/24 heures (avec une heure de commencement et de fin de couverture établie d'un commun accord)
Du lundi au samedi (ou du lundi au dimanche), mêmes heures que ci-dessus
Comme vous vous en doutez, le coût d'un contrat augmente en fonction des heures de couverture. D'une manière générale, l'allongement des heures de couverture du lundi au vendredi coûte moins cher que l'inclusion du samedi et dimanche.
À ce niveau cependant, il est possible de réduire les coûts si vous êtes prêt à effectuer certaines tâches.
Si dans votre situation vous ne nécessitez que la disponibilité d'un technicien pendant les heures de bureau normales et que vous avez suffisamment d'expérience pour pouvoir déterminer ce qui ne fonctionne pas, vous voudrez peut-être considérer l'assistance en atelier. Ce type d'assistance est connu sous de nombreux noms y compris assistance walk-in (assistance fournie lorsque la personne se déplace) et assistance drop-off (assistance fournie lorsque l'élément posant problème est amené à l'atelier) et le fabricant dispose peut-être d'ateliers d'assistance où les techniciens travaillent sur du matériel apporté par les clients.
L'assistance en atelier a l'avantage d'être aussi rapide que le temps qu'il vous faut pour vous rendre à l'atelier. Vous n'avez pas à attendre qu'un technicien soit disponible et se présente dans votre entreprise. Étant donné que les techniciens de l'atelier n'interviennent pas en dehors de l'atelier en réponse à l'appel d'un client, l'un d'eux sera toujours disponible pour travailler sur votre matériel et ce, dès que vous pourrez le déposer à l'atelier.
Étant donné que l'assistance en atelier est fournie en un seul endroit, il y a de grandes chances pour que toute pièce dont vous auriez besoin y soit disponible. Ainsi, il ne sera pas nécessaire d'envoyer cette pièce du jour au lendemain dans un autre atelier ou d'attendre que la pièce en question soit acheminée depuis un autre atelier qui l'a justement en stock et qui se trouve à plusieurs centaines de kilomètres de votre entreprise.
Ceci étant, il existe un certain nombre de contraintes. La plus évidente est que vous ne pouvez pas choisir les heures d'assistance — vous pouvez obtenir une assistance lorsque l'atelier est ouvert. De plus, les techniciens ne travaillant pas au-delà de leurs heures normales, si votre système tombe en panne à 16.30 heures un vendredi et que vous arrivez à l'apporter à l'atelier juste avant 17.00 heures, les techniciens ne s'en occuperont pas avant de reprendre le travail le lundi suivant.
Une autre contrainte est que l'assistance en atelier dépend de l'existence d'un atelier à proximité. Si votre entreprise se trouve dans une zone métropolitaine, ce ne sera probablement pas un problème, En revanche, pour des entreprises se trouvant dans des zones plus rurales, l'atelier se trouvera peut-être à des centaines de kilomètres.
![]() | Astuce |
|---|---|
Si vous envisagez d'utiliser une assistance en atelier, considérez bien la chose et prenez en considération les éléments logistiques associés à l'acheminement du matériel vers l'atelier. Utiliserez-vous une voiture de la société ou votre voiture personnelle ? Dans le cas où vous utiliseriez votre voiture, cette dernière est-elle suffisamment grande et peut-elle supporter le poids du système ? Quelles sont les implications au niveau de l'assurance ? Faudra-t-il plusieurs personnes pour charger et décharger le matériel ? Bien que ces préoccupations soient quelque peu banales, elles devraient être considérées avant de prendre la décision de recourir à une assistance en atelier. |
Outre les heures de couverture, de nombreux accords d'assistance stipulent un certain niveau de réponse. En d'autres termes, combien de temps s'écoulera-t-il entre le moment où vous téléphonez et l'arrivée du technicien ? Comme vous pouvez facilement vous en douter, plus le temps de réponse est court, plus l'accord d'assistance est cher.
Il y a des limites aux temps de réponse disponibles. Par exemple, le temps de transport pour aller des bureaux du fabricant à votre entreprise influence énormément l'éventail de temps de réponse possibles[1]. Des temps de réponse se situant dans une fourchette de zéro à quatre heures sont généralement perçus comme faisant partie des offres les plus rapides. Des temps de réponse plus longs peuvent s'échelonner entre huit heures (qui en fait devient une assistance "le jour suivant" dans le cas d'un accord basé sur des heures de bureau normales) et 24 heures. Comme pour tous les autres aspects d'un accord d'assistance, même ces temps de réponse sont négociables — moyennant paiement cela va de soi.
![]() | Remarque |
|---|---|
Bien qu'il ne s'agisse pas d'une situation fréquente, il est important de savoir que des accords d'assistance incluant des closes relatives au temps de réponse peuvent parfois engager la société d'assistance au-delà de sa capacité à répondre. Il n'est pas rare qu'une société d'assistance très demandée envoie quelqu'un — n'importe qui — lors d'un appel soumis à un temps de réponse court, rien que pour honorer son engagement quant au temps de réponse. Cette personne disgnostique apparemment le problème en téléphonant soi-disant "au bureau" afin que quelqu'un apporte la "pièce nécessaire." En fait, la personne attend simplement qu'une personne vraiment capable de résoudre le problème arrive sur place. Alors qu'il est tout à fait compréhensible que cette situation se produise dans des circonstances extraordinaires (telles que lors de problèmes d'alimentation qui ont endommagés les systèmes dans tout le service d'assistance de la société), si cette situation correspond au service que vous recevez systématiquement, vous devriez contacter le directeur de l'assistance et exiger des explications. |
Si vos temps de réponse sont peu flexibles (et que vous disposez en conséquence d'un gros budget), une certaine approche peut vous permettre de réduire considérablement votre temps de réponse— en fait, à zéro.
En supposant que vous vous trouviez dans la situation appropriée (vous êtes un des plus grands clients de la région), que vos besoins soient très exigeants (un temps d'indisponibilité de tout ordre étant inacceptable) et que vos ressources financières soient adéquates (s'il est nécessaire de demander le prix, vous ne pouvez probablement pas vous le permettre), il se peut que la disponibilité d'un technicien sur place à plein temps soit une option. Les avantages de la présence d'un technicien toujours sur place sont évidents :
Réponse immédiate à tout problème
Approche plus proactive en matière de maintenance de système
Comme vous pouvez vous en douter, cette option peut être très coûteuse, particulièrement si vous avez besoin d'un technicien sur place 24 heures sur 24, 7 jours sur 7. Mais si cette approche est adéquate pour votre entreprise, vous devriez garder à l'esprit un certain nombre de points importants afin de maximiser les avantages.
Tout d'abord, des techniciens faisant partie de l'entreprise ont besoin d'une grande partie des ressources qu'un employé normal utilise, tel que de l'espace de travail, un téléphone, des cartes d'accès appropriées et/ou des clés etc.
Des techniciens travaillant dans l'entreprise ne sont pas très utiles s'ils ne disposent pas des pièces requises. Il est donc important de bien réserver un lieu de stockage sûr où entreposer les pièces de rechange des techniciens. De plus, assurez-vous que votre technicien dispose bien d'un stock de pièces appropriées à votre configuration et que ces pièces ne sont pas systématiquement "pillées" par d'autres techniciens subvenant aux besoins de leurs propres clients.
Il va de soi que la disponibilité des pièces joue un rôle important dans l'exposition de votre entreprise à des pannes de matériel. Dans le cadre d'un accord d'assistance, la disponibilité des pièces prend une autre dimension dans la mesure où elle ne s'applique pas seulement à votre entreprise mais également à tout autre client faisant partie de la région du fabricant ayant aussi besoin de ces mêmes pièces. Il se peut qu'une autre entreprise ayant acheté plus de matériel que la votre se voie accorder un traitement préférentiel quant il s'agit d'obtenir des pièces (et même des techniciens).
Malheureusement, dans de telles circonstances, il n'y a pas grand chose à faire, mis à part résoudre le problème avec le directeur de l'assistance.
Comme nous l'avons souligné précédemment, les contrats d'assistance varient au niveau des prix en fonction de la nature du service fourni. Rappelez-vous que les coûts associés à un contrat d'assistance représentent des dépenses récurrentes ; ainsi, chaque fois que le contrat arrive à échéance, vous devez en renégocier un autre et payer à nouveau.
C'est à ce niveau que vous pourrez peut-être réussir à réduire les dépenses au minimum. Imaginez un instant que vous ayez négocié un accord d'assistance offrant la présence d'un technicien sur place 24 heures sur 24, 7 jours sur 7 et le stockage de pièces de rechange sur place — bref, une assistance haut de gamme. Toute pièce de matériel achetée auprès de ce revendeur est couverte, y compris le PC que la sécrétaire de l'entreprise utilise pour effectuer des tâches dont l'importance n'est pas critique.
Pour ce PC, est-il vraiment nécessaire d'avoir un technicien sur place 24 heures sur 24, 7 jours sur 7 ? Même dans le cas où ce PC serait d'une importance absolument vital pour le travail de la réceptionniste, elle ne travaille que de 09:00 heures à 17:00 heures ; il est donc très peu probable que :
Le PC sera utilisé entre 17:00 heures et 09:00 heures le lendemain matin (sans parler des week-ends)
Une panne de ce PC fera une différence quelconque, sauf entre 09:00 heures et 17:00 heures
Dans de telles circonstances, dépenser de l'argent en pensant à l'éventualité que ce PC puisse nécessiter une assistance au milieu de la nuit un samedi soir est en fait un véritable gaspillage d'argent.
La meilleure solution dans ce cas consiste à séparer l'accord d'assistance de manière à ce que le matériel qui n'a pas une importance critique soit regroupé séparément du matériel à fonction vitale. De cette manière, les coûts peuvent être réduits au minimum.
![]() | Remarque |
|---|---|
Si vous avez vingt serveurs configurés de manière identique remplissant une fonction critique pour votre entreprise, vous serez peut-être tenté d'établir un accord offrant une assistance élevée seulement pour un ou deux serveurs, alors que les autres seront couverts par un accord beaucoup moins cher. L'idée étant ensuite de dire que le serveur défaillant pendant un week-end, quel qu'il soit, est en fait le serveur couvert par le contrat d'assistance élevée. N'adoptez surtout pas cette approche. Elle est d'une part malhonnête et d'autre part, la plupart des fabricants utilisent les numéros de série pour identifier les éléments couverts par le contrat. Même si vous arrivez à contourner ces éléments de vérification, une fois votre malhonnêteté découverte, cette approche finira par coûter beaucoup plus cher que si vous aviez été honnête dès le départ et aviez payé le montant requis pour le type d'assistance dont vous avez besoin. |
Les pannes logicielles peuvent entraîner des temps d'indisponibilité plus longs. Par exemple, les propriétaires de systèmes informatiques d'une certaine marque, pourtant bien connue pour ses caractéristiques en matière de haute disponibilité, ont fait l'expérience d'une telle situation. En effet, un bogue dans le code de traitement du temps du système d'exploitation de l'ordinateur a entraîné un plantage des systèmes des clients à une certaine heure, un certain jour. Alors que cette situation précise corresponde plus à un exemple concret de l'impact considérable d'une panne logicielle, d'autres pannes d'origine logicielle peuvent avoir des conséquences certes moins dramatiques, mais néanmoins dévastatrices.
Les pannes logicielles peuvent se produire à l'un des deux niveaux suivants :
Système d'exploitation
Applications
Chacun des deux types de pannes entraîne des conséquences spécifiques qui sont abordées en détails dans les sections suivantes.
Dans ce type de panne, le système d'exploitation est à l'origine de l'interruption du service. Des pannes de système d'exploitation ont deux origines :
Plantage du système (ou crash)
Suspension du système (ou hang)
Le point essentiel à garder à l'esprit est que les pannes du système d'exploitation interrompent toutes les tâches que l'ordinateur effectuait au moment de la panne. Les pannes peuvent donc avoir des conséquences dévastatrices pour la production.
Les plantages (ou crashes) se produisent lorsque le système d'exploitation doit faire face à un nombre d'erreurs tellement important qu'il ne peut faire face à la situation. Les causes des plantages peuvent aller d'une incapacité à résoudre les problèmes matériels sous-jacents, à un bogue dans le code au niveau du noyau qui compromet le système d'exploitation. Lors du plantage d'un système d'exploitation, il est nécessaire de le redémarrer afin de pouvoir poursuivre la production.
Lorsque le système d'exploitation s'arrête de traiter les événements du système, le système est mis à l'arrêt. Cette situation est connue sous le terme de hang ou système suspendu. Ces situations peuvent se produire par des interblocages de type deadlocks (deux consommateurs de ressources essayant d'utiliser la ressource de l'autre) et livelocks (deux ou plusieurs processus répondant à leurs activités mutuelles, mais n'effectuant en fait aucun travail utile) produisant le même résultat final — un manque total de productivité.
Contrairement aux pannes du système d'exploitation, les défaillances d'applications peuvent avoir des conséquences plus limitées au niveau des dégâts causés. Selon la nature spécifique de l'application, sa défaillance n'affectera peut-être qu'une personne. En revanche, s'il s'agit d'une application serveur répondant aux besoins d'un vaste groupe d'applications clientes, les conséquences d'une panne seront beaucoup plus étendues.
Les pannes d'applications, comme les défaillances de systèmes d'exploitation, peuvent être causées par des plantages (ou crashes) ou des suspensions d'activité (hangs), la seule différence résidant dans le fait que cette fois-ci, c'est l'application et pas le système qui plante ou suspend son activité.
De la même manière que les revendeurs de matériel offrent une assistance pour leurs produits, de nombreux revendeurs de logiciels mettent à la disposition de leurs clients des paquetages d'assistance. Hormis les différences évidentes (aucun matériel de rechange n'est requis et la plupart du travail nécessaire peut être effectué par téléphone par du personnel d'assistance) les contrats d'assistance logicielle peuvent être assez semblables à ceux d'assistance matérielle.
Tous les niveaux d'assistance fournis par un vendeur de logiciels ne sont pas identiques. Ci-après figurent certaines des stratégies d'assistance les plus couramment utilisées de nos jours :
Documentation
Auto-assistance
Assistance Web ou email
Assistance téléphonique
Assistance sur place
Chacun de ces types d'assistance est décrit de manière plus détaillée dans les sections suivantes.
Bien qu'étant un aspect souvent négligé, la documentation des logiciels peut servir d'outil d'assistance de premier niveau. Qu'elle soit disponible en ligne ou sous une forme écrite, cette documentation contient souvent les informations nécessaires à la résolution de nombreux problèmes.
L'auto-assistance suppose que le client utilise les ressources disponibles en ligne, afin de résoudre leurs propres problèmes d'origine logicielle. Très souvent ces ressources existent sous la forme de FAQ (Forum Aux Questions) ou de bases de connaissances utilisant le Web.
Les FAQ n'ont souvent que peu ou pas de fonctionnalités de recherche, demandant ainsi au client de parcourir toutes les questions, une à une, dans l'espoir de trouver celle qui répond au problème à résoudre. Les bases de connaissances ont tendance à être plus sophistiquées et permettent de faire des recherches en fonction d'un terme particulier. Ces dernières pouvant également couvrir des domaines plus vastes, elles constituent d'excellent outils pour résoudre des problèmes.
Bien souvent, un site Web qui ressemble à un site d'auto-assistance inclut également des formulaires basés sur le Web ou des adresses email auxquelles envoyer des questions à l'intentions du personnel d'assistance. Au premier abord, ce type de site constitue un véritable progrès par rapport à un simple site Web d'auto-assistance, mais en réalité, tout dépend des personnes répondant aux emails.
Si le personnel d'assistance est surchargé, il est difficile d'obtenir de leur part les informations nécessaires pour résoudre le problème car leur première préoccupation est de répondre rapidement à chaque email afin de pouvoir passer au suivant. Cette situation existe car presque tout personnel d'assistance est évalué en fonction du nombre de problèmes qu'il résout. L'escalade des problèmes à du personnel plus qualifié est également une opération très difficile car il n'est pas facile de forcer des réponses plus opportunes et utiles par le biais d'un email — particulièrement lorsque la principale préoccupation de la personne lisant votre email et d'y répondre aussi rapidement que possible afin de pouvoir traiter l'email suivant.
Le moyen d'obtenir la meilleure assistance possible consiste à aborder dans votre email, tous les aspects du problème dont un technicien d'assistance aurait besoin, tels que :
Description claire et précise de la nature du problème
Références à tous les numéros de versions pertinents
Description de ce que vous avez déjà fait afin d'essayer de résoudre le problème (application des derniers correctifs, redémarrage avec une configuration minimale, etc.).
En fournissant au technicien d'assistance davantage d'informations, vous avez une meilleure chance d'obtenir l'assistance dont vous avez besoin.
Comme son nom l'indique, l'assistance téléphonique est offerte en téléphonant à un technicien d'assistance. Ce type d'assistance est très semblable à l'assistance matérielle dans le sens où différents niveaux d'assistance peuvent être disponibles (avec différentes heures de couverture, différents temps de réponse, etc.).
Aussi connue sous le terme de service conseils sur place, l'assistance logicielle sur place est normalement réservée à la résolution de problèmes spécifiques ou à l'apport de modifications critiques telles que l'installation et la configuration initiales de logiciels, des mises à niveau essentielles etc. Comme on pourrait s'y attendre, ce type d'assistance est l'option la plus coûteuse en matière d'assistance logicielle disponible .
Toutefois, il existe un certain nombre de situations dans lesquelles une assistance sur place est l'option adéquate. À titre d'exemple, imaginez une petite entreprise employant un seul administrateur système. Cette dernière est sur le point de déployer son premier serveur de bases de données, mais cette opération (et l'entreprise) n'est pas d'une envergure suffisante pour justifier l'emploi d'un administrateur de base de données attitré. Dans une telle situation, il est souvent meilleur marché de faire venir un spécialiste travaillant pour le vendeur de bases de données afin qu'il effectue le déploiement initial (et de temps à autre dans le futur, selon les besoins), plutôt que de former l'administrateur système pour une compétence qu'il n'utilisera que rarement.
Bien que le matériel tourne parfaitement, et malgré une configuration logicielle adéquate et un fonctionnement normal, des problèmes peuvent toujours survenir. Les problèmes les plus courants qui se produisent en dehors du système lui-même ont un lien avec l'environnement physique dans lequel le système se trouve.
Les problèmes environnementaux peuvent être regroupés dans les quatre catégories principales suivantes :
Intégrité du bâtiment
Électricité
Climatisation
Climat et environnement extérieur
Pour une structure si simple en apparence, un bâtiment remplit de nombreuses fonctions. Il fournit un abri contre les éléments extérieurs (conditions climatiques). Il fournit le microclimat approprié pour le contenu qu'il renferme. Il héberge des mécanismes fournissant de l'électricité et protégeant contre les incendies, le vol et le vendalisme. Le bâtiment remplissant toutes ces fonctions, il n'est pas étonnant que de nombreux problèmes puissent survenir. Ci-dessous figurent certaines situations possibles qu'il convient de prendre en considération :
Des fuites peuvent se produire dans le toit, laissant entrer de l'eau dans les centres de données.
Dans le bâtiment, différents systèmes (tels que les l'alimentation en eau, l'épuration ou la ventilation) peuvent tomber en panne, rendant les lieux inhabitables.
Les planchers n'ont peut-être pas une capacité porteuse suffisante pour supporter l'équipement que vous voulez mettre dans le centre de données.
Il est important d'être imaginatif lors de l'élaboration des différents scénarios selon lesquels le bâtiment pourrait être la cause de problèmes. La liste précédente n'a pour intention que de lancer la réflexion sur les bases appropriées.
Étant donné que l'électricité représente l'élément vital de tout système informatique, les problèmes liés à l'électricité ont une importance essentielle dans l'esprit des administrateurs système, où qu'ils soient. Les problèmes liés à l'électricité prennent bien des aspects différents ; ces derniers sont couverts de manière plus détaillée dans les sections suivantes.
Il est tout d'abord nécessaire de déterminer le niveau de sécurité de votre alimentation électrique normale. Comme tout autre centre de données, votre électricité est probablement fournie par une société d'alimentation électrique locale au moyen de câbles électriques. Pour cette raison, il existe certaines limitations quant aux mesures que vous pouvez prendre pour assurer que votre source d'alimentation électrique primaire soit aussi sûre que possible.
![]() | Astuce |
|---|---|
Les entreprises se trouvant à la limite de la région désservie par une société d'alimentation électrique seront peut-être en mesure de négocier des connexions à deux réseaux différents.
Les coûts associés à l'installation de câbles électriques depuis le réseau voisin étant relativement élevés, cette option n'est vraiment possible que pour les grandes entreprises. Toutefois, ces entreprises estiment qu'à bien des égards, la redondance ainsi obtenue est bien supérieure aux coûts de l'installation. |
Les éléments essentiels à vérifier sont les méthodes selon lesquelles l'électricité est acheminée sur la propriété de votre entreprise et ensuite dans le bâtiment. Les câbles électriques sont-ils souterrains ou non ? Les lignes non souterraines sont susceptibles d'être endommagées de différentes manières :
par des conditions climatiques extrêmes (glace, vent, éclaires)
par des accidents de la circulation qui peuvent causés des dégâts aux poteaux et/ou transformateurs
par des animaux errant là où ils ne devraient pas ou raccourcissant les lignes
Ceci étant, les câbles électriques souterrains ont eux aussi des inconvénients qui leur sont propres :
Endommagement par des ouvriers du bâtiment creusant au mauvais endroit
Inondations
Éclaires (bien que de manière plus rare que dans le cas des lignes électriques montées sur des poteaux)
Essayez de repérer les lignes électriques jusque dans votre bâtiment. Est-ce qu'elles vont d'abord dans un transformateur externe ? Existe-t-il une protection contre des accidents causés par une voiture reculant dans le transformateur ou par un arbre tombant sur ce dernier ? Tous les interrupteurs de contrôle sont-ils protégés contre une utilisation non autorisée ?
Une fois ces lignes à l'intérieur de votre bâtiment, pourraient-elles (ou les panneaux auxquels elles sont branchées) être la cause d'autres problèmes ? Par exemple, un problème de plomberie pourrait-il inonder la chambre d'alimentation électrique ?
Continuez à suivre les lignes d'alimentation électrique jusqu'à l'intérieur du centre de données ; existe-t-il d'autres facteurs susceptibles d'interrompre votre alimentation en électricité ? Par exemple, le centre de données partage-t-il un ou plusieurs circuits avec des charges associées à des centres ne fournissant pas de données ? Si tel est le cas, il est fort possible qu'un jour, la charge externe déclenche le mécanisme de protection contre les surtensions électriques faisant partie du circuit et entraîne par là-même une interruption de l'activité du centre de données.
Il n'est pas suffisant de s'assurer que la source d'alimentation électrique du centre de données est aussi sûre que possible. Il est également nécessaire d'examiner la qualité de l'électricité distribuée au sein du centre de données. À cet égard, un certain nombre de facteurs doivent être pris en considération, y compris :
La tension du courant arrivant doit être stable, sans aucune baisse (souvent appelées chutes) ou augmentation (souvent appelées pointes de courant) de tension.
La forme de l'onde doit avoir l'aspect d'une onde sinusoïdale pure, avec une distortion harmonique totale (ou THD de l'anglaisTotal Harmonic Distortion) minimale.
La fréquence doit être stable (la plupart des pays utilisent une fréquence électrique de 50Hz ou 60Hz).
Le courant ne doit contenir aucune interférence radio (aussi appelée RFI, de l'anglais Radio Frequency Interference) et aucune interférence électromagnétique (ou EMI, de l'anglais Electro-Magnetic Interference).
L'électricité doit être fournie à une charge électrique suffisante pour faire fonctionner le centre de données.
L'électricité fournie directement par la société d'alimentation électrique ne satisfait généralement pas les normes nécessaires pour un centre de données. Un certain niveau de traitement de l'électricité est par conséquent généralement nécessaire. À cet égard, les différentes approches figurant ci-dessous peuvent être employées :
Les protecteurs de surtension — comme le nom l'indique, ils filtrent les pointes de tension dans l'alimentation électrique. La plupart d'entre eux n'ont aucune autre fonction et ne diminuent donc en aucun cas la vulnérabilité du matériel par rapport à tout autre problème d'origine électrique.
Les conditionneurs électriques eux ont une fonction plus étendue ; selon le degré de sophistication du dispositif, les conditionneurs électriques répondent à la plupart des types de problèmes soulignés ci-dessus.
Un groupe électrogène est essentiellement un gros moteur électrique alimenté par une source électrique normale. Le moteur est relié à un gros volant qui est lui relié à un générateur. Le moteur fait tourner le volant et le générateur, qui produit alors une quantité d'électricité suffisante pour faire fonctionner le centre de données. De cette manière, l'électricité du centre de données est, d'un point de vue électrique, séparée de l'électricité venant de l'extérieur, éliminant ainsi tout problème d'origine électrique. Le volant offre également la possibilité de maintenir l'alimentation lors de courtes pannes de courant étant donné qu'il faut quelque seconde avant que le volant ne ralentisse au point de ne plus pouvoir produire d'électricité.
Certains types d'UPS (de l'anglais Uninterruptible Power Supplies) incluent la plupart (sinon toutes) des fonctionnalités de protection d'un conditionneur électrique [2].
Avec les deux types de technologies mentionnés ci-dessus, nous avons commencé à aborder le sujet traversant l'esprit de la plupart des personnes lorsqu'elles pensent à l'alimentation électrique — alimentation électrique de secours. La section suivante examinera différentes approches utilisées pour fournir une alimentation électrique de secours.
Dans le cadre de l'alimentation électrique, tout le monde a déjà entendu le terme coupure de courant qui fait référence à une situation dans laquelle l'alimentation électrique est complètement interrompue pendant une certaine durée allant peut-être d'une fraction de seconde à plusieurs semaines.
Étant donné que la durée des coupures de courant peut varier énormément, il est nécessaire d'envisager une alimentation électrique de secours en utilisant différentes technologies, afin de répondre à des pannes de courant de différentes durées.
![]() | Astuce |
|---|---|
Les pannes de courant les plus fréquentes durent en général moins de quelques secondes ; des coupures plus longues sont moins fréquentes. Dans de telles circonstances, il est recommandé de vous concentrer d'abord sur la protection contre des pannes de courant de quelques minutes et d'envisager ensuite, une stratégie pour réduire l'exposition à des pannes plus longues. |
Étant donné que la majorité des pannes de courant ne durent que quelques secondes, votre solution pour une alimentation électrique de secours doit avoir les deux caractéristiques principales suivantes :
Courte durée de transition vers l'alimentation électrique de secours (durée de transfert)
Temps d'exécution (ou runtime c-à-d. la durée pendant laquelle l'alimentation électrique de secours devra être disponible) exprimée des secondes aux minutes
Il existe deux solutions pour disposer d'une alimentation électrique de secours qui réponde à ces caractéristiques : les groupes électrogènes et les systèmes UPS. Le volant présent dans le groupe électrogène permet au générateur de continuer à produire de l'électricité pendant suffisamment de temps pour que les coupures de courant de quelques secondes ne soient pas remarquées. Étant donné que les groupes électrogènes ont tendance à être volumineux et coûteux, ils ne représentent une solution pratique que pour les centres de données de moyenne et grande taille.
Toutefois, une autre technologie — portant le nom de système UPS — représente une excellente alternative dans les situations où un groupe électrogène est trop onéreux. De plus, un système UPS peut faire face à des pannes de courant d'une plus longue durée.
Il est possible d'acheter des systèmes UPS de tailles variées — suffisamment petits pour alimenter un simple PC de base pendant cinq minutes ou suffisamment grands pour faire fonctionner tout un centre de données pendant une heure, voire plus.
Les systèmes UPS sont composés des éléments suivants :
Un commutateur de transfert pour passer de la source d'alimentation primaire à la source d'alimentation de secours
Une batterie pour assurer l'alimentation de secours
Un invertisseur pour convertir le courant continu de la batterie en courant alternatif utilisé par l'équipement du centre de données
Sans parler de taille et de la capacité de la batterie du dispositif, il existe deux types de systèmes UPS de base :
Le dispositif UPS offline utilise son invertisseur pour la gestion de l'électricité seulement lorsque la source d'alimentation primaire est défaillante.
Le dispositif UPS online utilise son invertisseur pour la gestion de l'électricité en permanence, alimentant l'invertisseur au moyen de sa batterie seulement lorsque la source d'alimentation primaire est défaillante.
Chaque type de système a ses avantages et ses inconvénients. Le système UPS offline est généralement moins onéreux car l'invertisseur ne doit pas être construit pour un fonctionnement à plein temps. Toutefois, un problème au niveau de l'invertisseur d'un système UPS offline ne se remarquera pas (du moins, jusqu'à la prochaine panne de courant).
Les systèmes UPS online ont tendance à être plus à même de fournir une alimentation électrique pure à votre centre de données ; après tout, un système UPS online a pour fonction essentielle de fournir de l'électricité à plein temps.
Mais, indépendamment du type de système UPS choisi, vous devez d'une part estimer correctement la taille de votre système UPS en fonction de la charge anticipée (garantissant ainsi que le système UPS dispose d'une capacité suffisante pour produire de l'électricité à la tension et au courant nécessaires) et d'autre part, déterminer la durée pendant laquelle vous aimeriez pouvoir alimenter votre centre de données au moyen de la batterie.
Afin de déterminer ces informations, il est nécessaire d'identifier auparavant les charges qui devront être fournies par le système UPS. Prenez en considération chaque élément de l'équipement et déterminez la quantité d'électricité qu'il consomme (ces informations sont généralement mentionnées sur l'étiquette se trouvant à proximité du cordon électrique de l'appareil). Prenez note de la tension, du nombre de watts et/ou des ampères. Une fois que vous avez recueilli ces informations pour tous les appareils, vous devez les convertir en VA (Volt-Ampères). Si la consommation est exprimée en watts, vous pouvez utiliser le nombre mentionné comme VA ; si le nombre est donné en ampères, multipliez-le par le nombre de volts afin d'obtenir la valeur en VA. En additionnant les chiffres en VA, vous obtiendrez une estimation en VA que vous pourrez alors utiliser pour choisir le type de système UPS nécessaire.
![]() | Remarque |
|---|---|
D'un point de vue purement scientifique, cette méthode de calcul d'une valeur en VA n'est pas tout à fait correcte ; toutefois, afin d'obtenir la valeur scientifique en VA, il serait nécessaire de connaître le facteur de puissance de chaque appareil et cette information est rarement, voire jamais, fournie. Dans tous les cas, les valeurs en VA obtenues avec cette méthode peu scientifique reflètent les valeurs s'appliquant en fait aux pires situations et permettent par conséquent de disposer une marge d'erreur telle, que ces valeurs peuvent être considérées comme très sûres. |
La détermination de la durée pendant laquelle l'alimentation électrique de secours devra être disponible (aussi appelée durée d'exécution ou runtime) est plus une considération d'ordre commerciale que d'ordre technique — contre quels types de pannes de courant souhaitez-vous vous protéger et quelle somme d'argent êtes-vous prêt à dépenser pour ce faire ? La plupart des sites choisissent des durées maximales qui sont inférieures à une ou deux heures car l'électricité fournie par une batterie devient très onéreuse au-delà de cette durée.
Lorsque les pannes de courant s'étendent sur plusieurs jours, ces choix deviennent encore plus coûteux. Les technologies permettant de faire face à des pannes de courant à long terme se limitent aux générateurs fonctionnant à l'aide d'un genre de moteur — essentiellement, moteur diesel et turbine à gaz.
![]() | Remarque |
|---|---|
Gardez bien à l'esprit que des générateurs utilisant un moteur doivent être réapprovisionnés en carburant lorsqu'ils marchent. Il est donc important de connaître le taux de "consommation" de votre générateur lorsqu'il fonctionne à sa charge maximale, afin de pouvoir organiser un ravitaillement en conséquence. |
À ce stade, de très nombreuses options s'offrent à vous si votre entreprise dispose de fonds suffisants. C'est à ce niveau que les experts devraient vous aider à déterminer la meilleure solution pour votre entreprise. Rares sont les administrateurs système disposant de l'expertise nécessaire pour planifier l'acquisition et le déploiement de tels systèmes générateurs d'électricité.
![]() | Astuce |
|---|---|
Il est possible de louer des générateurs portables de toute taille, permettant ainsi de bénéficier des avantages liés à la production d'électricité par un générateur sans devoir pour cela dépenser les fonds nécessaires à l'achat d'un tel dispositif. Gardez toutefois en mémoire que lors de pannes touchant les alentours de votre région, les générateurs de location seront très demandés et par conséquent très coûteux. |
Alors qu'une coupure de courant de cinq minutes ne représente qu'un désagrément mineur pour le personnel devant travaillé dans des bureaux sans lumière, qu'en est-il d'une coupure d'une heure ? De cinq heures ? D'un jour ? D'une semaine ?
Ceci étant, même si le centre de données fonctionne normalement, une coupure de courant prolongée touchera tôt ou tard votre entreprise. Considérez donc les éléments suivants :
Que se passera-t-il s'il n'y a pas de courant pour maintenir le contrôle de l'environnement du centre de données ?
Que se passera-t-il s'il n'y a pas de courant pour maintenir le contrôle de l'environnement dans tout le bâtiment ?
Que se passera-t-il s'il n'y a pas de courant pour faire fonctionner les postes de travail personnels, le système téléphonique, les lumières ?
À ce stade, il est important pour votre organisation de déterminer le niveau au-delà duquel une coupure de courant prolongée devra malheureusement être tolérée. Ou, dans le cas où cette situation ne serait pas une option, votre entreprise devra reconsidérer sa capacité à fonctionner de manière entièrement autonome par rapport à l'alimentation électrique du bâtiment ; ceci implique la nécessité de très gros générateurs pour alimenter tout le bâtiment.
Évidemment, même ce niveau de planification ne peut pas avoir lieu dans le vide. Il est vraisemblable que, quelle que soit la cause de la panne de courant prolongée, son impact se fera sentir sur le monde extérieur à votre entreprise et que ce dernier, à son tour, aura une influence sur la capacité de votre entreprise à poursuivre son activité, même si elle dispose de moyens illimités pour générer de l'électricité.
Les systèmes de chauffage, ventilation et climatisation (ou HVAC de l'anglais Heating, Ventilation, Air Conditioning) utilisés dans les bureaux modernes sont extrêmement sophistiqués. Souvent contrôlés pour des ordinateurs, le système HVAC est vital pour le confort adéquat d'un bon environnement de travail.
Les centres de données disposent généralement d'équipement supplémentaire pour la ventilation, essentiellement afin de contrebalancer l'impact sur la température de la chaleur produite par les nombreux ordinateurs et les équipements connexes. Des pannes au niveau du système HVAC peuvent avoir des conséquences dévastatrices sur le fonctionnement continu d'un centre de données. De plus, en raison de leur complexité et de leur nature électromécanique, les possibilités de pannes sont nombreuses et variées. Ci-dessous figurent un certain nombre d'exemples :
Les éléments du dispositif de ventilation (principalement de grands ventilateurs propulsés par de gros moteurs électriques) peuvent être défaillants en cas de surtension, de problème de roulements, de panne de couroie/poulie, etc.
Les éléments du dispositif de refroidissement (souvent appelés refroidisseurs) peuvent perdre du réfrigérant suite à des fuites ou leurs compresseurs et/ou moteurs peuvent se gripper
Les réparations et la maintenance du système HVAC font partie d'un domaine spécialisé— un domaine que l'administrateur système moyen devrait laisser aux experts. La seule chose qu'un administrateur système devrait faire est de s'assurer d'une part que l'équipement HVAC utilisé pour les besoins du centre de données est soumis à des vérifications quotidiennes de bon fonctionnement (voire même plus fréquemment) et d'autre part, qu'il est maintenu conformément aux instructions du fabricant.
Certaines conditions climatiques, comme celles mentionnées ci-dessous, peuvent constituer une source de problèmes pour un administrateur système :
De fortes tombées de neige ou la glace peuvent empêcher le personnel de se rendre au centre de données et peuvent même boucher les condensateurs de la climatisation, entraînant une hausse des températures dans le centre de données au moment même où personne ne peut se rendre sur place pour prendre les mesures adéquates.
Des vents forts peuvent interrompre l'alimentation électrique et les communications alors que des vents très élevés peuvent en fait endommager le bâtiment lui-même.
D'autres conditions climatiques peuvent également être source de problèmes, même si elles ne sont pas aussi connues. Par exemple, des températures excessivement élevées peuvent entraîner une surcharge des systèmes de refroidissement avec des baisses de tension ou coupures de courant dues à une demande d'alimentation trop importante pour le réseau local.
Bien que peu de mesures puissent être prises quant aux aléas climatiques, une connaissance de la manière dont ces derniers peuvent affecter le fonctionnement de votre centre de données peut vous aider à maintenir votre activité, même si les conditions climatiques tournent au mauvais temps.
On entend souvent dire que les ordinateurs sont parfaits. Le raisonnement derrière cette déclaration est que si on analyse méticuleusement le problème, on découvre que le catalyseur de chaque problème informatique est en fait une erreur d'origine humaine. Cette section examinera les types d'erreur humaines les plus courants et leurs conséquences.
Les utilisateurs d'un ordinateur peuvent commettre des erreurs pouvant avoir de graves conséquences. Toutefois, étant donné que leur environnement d'exécution est généralement dépourvu de tout privilège, les erreurs des utilisateurs ont tendance à avoir une nature locale. Vu que la plupart des utilisateurs interagissent avec un ordinateur exclusivement au moyen d'une ou plusieurs applications, c'est au sein de ces applications que se produisent la plupart des erreurs commises par l'utilisateur.
La mauvaise utilisation d'applications peut causer les problèmes suivants :
Écrasement de fichiers par erreur
Utilisation de mauvaises données comme entrée d'une application
Fichiers nommés et organisés de manière obscure
Suppression accidentelle de fichiers
Cette liste pourrait certes être plus longue, mais les exemples fournis suffiront pour illustrer ce point. Étant donné que les utilisateurs n'ont pas les privilèges du super-utilisateur, les erreurs qu'ils sont à même de commettre ne se limitent qu'à leurs propres fichiers. Dans de telles circonstances, la meilleure approche consiste à agir sur les deux fronts suivants :
D'une part, éduquer les utilisateurs quant à la bonne utilisation de leurs applications et quant aux bonnes techniques de gestion de fichiers
D'autre part, s'assurer que des copies de sauvegarde des fichiers des utilisateurs sont effectuées régulièrement et que le processus de restauration est aussi sobre et rapide que possible.
Outre ces mesures, il n'y a pas grand chose à faire pour limiter les erreurs des utilisateurs à un niveau minimal.
La relation des opérateurs avec les ordinateurs d'une entreprise est plus engagée que celle des utilisateurs. Alors que ces derniers ont tendance à utiliser essentiellement les applications et que leurs erreurs par conséquent se produisent surtout à ce niveau, les opérateurs eux ont tendance à effectuer un éventail de tâches plus vaste. Bien que la nature de ces tâches ait été dictée par d'autres, certaines d'entre elles peuvent inclure l'utilisation d'utilitaires au niveau du système, des situations dans lesquelles la possibilité de causer des dégâts étendus suite à des erreurs, est beaucoup plus élevée. Par conséquent, les différents types d'erreurs qu'un opérateur est à même de commettre sont centrés sur la capacité de ce dernier à suivre les procédures établies à son intention.
Les opérateurs devraient disposer d'ensembles de procédures documentées et disponibles pour presque toutes les actions qu'ils effectuent[3]. Il se peut qu'un opérateur ne suive pas les procédures telles qu'elles sont définies. Cette situation peut être dues aux raisons suivantes :
À un moment donné dans le passé, l'environnement a été changé et les procédures n'ont jamais été mises à jour. Maintenant, l'environnement change à nouveau, invalidant par là-même les procédures mémorisées par l'opérateur. À ce stade, même si les procédures venaient à être mises à jour (un cas peu vraisemblable étant donné qu'elles ne l'ont pas été dans le passé), l'opérateur n'en aurait pas conscience.
L'environnement a été modifié et il n'existe aucune procédure. Le cas présent n'est autre qu'une variation encore plus incontrôlable de la situation précédente.
Les procédures existent est sont correctes, mais l'opérateur ne les suivra pas (ou ne peut pas les suivre).
Selon l'organigramme de votre entreprise, vous ne pourrez peut-être rienfaire de plus que de partager vos inquiétudes avec le responsable approprié.Dans tous les cas, la meilleure approche consiste à être disponible afin de pouvoir prendre toute mesure appropriée pour résoudre le problème.
Même si l'opérateur suit les procédures et que ces dernières sont correctes, il est toujours possible que des erreurs soient commises. Si tel est le cas, il se peut que l'opérateur soit négligent (auquel cas le supérieur de l'opérateur en question devrait être consulté).
La situation pourrait être due à une simple erreur. Dans de tels cas, les meilleurs opérateurs se rendront compte qu'il y a un problème et demanderont de l'aide. Encouragez toujours les opérateurs avec lesquels vous travaillez à s'adresser immédiatement aux personnes appropriées s'il ont l'impression qu'il y a un problème. Bien que de nombreux opérateurs soient hautement qualifiés et donc capables de résoudre bien des problèmes eux-mêmes, le fait est que ce n'est pas leur travail. En outre, un problème qui est aggravé par un opérateur bien intentionné a des conséquences néfastes non seulement sur la carrière de cette personne mais également sur votre capacité à résoudre rapidement une situation qui au départ, n'était qu'un petit problème.
Contrairement aux opérateurs, les administrateurs systèmes effectuent un vaste éventail de tâches en utilisant les ordinateurs de l'entreprise. De même, contrairement aux opérateurs, les tâches que les administrateurs système effectuent ne sont souvent pas basées sur des procédures documentées.
Par conséquent, des administrateurs système effectuent quelquefois des tâches qui ne sont pas nécessaires lorsqu'ils ne sont pas prudents dans leur travail. Dans le cadre des responsabilités quotidiennes qui leur incombent, les administrateurs système ont un accès aux systèmes informatiques qui est plus étendu que ce dont ils ont vraiment besoin (sans parler de leurs privilèges de super-utilisateur) d'où la possibilité de rendre, par erreur, le système indisponible.
Les administrateurs système peuvent commettre des erreurs soit au niveau d'une mauvaise configuration, soit lors de la maintenance.
Les administrateurs système doivent souvent configurer différents aspects d'un système informatique. Il est possible que cette configuration inclue les aspects suivants :
Comptes utilisateur
Réseau
Applications
La liste pourrait bien sûr être un peu plus longue. La tâche de configuration proprement dite peut prendre des formes très variées ; certaines tâches demandent qu'un fichier texte soit édité (à l'aide d'une des centaines de syntaxes différentes utilisées pour les fichiers de configuration), alors que d'autres nécessitent l'exécution d'un utilitaire de configuration.
Le fait que ces tâches soient toutes traitées de manière différente ne représente rien d'autre qu'un défi supplémentaire au fait que chaque tâche de configuration elle-même, nécessite des connaissances différentes. Par exemple, les connaissances nécessaires pour configurer l'agent de transport de courrier sont fondamentalement différentes de celles nécessaires à la configuration d'une nouvelle connexion réseau.
Suite à ce bref exposé de la situation générale, il est surprenant de voir qu'en fait si peu d'erreurs se produisent. Dans tous les cas, la configuration est, et demeurera, un défi pour les administrateurs système. Existe-t-il un moyen de rendre le processus moins vulnérable aux erreurs ?
Le point commun à toute modification de la configuration est qu'un certain changement a été apporté. Ce dernier peut être d'une grande ou d'une petite envergure. Il s'agit néanmoins d'un changement et à ce titre devrait être traité d'une manière particulière.
De nombreuses entreprises implémentent un certain type de processus de contrôle. L'intention de ce dernier est d'aider les administrateurs système (et toutes les parties affectées par ces changements) à gérer le processus de changement et de réduire l'exposition de l'entreprise aux erreurs qui pourraient se produire.
Lors du processus de contrôle des changements, chaque changement suit normalement un certain nombre d'étapes différentes. Ci-dessous figure un exemple des étapes pouvant faire partie du processus :
Les recherches préliminaires tentent de clairement définir :
La nature du changement devant avoir lieu
Son impact, dans le cas où le changement serait effectué avec succès
Une position de repli, dans le cas où le changement échouerait
Une évaluation des différents types de défaillances possibles
Les recherches préliminaires incluront peut-être un test du changement proposé qui sera effectué pendant un moment d'indisponibilité prévu ; ou cette étape pourra même aller jusqu'à l'implémentation du changement dans un premier temps, dans un environnement test, sur du matériel test prévu à cet effet.
Le changement est examiné avec une attention toute particulière aux mécanismes mêmes de son implémentation. La planification nécessaire du changement inclut un aperçu des différentes étapes et du cadre temporel de ce changement (ainsi que la série des différentes étapes et le cadre temporel à respecter pour sortir du changement engendré, au cas où un problème surgirait) et une estimation adéquate du temps alloué à l'implémentation du changement, en s'assurant bien que l'opération n'entrera pas en conflit avec tout autre activité effectuée au niveau du système.
Le résultat de ce processus se présente souvent sous la forme d'une liste d'étapes que l'administrateur système utilisera lors de l'implémentation du changement. Chacune de ces étapes expose les instructions à suivre afin de sortir du changement amorcé, dans le cas où l'étape échouerait. Une estimation des durées de chaque étape est souvent donnée, permettant ainsi à l'administrateur système de déterminer facilement si l'opération se déroule comme prévue ou non.
À ce stade, l'exécution même des étapes nécessaires à l'implémentation du changement devrait être claire et simple. Soit le changement est implémenté, soit il est annulé pour revenir à la situation précédente (dans le cas où un problème surgirait).
Que le changement soit implémenté ou non, l'environnement est contrôlé afin de s'assurer que tout fonctionne bien comme prévu.
Si le changement a été implémenté, toute documentation existante est mise à jour afin de refléter la nouvelle configuration.
Il est évident que tous les changements de configuration ne nécessitent pas ce niveau de détail. La création d'un nouveau compte utilisateur ne devrait nécessiter aucune recherche préliminaire et la planification de cette tâche ne consistera probablement qu'à déterminer si l'administrateur système dispose de temps libre pour créer le compte. L'étape d'exécution sera tout aussi rapide, l'activité de contrôle consistera peut-être à s'assurer que le compte est bien utilisable et la tâche de documentation elle, prendra vraisemblablement la forme d'un email envoyé au gestionnaire du nouvel utilisateur.
Mais, au fur et à mesure que la complexité des changements de configuration augmente, un processus de contrôle des changements plus formel s'impose.
Ce type d'erreur peut être insidieux car la panification et le suivi effectués lors des opérations de maintenance quotidiennes sont généralement réduits au minimum.
Tous les jours les administrateurs système sont les témoins des conséquences de ce type d'erreur, venant particulièrement de la part de nombreux utilisateurs affirmant catégoriquement qu'ils n'ont rien changé — l'ordinateur est tout simplement tombé en panne. L'utilisateur ayant cette conviction ne se rappelle généralement pas ce qu'il a fait, et quant vous serez dans cette même situation, vous ne vous rappellerez certainement pas non plus ce que vous avez fait.
L'élément essentiel à garder à l'esprit est que vous devez être à même de vous rappeler les changements que vous avez apportés lors de la maintenance, si vous voulez être en mesure de résoudre les problèmes rapidement. Il n'est pas réaliste d'envisager un processus minutieux de contrôle des changements portant sur des centaines de petites modifications apportées pendant la journée. Que faire pour effectuer un suivi des centaines de petites choses qu'un administrateur système fait au cours d'une journée ?
La réponse est simple — il faut prendre des notes. Qu'elles se présentent sous une forme quelconque, dans un carnet, dans un assistant personnel ou comme commentaires dans le fichier concerné, prenez des notes. En documentant ce que vous avez fait, vous avez une meilleure chance d'identifier une défaillance liée à un changement que vous avez apporté récemment.
Dans certains cas, les personnes mêmes qui sont supposées vous aider à garantir le bon fonctionnement de vos systèmes en fait, les endommagent. Une telle situation n'est pas due à une conspiration, seulement, toute personne travaillant sur une technologie quelle qu'elle soit, risque pour une raison ou une autre de mettre cette technologie hors service. Il en va de même lorsque les programmeurs en essayant de corriger un bogue, finissent par en créer un autre.
Dans ce cas, le technicien a soit échoué dans son diagnostic du problème et a par conséquent effectué une réparation qui n'était pas nécessaire (ou inutile) ou le diagnostic était bon mais la réparation n'a pas été effectuée comme elle aurait dû l'être. Il se peut aussi que la pièce de rechange elle-même ait été défectueuse ou que la procédure adéquate n'ait pas été suivie lors de la réparation.
C'est la raison pour laquelle il est très important de savoir ce que le technicien fait à tout moment. Ce faisant, vous serez plus attentif aux défaillances qui semblent être liées d'une manière ou d'une autre, au problème d'origine. Cette approche permet de mettre le technicien sur la bonne voix, dans le cas où un problème surviendrait ; autrement, il y a une forte chance que le technicien considère cette erreur comme étant nouvelle et complètement indépendante de celle qui devait être corrigée au départ. De cette manière, les techniciens ne perdent pas de temps à essayer de résoudre un faux problème.
Parfois, bien que le problème ait été diagnostiqué et résolu avec succès, un autre problème surgit à sa place. Le module CPU a été remplacé, mais le sac anti-statique dans lequel il se trouvait a été oublié dans le placard et a bloqué le ventilateur entraînant un arrêt dû à une température trop élevée. Ou le disque dur défaillant de la matrice RAID a bien été remplacé mais une personne a butté contre le connecteur d'un autre disque et l'a accidentellement déconnecté si bien que la matrice est toujours hors service.
De tels incidents peuvent être dûs à des négligences chroniques ou à une simple erreur. Dans tous les cas, vous devriez toujours passer en revue les modifications apportées par le technicien et vous assurer que le système fonctionne bien correctement avant que le technicien ne parte.
| [1] | Et cette durée serait très probablement considérée comme le temps de réponse donné dans le meilleur des cas, puisque les techniciens sont généralement responsables de régions qui s'étendent bien au-delà de leurs bureaux et ce, tous azimuts. Si vous vous trouvez à une des extrémités de leur territoire et que le seul technicien disponible se trouve lui à l'extrémité opposée, le temps de réponse sera évidemment beaucoup plus long |
| [2] | La technologie UPS est examinée de manière plus détaillée dans la Section 8.1.3.2.3.2. |
| [3] | Si les opérateurs de votre entreprise ne disposent pas d'un ensemble de procédures de fonctionnement, collaborez avec eux, avec la direction de votre entreprise et avec vos utilisateurs afin de les créer. Sans procédures, votre centre de données sera incontrôlable et rencontrera vraisemblablement de graves problèmes au cours du déroulement de son activité quotidienne. |