Accedian fait maintenant partie de Cisco |

Dépanner les problèmes de performance des infrastructures IT et des applications avec des temps de diagnostic et de correction accélérés

Les professionnels IT font face à de nombreux défis lorsqu’ils tentent de diagnostiquer les problèmes de performance au sein des infrastructures et des applications actuelles. Car les environnements IT sont devenus particulièrement complexes, mêlants la virtualisation, le cloud (public, privé ou hybride) et les plateformes «as-a-Service » (SaaS, IaaS, PaaS). Et c’est sans compter la prolifération du « Shadow IT » ! En outre, et alors que les équipes sont déjà sous pression pour atteindre leur objectif de temps de réparation moyen (MTTR), un autre facteur entre en jeu : le jeu des responsabilités ! Ainsi, bien qu’officiellement l’acronyme MTTI signifie « Mean Time To Identify » (le temps moyen d’identification d’un incident), il signifie bien souvent sur le terrain « Mean Time to Innocence » (temps moyen pour prouver son innocence) ! Et le meilleur moyen d’y parvenir reste encore d’identifier et de résoudre les problèmes le plus rapidement possible !

Dans leurs efforts constants pour identifier les problèmes de performance au sein des infrastructures et des applications, afin de les corriger selon leurs engagements de MTTR, les équipes d’exploitation IT (les responsables d’infrastructure, du DevOps ou du datacenter), doivent ainsi absolument :

  • Détecter les baisses de performance des applications dès qu’elles apparaissent, et de préférence avant que l’expérience de l’utilisateur final (EuE) ne soit impactée et que ces derniers ne se plaignent
  • Évaluer l’impact des chutes de performance applicatives, en identifiant précisément leur nature, le périmètre concerné et l’enchaînement des événements qui a mené à l’incident. Le tout en étant capables de quantifier l’impact sur les activités critiques de l’entreprise
  • Identifier la cause initiale des chutes de performance en désignant clairement l’hôte, le serveur de base de données, le service web ou l’équipement concerné, ainsi que les raisons du mauvais fonctionnement
  • Assigner avec précision la responsabilité de la baisse de performance à la bonne entité, que ce soit au sein de l’équipe d’exploitation IT ou, lorsque l’infrastructure IT n’est pas mise en cause, au bon responsable au sein de l’équipe réseau (en dédouanant ainsi l’équipe IT)
  • Résoudre les problèmes de performance en se fixant les bonnes priorités, en assignant les bonnes responsabilités et en étant en mesure de partager les preuves (par exemple en fournissant les dialogues applicatifs juste avant la panne)
  • Après l’incident, s’assurer que les niveaux de performance sont à nouveau conformes aux indicateurs internes de performance (KPI) tels que la disponibilité, le temps de réponse pour les utilisateurs finaux (EURT), les différents SLA dans le cas des plateformes SaaS, ou tout simplement par rapport aux profils de performances passés

Diagnostic et correction efficace des problèmes de performance applicative

S’ils veulent respecter leur MTTR (temps moyen de réparation), les exploitants IT doivent réagir au plus vite pour restaurer les niveaux de performance attendus des applications métiers. Pour cela, ils ont besoin d’une solution de supervision de la performance applicative qui leur permette de :

  • Surveiller les performances, détecter les dégradations et lever des alertes en temps réel, si possible avant que les utilisateurs ne se plaignent
  • Visualiser l’impact des baisses de performance à travers toute la chaîne applicative, y compris au cœur des réseaux et des environnements IT les plus complexes, dont notamment les clouds hybrides ou les solutions « as-a-service »
  • Identifier rapidement l’hôte, la base de données, le service ou l’équipement qui subit la baisse de performance, avant d’avancer dans la résolution du problème
  • Identifier la cause de la dégradation des performances, en ayant notamment la capacité à “remonter le temps” jusqu’à un point précédant la panne, afin d’observer les niveaux de fonctionnement nominaux et constater l’impact sur les opérations métier critiques
  • Attribuer correctement la responsabilité de la baisse de performance, et pouvoir le prouver en partageant les traces techniques avec la bonne équipe d’exploitation IT ou réseau, atteignant ainsi les objectifs de MTTR (et MTTI !)

Une solution de mesure de la performance applicative bien conçue

Une solution de mesure de la performance applicative (APM) bien conçue tiendra compte des meilleures pratiques de supervision et de correction des problèmes de performance. Elle permettra notamment de mieux visualiser et de mieux comprendre les aspects essentiels de la performance sur toute la chaîne applicative, et d’apporter des réponses précises aux incidents. Une telle solution APM offrira notamment les fonctionnalités suivantes :

  • Des alertes proactives lors des baisses de performance des applications, basées sur des seuils de déclenchement prédéterminés (associés à des KPI par exemple) ou des objectifs de SLA, afin de permettre une identification au plus tôt
  • La capacité à voir les niveaux de performance de tout l’écosystème applicatif, à travers les centres de données, Internet et les environnements cloud (publics, privés, hybrides), depuis un tableau de bord unifié
  • La capacité de descendre dans les niveaux de détail – avec le moins de clics possible – jusqu’à l’hôte, la base de données ou le service spécifique concerné, et d’inspecter les conversations d’applications individuelles, y compris sur HTTPS, la VoIP, les requêtes SQL ou les partages CIFS/SMB
  • La capacité à partager les traces techniques et les preuves d’une chute des performances applicatives, et de remonter grâce au trafic archivé aux instants précédents l’incident, afin de les comparer aux performances passées de l’hôte, de la base de données ou du service concerné
  • La capacité à confirmer que les niveaux de performance d’une application sont revenus à la normale, en prouvant que les valeurs actuelles sont conformes à celles archivées, permettant ainsi une fermeture rapide du ticket d’incident
  • La visibilité dans le « Shadow IT » et son impact sur les performances générales du réseau et des applications au sein de l’entreprise

Le chaînon manquant entre la performance réseau et le dépannage des problèmes applicatifs

Une solution complète qui associe la gestion de la performance des applications (APM) à des fonctionnalités de gestion de la performance réseau (NPM) apporte aux équipes d’exploitation IT un niveau d’information et une capacité d’orientation et d’intervention qu’une solution APM seule ne pourra jamais atteindre. En offrant le moyen d’identifier et de comprendre les conversations d’applications individuelles en même temps que les flux réseau, une telle solution NPM/APM apporte une vue contextuelle largement plus riche que ce qu’offrent les solutions APM ou de supervision traditionnelles. Une solution NPM/APM intégrée permet en effet de démontrer comment une simple baisse de la performance du réseau peut avoir un effet négatif sur la capacité des métiers à produire de la valeur pour l’entreprise.

Une solution intégrée NPM/APM permettra :

  • Une vision globale du réseau et de l’infrastructure IT, qu’il soit physique, virtualisé, défini par logiciel (SDN), ainsi que des chaînes applicatives dans le Cloud ou  «as-a-service » (SaaS, PaaS, Iaas)
  • La capture des indicateurs de performance sur l’ensemble du réseau et des applications, entre tous les hôtes, tous les sites et tous les centres de données (le trafic “nord-sud”), ainsi qu’au sein même des centres de données et des clouds (trafic “est-ouest”)
  • De déterminer un profil d’usage standard des différents réseaux et applications, mais également leurs variations saisonnières et leurs pics d’utilisation
  • Fournir les moyens nécessaires à la détermination de l’origine des incidents, en permettant aux équipes de descendre jusqu’au composant individuel sur la chaîne applicative (serveurs applicatifs, base de données, équipement), les flux réseau et les transactions applicatives
  • Permettre le partage des traces et des preuves montrant les événements conduisant à une chute des performances (et leurs conséquences précises !), puis fournir les transactions réseau et les échanges applicatifs impliqués

En définitive, une solution intégrée NPM/APM est un outil particulièrement efficace pour diagnostiquer les baisses de performance des applications, d’en identifier les sources et de fournir les éléments qui faciliteront leur correction. SkyLIGHT PVX est un bon exemple d’une telle solution, complète et entièrement dédiée à la supervision et la correction de la performance du réseau de l’entreprise.

Plus d’information à propos de SkyLIGHT PVX, la solution de planification de la capacité des réseaux de l’entreprise.