L’importance d’un monitoring fin
21 avril 2021
5 minutes
Garantir une véritable visibilité sur les performances des réseaux informatiques et télécoms
Trop souvent, nous avons des conversations avec des équipes IT et télécoms qui affirment que l’ensemble de leurs outils actuels leur fournit ce dont elles ont besoin. Cependant, nous avons invariablement des discussions sur des dégradations de performances introuvables ou des pertes de paquets pour des raisons inconnues, et nous essayons ensuite de les aider avec une analyse rétrospective de données pour tenter de comprendre l’origine de ces problèmes.
Ces cas mettent toujours en évidence un manque de finesse dans l’analyse des informations. Cela peut être aussi simple qu'une capture de paquets incapable de discerner un micro-burst ou la collecte de flux Netflow ou de données SNMP qui sont basés sur des intervalles de 5 minutes ou d'une minute.
Sur un lien réseau à 10Gbps, avec une taille moyenne des trames sur Internet d’environ 700 octets, il transite jusqu’à 1 786 000 paquets par seconde. Alors comment un échantillonnage d'une minute ou même d'une seconde peut-il aider à comprendre ce qui se passe réellement sur le réseau ?
La réalité peut être très différente de la perception
La finesse de la mesure et de l'instrumentation est la clé
Il ne s'agit pas de dépenser des dizaines de milliers d'euros pour mettre en place un système de surveillance complet clé en main, mais de faire les choses intelligemment autour des liens ou des segments de réseau qui sont les plus importants et qui peuvent causer le plus de problèmes.
Cependant, rien n'est gratuit lorsqu'il s'agit de solutions fiables et précises, et même un excellent ingénieur avec Wireshark, des flux Netflow et des données SNMP aura du mal à trouver des problèmes de l’ordre de la milliseconde et des pertes de trames sur un réseau saturé pendant ce type de durée.
SNMP vs capteurs de données plus fins
Dans l'exemple ci-dessus, le client subit des pertes de paquets. Comment cela pourrait-il être identifié, alors que le polling SNMP ne montre que 200 Mbps de trafic maxi sur leur lien 10G ?
Est-ce qu'il est possible d'identifier les pertes en complétant cela par des captures de trames à l'aide de Wireshark sur un ordinateur portable, pour capter tout le trafic ? Eh bien la réponse est non et il en sera encore très loin !
L’ordinateur portable possède une carte réseau de 1Gbps (le client suppose des performances inférieures à 1Gbps d'après les données ci-dessus). La bande passante maximum utilisée est mesurée à environ 600Mbps. Donc, même cette capture de trames s’avère très peu fiable, et le client est encore loin de pouvoir comprendre la cause de ses pertes de paquets.
SNMP fait une moyenne toutes les minutes, donc les pics de trafic de plus de 10G ne sont même pas enregistrés. C’est le même constat avec la capture Wireshark avec un ordinateur portable. Si par hasard le client a d'autres sondes avec une résolution inférieure à 1s, il voit peut-être un peu plus de trafic. Cependant, à moins qu'il ne surveille avec une finesse de l'ordre de la milliseconde, la réalité est complètement faussée - la perception n'est pas la réalité.
Dans ce cas, les clients se tournent vers leurs commutateurs ou leurs routeurs de périphérie pour obtenir des "données fiables", car ces équipements voient passer tout le trafic. Malheureusement, leurs capacités de monitoring du débit ne sont pas non plus suffisamment fines, du coup ils reportent les mêmes résultats de débit, en revanche ils reportent des paquets perdus. Il reste alors à déterminer si ce problème de pertes de trames affecte un seul sens du trafic ou les deux.
Différentiation de la latence par sens de trafic
Tous ces problèmes, qui devraient être apparemment faciles à diagnostiquer, deviennent extrêmement difficiles sans la granularité nécessaire des mesures.
Choisir les bons outils pour son monitoring
Il existe de bons outils capables de capturer des paquets à un débit allant jusqu'à 100Gbps, mais ils sont généralement assez coûteux. Mais pour surveiller une multitude de liens, il existe des solutions plus rentables qui permettent de suivre les performances du réseau et qui aident à comprendre les dysfonctionnements quasiment en temps réel. Pour cela il n'est pas toujours nécessaire de passer beaucoup de temps à capturer tout le trafic, mais il faut comprendre comment un réseau fait transiter le trafic avec les mécanismes de classification et QoS. Ainsi, combiner des outils de mesures passives et actives est souvent une stratégie payante.
Accedian possède une solution unique pour aider à résoudre ce type de problèmes.
Les aspects clés de ce que fait la solution Skylight d’Accedian, et ce qui devrait être facilement accessible à tout ingénieur réseau, sont les suivants :
- La mesure active de la bande passante la plus précise disponible sur le marché, jusqu'à 1ms, grâce au protocole TWAMP et la fonctionnalité FlowMeter ;
- Tests actifs de latence, de gigue et de perte de paquets avec des mesures dissociées dans chaque sens du trafic grâce au protocole TWAMP, qui permet d’obtenir des mesures avec une précision à la microseconde sans perturber le trafic utile ;
- Vérifier les performances de la couche 3 et de la QoS vers une adresse IP de destination donnée sur le même chemin suivi par le trafic cible ;
- Paquets reçus, bande passante, % d'utilisation rapportés par les capteurs Skylight (par IP, CoS, ports,…) en temps réel avec une granularité à la ms
Mesure de l’utilisation de la bande passante avec la solution Skylight d’Accedian
Ce sont les clients qui en parlent le mieux !
Témoignages d’un client opérateur français :
« Il est inconcevable qu’un opérateur ne possède pas une solution de mesures actives TWAMP ou EOAM pour monitorer la performance de son réseau de transport IP. »
« L’avantage des mesures actives TWAMP est que nous n’avons plus de faux-positifs grâce la précision des mesures et nous pouvons enfin nous fier aux résultats. »
« La précision des mesures TWAMP nous permet d’identifier et de diagnostiquer des problèmes que nous ne pouvions pas voire avant. »
Une fois que nos clients ont mis en place ce type de mesure sur un périmètre bien défini, ils ne cessent de faire croître la solution pour obtenir la meilleure capillarité et la meilleure visibilité possible des performances de leurs réseaux.
Si vous avez des questions sur les éléments présentés dans cet article et vous souhaitez mettre en place des solutions efficaces pour un monitoring fin des performances de votre réseau, n'hésitez pas à nous contacter.
Les experts Tenedis pourront vous accompagner et vous proposer les meilleurs outils et les méthodologies adaptées à votre cas.