Data Viz ou la visualisation des données, 1ère partie
Préambule
Le 13 septembre 2008, un Boeing 737-500 d’Aeroflot Nord s’écrase à Perm, Russie, faisant 88 victimes. Les cofacteurs de cette catastrophe étaient l’utilisation d’un l’horizon artificiel occidental par un équipage des pays de l’Est (la représentation et les références sont assez différentes entre les 2 modèles, voir Fig 1.), d’une part, et un dysfonctionnement des leviers de poussée des réacteurs (Fig. 2.), qui devaient être décalés pour obtenir une poussée symétrique, d’autre part.
Fig 1. Différence de représentation entre un HSI occidental et russe (source: Flightglobal.com)
Fig 2. Position des leviers pour une poussée symétrique des réacteurs (Source: Interstate Aviation Commitee – Final Air Accident Report)
L’exemple dramatique ci-dessus illustre la problématique de la visualisation des données : dans les cofacteurs cités, la représentation était en décalage avec la réalité. Cette incohérence a, au final, entraîné la perte de référence spatiale à l’origine de l’accident.
Et pourtant, une visualisation appropriée, sensée des données facilite leur compréhension. Avant, cependant d’aborder ce thème à proprement parler, il n’est pas inutile de rappeler qu’il est essentiel dans tous les cas de s’en tenir à la rigueur et à l’éthique scientifique.
Source de données
Le jeu original de données ne devrait subir aucune altération. On s’interdira, en conséquence, de tronquer, de filtrer, de sélectionner ou d’amplifier tout ou partie des données. En effet, cela pourrait dénaturer les hypothèses à l’origine de l’étude (ou du sondage) qui a permis de les récolter. Manquer à ce principe fondamental, c’est s’exposer au reproche de « faire dire n’importe quoi aux statistiques ». Refrain, hélas, connu…
A titre d’exemple, voici ce qui se passe si l’on modifie l’origine d’un jeu de données, pour mieux faire ressortir les différences :
Fig 3. Tronquer la représentation à 150 pour faire ressortir les variations modifie significativement l’échelle et donne l’illusion de différences importantes entre les séries
Une mise en forme des données quelle qu’elle soit devra respecter ce même principe d’intégrité. Les contre-exemples patents seraient, par exemple, de relier des points de données si celles-ci sont discrètes (on laisserait ainsi entendre que la valeur de la variable se modifie en continu, ou que l’on peut interpoler) :
Fig 4. Relier les points de données alors qu’ils sont indépendants (p.ex. tirage des nombres dans une loterie) donne à penser qu’il est possible d’interpoler des valeurs intermédiaires. Cette impression est encore renforcée parce que les liaisons sont des lignes courbes…
ou de rajouter une dimension spatiale si seule la longueur est relevante :
Fig 5. Jouer tout à la fois sur la « hauteur » et la « surface » des données fausse leur importance respective.
Ce dernier cas est particulièrement illustratif : il peut éveiller l’impression que les données sont plus « riches » qu’elle ne le sont en réalité.
Retenons de ces quelques contre-exemples qu’il convient de rester vigilant quant à l’adéquation entre la représentation et la réalité. Manquer à ce principe, c’est risquer d’envoyer le lecteur s’écraser… virtuellement !
Data Visualization
A condition de respecter l’intégrité des données, il est bien entendu possible d’adopter toutes sortes de présentations graphiques pour améliorer l’attractivité et la lisibilité des propos. Commençons cependant par un exemple textuel, ceci afin de démontrer combien les possibilité de visualiser les données sont riches. L’usage de métaphores donne des résultats étonnant, comme le démontre l’exemple ci-dessous (sur une idée de Phillip M Harter – Université de Stanford, actualisée par les Humains Associés – 2003):
Si on pouvait réduire la population de la terre à un village de 100 personnes, en conservant tous les ratios, il ressemblerait à ça :- 60 Asiatiques (dont 20 Chinois et 17 Indiens),
- 14 Américains (6 du Nord et 8 du Sud),
- 13 Africains,
- 12 Européens et un demi-Océanien.
- 52 femmes
- 48 hommes
- 70 non-blancs et 30 blancs
- 70 non chrétiens et 30 chrétiens
- 89 hétérosexuels
- 11 homosexuels
- 50,5 habitent le village,
- 49,5 habitent la campagne avoisinante
- 6 habitants, dont plusieurs sont américains, détiennent 59 % des richesses
- 50 habitants vivent avec 2 dollars par jour
- 25 habitants vivent avec 1 dollar par jour
- 15 habitants sont à l’origine de plus de la moitié des rejets de CO2 du village
- 25 habitants consomment les 3/4 de l’énergie totale, les 75 restants consomment eux, le dernier quart de l’énergie.
- 17 habitants n’ont pas accès aux soins médicaux, ni à un abri décent, ni à l’eau potable
- 50 souffrent de malnutrition
- 70 sont analphabètes
- 80 habitants vivent dans un logement de mauvaise qualité
- 20 contrôlent 86 % du PNB et 74 % des lignes téléphoniques
- 11 habitants utilisent une voiture, sans doute 20 d’ici 20 ans
- 20 disposent du 87 % des véhicules et de 84 % du papier
- 9 ont accès à Internet
- 1 (seulement) a une formation universitaire
- 1 meurt et 2,3 naissent chaque année
Avec un peu d’imagination, il est parfaitement possible de réaliser une visualisation extrêmement parlante des données, sans recourir à des techniques sophistiquées. Ici, l’artifice a consisté a ramener des données difficiles à appréhender à une dimension commune, humaine.
Dans un deuxième article, nous passerons en revue les possibilités graphiques en 2- et 3D qui s’offrent à la visualisation des données et donnerons des ressources bibliographiques.
Un dossier outils de visualisation : http://cursus.edu/dossiers-articles/dossiers/69/outils-visualisation/