18 mars 2012
Les lecteurs historiques de ce blog se rappelleront peut-être une époque où j’avais entrepris, graphiques pourris™ sous Excel à l’appui, de démonter le discours sur la prétendue popularité de l’alors Premier ministre Dominique de Villepin dans les sondages. Alors que Villepin était en fait extrêmement impopulaire pour un chef de gouvernement en début de mandat.
Un quinquennat sarkozien après, il serait absurde de ne pas reconnaître les progrès faits par les médias français, qui proposent désormais en série des comparateurs de sondages et en option des décryptages des méthodes des sondeurs. L'analyse quantitative reste toutefois minimale, surtout quand on la compare avec ce qui existe aux Etats-Unis, le blog de Nate Silver sur le site du New York Times étant l'exemple le plus remarquable.
Et ce retard français s'avère particulièrement dommageable dès que les résultats de différents instituts apparaissent contradictoires. La polémique de la semaine sur le "creusement des courbes" d'intentions de vote de premier tour entre Hollande et Sarkozy l'illustre bien : faute de disposer d'outils adéquats, le commentaire médiatique s'est enferré dans une logique binaire (croisement ou pas) qui n'aura réussi qu'à embrouiller le public et à renforcer la suspicion à l'égard des sondages.
Je pense qu'il est possible de faire mieux, grâce à des méthodes quantitatives (relativement) simples.
La première étape consiste à présenter en même temps l'ensemble des données des différents instituts de sondage. C'est ce que fait le graphique ci-dessous, pour tous les sondages parus depuis le 2e tour de la primaire socialiste et pour les cinq principaux candidats (et modulo une petite perte d'information liée à des raisons techniques - cf. infra).
Outre la confirmation que la trêve des confiseurs n'est pas propice aux sondages, le graphique rappelle qu'il n'est pas toujours aisé de dégager des tendances à l’œil nu, surtout quand on considère plusieurs nuages de points en simultané.
Il faut donc une seconde étape pour déterminer statistiquement une tendance. Je m'inspire ici des méthodes utilisées sur les blogs américains, en particulier de ce que fait Nate Silver. Dans un premier temps, on calcule pour chaque candidat une moyenne des intentions de vote de l'ensemble des sondages parus sur une période déterminée (les 15 derniers jours par exemple). Pour ne pas qu'un sondage paru il y a deux semaines compte autant qu'un sondage publié le jour même, on attribue des poids différents aux sondages en fonction de leur nouveauté. Dans un deuxième temps, on lisse cette série en utilisant un filtre statistique (une régression locale) qui permet de déterminer quelle est la trajectoire sous-jacente la plus probable compte tenu des données dont on dispose.
Voilà ce qu'on obtient graphiquement après quelques bonne heures de manipulations sous Excel.
On retrouve beaucoup plus facilement des éléments connus de la campagne : le dégonflement des intentions de vote pour Hollande après l'euphorie de la primaire, avant un rebond en janvier au moment du meeting du Bourget ; la montée rapide de Bayrou au mois de décembre ; ou encore la lente progression de Mélenchon depuis le début 2012. Et les tendances confirment le tassement récent de François Hollande et la légère progression de Nicolas Sarkozy depuis le début de l'année.
Le graphique ne montre toutefois pas de croisement des courbes. Faut-il en conclure que le sondage Ifop de cette semaine, qui donnait Sarkozy en tête au premier tour, est un point aberrant? Pas nécessairement. Le graphique est en effet construit sur des tendances de moyenne période, avec la prise en compte des sondages sur les 20 derniers jours : la prime donnée à la nouveauté ne suffit pas à compenser le stock des sondages qui donnaient Hollande en tête, parfois nettement.
L'analyse est différente si l'on choisit des paramètres plus agressifs, par exemple en ne considérant que les sondages réalisés au cours des 7 derniers jours (depuis le début de l'année 2012).
Le rebond temporaire d'Hollande après le discours du Bourget est net. La jonction des courbes avec Sarkozy sur la période récente aussi. Si le premier tour avait lieu ce dimanche, cela m'inciterait à placer Nicolas Sarkozy en favori du premier tour. Dans la mesure où il reste plus d'un mois avant le vote, je préfère ranger mes pronostics au placard et rappeler que les semaines en politique se suivent et ne se ressemblent pas.
J'ajoute que ma méthode est encore loin d'être parfaite, à cause des limitations d'Excel et des miennes. Sur le plan graphique, je n'ai pas réussi à régler simplement le problème de sondages réalisés le même jour : pour l'instant, un seul point est affiché, représentant la moyenne des sondages du jours au lieu d'un point pour chaque sondage. Cela n'influe en rien sur le calcul de la tendance mais la perte d'information graphique est réelle. De même, j'adorerais pouvoir construire des graphiques dynamiques à la TPM. Mais cela supposerait que mes connaissances en programmation web aillent plus loin que la maîtrise de 3 balises html et demi.
Sur le plan statistique, j'aimerais pouvoir faire varier le poids lié à la nouveauté des sondages selon leur demi-vie plutôt qu'avec une fonction linéaire. Mais c'est très complexe à faire sous Excel. Idéalement, je voudrais aussi faire varier le poids attribué aux sondages en fonction de la méthode utilisée (Internet ou téléphone), de la taille de l'échantillon, de la fréquence de publication des sondeurs et de leur performance passée, comme le fait Nate Silver. Et qu'on m'offre un poney.
Ces limitations ne m'empêcheront pas de renouveler l'exercice d'ici au 22 avril si mon lectorat y trouve quelque intérêt. Et si je trouve moi-même un peu de temps.
Add. : j'ai ajouté la possibilité de cliquer sur les graphiques pour voir la version grand format.
Re-add. (19/03) : toujours pas de poney mais des articles élogieux de Ioana Doklean du Lab d'Europe 1 et d'un anonyme rédacteur de Slate.fr. Merci! J'aimerais actualiser la note avec les sondages publiés hier et ce soir mais, comme prévu, je manque cruellement de temps (et de détails sur le dernier Ipsos). Allez donc lire Arthur Charpentier prolonger l'analyse, démontrer qu'il suffit de prendre d'autres paramètres pour que les courbes ne se croisent pas et illustrer au passage la supériorité de R sur Excel.
Mis en ligne par Emmanuel à 01:12 | Lien permanent |