Comment on prouve une fraude électorale avec les chiffres officiels
Tout le monde sentait que les élections haïtiennes de 2015 et 2016 ne tenaient pas. Personne ne l'avait quantifié. Cet article raconte comment trois méthodes statistiques publiées en sciences sociales: Benford, fingerprints, Random Forest produisent un signal mesurable à partir des chiffres que le CEP a lui-même publiés.
Reginald Victor
27 avril 2026
La question qu'on n'avait pas posée
Tout le monde le savait. Les rapports d'observation l'avaient écrit. Les commissions indépendantes l'avaient documenté. Les Haïtiens l'avaient vécu. Les présidentielles de 2015 et 2016 ne tenaient pas ni techniquement, ni politiquement, ni moralement.
Mais entre savoir et démontrer, il y a une distance que la rigueur statistique seule peut franchir.
Cette distance, on n'avait jamais vraiment essayé de la franchir avec les chiffres officiels eux-mêmes. Les rapports décrivaient les irrégularités, mandataires en surnombre, procès-verbaux disparus mais ne quantifiaient pas. Et les analyses statistiques disponibles dans la littérature internationale n'avaient jamais été appliquées rigoureusement au cas haïtien.
C'est ce qu'on a essayé de faire. Trois méthodes statistiques publiées en sciences sociales depuis 1938. Un dataset reconstitué à partir de ce que le CEP, le CEPR, la Mission UE et IFES ont rendu public. Et une question : peut-on quantifier statistiquement ce que tout le monde savait qualitativement ?
La réponse courte est oui. La réponse longue est plus intéressante.
Première méthode : la loi de Benford
Commençons par la plus contre-intuitive.
En 1938, le physicien Frank Benford publie une découverte étrange. Quand on prend des nombres produits par des processus naturels tels que: populations, longueurs de fleuves, prix d'actions, montants comptables, le premier chiffre significatif n'est pas distribué uniformément. Le 1 apparaît environ 30 % du temps. Le 9, seulement 4,6 %. La distribution suit une loi logarithmique précise :
où (d) est le chiffre considéré (de 1 à 9).
Cette loi a une propriété qui intéresse la forensique : un humain qui fabrique des chiffres a tendance à les distribuer intuitivement de façon plus uniforme — environ 11 % par chiffre. Cette distorsion est détectable par un simple test du χ². C'est pour cette raison que la loi de Benford est aujourd'hui utilisée dans la détection de fraude comptable, fiscale, et électorale.
On l'a appliquée aux volumes de votes par département pour 2010, 2015 et 2016.
Le résultat n'est pas celui qu'on espérait. Sur les trois années, on ne peut pas rejeter l'hypothèse de conformité à Benford. Mais ce résultat n'est pas une preuve d'absence de fraude, c'est une limite méthodologique. La loi de Benford devient discriminante à partir d'environ 500 observations. Avec 10 départements, on en a 50, soit dix fois trop peu.
Cette première méthode nous dit donc quelque chose d'important sur ce qu'on cherche, plutôt que sur ce qu'on trouve : pour appliquer Benford de façon conclusive aux élections haïtiennes, il faudrait accéder aux ~11 000 procès-verbaux que le CEP a publiés en 2010 et 2015 mais qui n'ont jamais été archivés de façon structurée et accessible. Cette inaccessibilité est en soi un fait politique.
Deuxième méthode : les empreintes électorales
En 2012, quatre chercheurs autrichiens publient dans les Proceedings of the National Academy of Sciences un article qui change l'analyse électorale. Klimek, Yegorov, Hanel et Thurner proposent une visualisation simple. Pour chaque unité électorale d'un pays: bureau de vote, commune, district, on trace un point sur un graphique à deux dimensions. En abscisse : le taux de participation. En ordonnée : la part du candidat gagnant.
Dans une élection propre, les points forment une tache approximativement gaussienne, centrée sur des valeurs « normales ». Dans une élection fraudée, deux signatures apparaissent. La première : un étirement vers le haut à droite, signe d'un bourrage d'urnes incrémental. La seconde : une seconde tache concentrée près du coin (100 %, 100 %), signe de bureaux où la fraude est totale.
Avec 10 départements, on ne peut pas voir ces taches. Mais on peut calculer la corrélation entre les deux variables. Et c'est là que les choses deviennent intéressantes.
Dans une élection propre, cette corrélation doit être proche de zéro. Un gagnant légitime mobilise des bastions à forte participation comme à faible participation la géographie de son score est indépendante de la géographie de la participation.
En Haïti, on observe :
| Année | Corrélation participation × score gagnant |
|---|---|
| 2010 | r = 0,285 (p = 0,42) |
| 2015 | r = 0,614 (p = 0,06) |
| 2016 | r = 0,620 (p = 0,06) |
Le signal est modéré mais convergent. Pas encore conclusif.
C'est le second test qui devient discriminant. On corrèle cette fois le taux de procès-verbaux exclus du décompte officiel avec le score du gagnant national, par département. La logique : si les irrégularités touchent indifféremment tous les candidats, cette corrélation doit être nulle. Si les départements où la machine électorale a le plus dérapé sont précisément ceux où le gagnant officiel est le plus fort, alors l'irrégularité n'est pas aléatoire, elle est orientée.
Pour 2015 :
Pour 2016 :
Ces deux corrélations sont statistiquement significatives au seuil de 5 %, malgré la petite taille de l'échantillon (n = 10 départements). En clair : les départements où le plus de procès-verbaux ont été exclus sont exactement ceux où Jovenel Moïse a obtenu ses meilleurs scores. Ce n'est pas une coïncidence. C'est un pattern.
C'est le résultat le plus robuste de l'étude.
Troisième méthode : Random Forest sur données synthétiques
La troisième méthode est la plus moderne et la plus contestable alors il faut donc être précis sur ce qu'elle dit et ce qu'elle ne dit pas.
Inspirée du travail de Levin et al. publié dans PLOS One en 2019, elle consiste à entraîner un classifieur de machine learning à distinguer trois types d'élections : propres, légèrement fraudées, fortement fraudées. Le modèle apprend sur des données synthétiques avec 1 000 exemples qu'on a fabriqués en s'inspirant des moyennes haïtiennes documentées et des signatures de fraude décrites par Klimek. On le valide en interne (F1 = 0,997 en validation croisée 5-folds), puis on l'applique aux 30 observations haïtiennes réelles.
Le modèle ne dit pas « ce département a fraudé ». Il dit : « ce département ressemble statistiquement aux exemples étiquetés "fraude" dans nos données d'entraînement ». La nuance est essentielle.
Avec cette précaution, le résultat reste frappant. Le Nord-Est en 2015 reçoit un score de risque de 99,9 %. C'est le maximum atteint sur les 30 observations. Ses caractéristiques : participation au-dessus de la moyenne (38,8 %), score de Jovenel Moïse à 62,6 %, et taux de procès-verbaux quarantinés le plus élevé du pays (9,8 %).
En 2016, le même département voit le score de Moïse passer à 72 % avec 13 % de procès-verbaux exclus. À ses côtés, le Nord-Ouest (66 %, 12 % exclus), le Nord (64 %, 11,5 % exclus) et les Nippes (58 %, 10,5 % exclus). Les cinq couples département-année les plus anormaux sont tous concentrés dans le Nord du pays.
La géographie de l'anomalie
Ce que les trois méthodes disent ensemble et c'est la convergence qui compte, pas chaque méthode prise isolément. C'est qu'il existe une zone géographique précise du territoire haïtien où les chiffres officiels présentent simultanément des scores de gagnant exceptionnellement élevés et des taux d'exclusion de procès-verbaux exceptionnellement élevés. Cette zone est contiguë, et elle est centrée sur le Nord-Est.
Le Nord-Est est aussi le département où se trouve Trou-du-Nord siège d'Agritrans, l'entreprise bananière de Jovenel Moïse, et son fief politique historique. Ce n'est pas une variable que l'analyse statistique peut prendre en compte directement, mais c'est un fait que le lecteur informé doit garder à l'esprit en lisant les résultats.
À l'inverse, dans l'Ouest, le département qui concentre 36 % des inscrits et la métropole de Port-au-Prince, Jovenel Moïse passe de 22 % en 2015 à 50 % en 2016, alors même que la participation s'effondre de 20,3 % à 14 %. Le rapport CEPR de 2016 qualifie ce résultat de « perhaps most surprising ». Dans le langage technique de l'analyse électorale, « most surprising » signifie : nos modèles ne l'expliquent pas avec les variables observables.
Ce qu'on peut dire, ce qu'on ne peut pas dire
Trois précautions méthodologiques cadrent ces conclusions.
Corrélation n'est pas causalité. Une corrélation forte entre deux variables peut s'expliquer par une fraude. Elle peut aussi s'expliquer par une variable confondante non observée par exemple, un meilleur maillage des mandataires PHTK dans les fiefs de Jovenel Moïse, qui rendrait à la fois leur score plus élevé et la quarantaine de procès-verbaux plus efficace dans ces zones. Pour trancher, il faudrait des données qu'on n'a pas.
La granularité est insuffisante. Trente observations (3 années × 10 départements), c'est peu pour de la statistique robuste. La corrélation r = 0,841 est significative au seuil de 5 % avec n = 10, mais la marge d'erreur reste large. Pour confirmer, il faudrait répliquer l'analyse sur les ~11 000 procès-verbaux niveau bureau de vote, qui existent au CEP mais n'ont jamais été publiés ouvertement.
Le Random Forest est entraîné sur du synthétique. Le score de risque de 99,9 % attribué au Nord-Est 2015 est calibré sur des distributions qu'on a fabriquées. Le modèle n'a jamais vu de données fraudées réelles. Sa puissance est donc bornée par la qualité du modèle de fraude qu'on lui a fourni.
Ces limites sont réelles. Elles n'invalident pas le résultat principal, la corrélation PV exclus × score gagnant tient, indépendamment des deux autres méthodes mais elles le situent. On a un signal cohérent, convergent, et statistiquement significatif. On n'a pas une preuve juridique.
Pourquoi ça compte
L'objet de cet exercice n'est pas de produire un acte d'accusation. La justice électorale ne se rend pas avec des scripts Python, elle se rend avec des audits institutionnels, des recomptages, des commissions d'enquête. Et ces outils ont été utilisés en 2015 par la CIEVE, qui avait déjà documenté que 92 % des procès-verbaux contenaient au moins une irrégularité.
Ce que la statistique apporte, c'est autre chose. Elle apporte un cadre objectivable, reproductible, indépendant des récits politiques. Elle dit : voici les chiffres officiels, voici la méthode publiée, voici le résultat.
Cette reproductibilité est ce qui sépare une analyse forensique d'une opinion. On peut être en désaccord avec l'interprétation, on ne peut pas être en désaccord avec le calcul.
Et pour 2026, c'est exactement le cadre dont on a besoin. Si les élections du 30 août se tiennent, leurs résultats seront contestés quoi qu'il arrive, et par tous les camps. Avoir un protocole d'analyse statistique préparé à l'avance, applicable dès la publication des données par le CEP, permet de sortir du « je le sais » pour entrer dans le « voici la mesure ».
C'est ce qu'on essaiera de faire dans le prochain dossier.
*L'étude complète, avec les résultats détaillés des trois méthodes, les tableaux par département et les figures, est disponible sur fanal.media/etudes/fanal-forensics-2010-2016-elections.
Sources principales
- Benford, F. (1938). The Law of Anomalous Numbers. PNAS, 32(4), 145–150.
- Klimek, P., Yegorov, Y., Hanel, R., & Thurner, S. (2012). Statistical detection of systematic election irregularities. PNAS, 109(41), 16469–16473.
- Levin, I. et al. (2019). Detecting election forensics. PLOS One.
- CEPR (2015). An Analysis of the October 25 Preliminary Results. cepr.net
- CEPR (2016). Breakdown of Preliminary Election Results in Haiti. cepr.net
- Mission UE-MOE (2016). Rapport final — élections Haïti. eeas.europa.eu
- CIEVE (2016). Rapport de la Commission Indépendante d'Évaluation et de Vérification Électorale.
Fanal est une publication indépendante d'analyse et de propositions. Ancrée en Haïti, regardant la Caraïbe et les pays émergents. · fanal.media