Loi de Benford

La loi de Benford est aussi nommée loi des nombres anormaux car elle est étonnante quand on la découvre. Dans une liste de données statistiques, elle montre que le 1er chiffre non nul le plus habituel est 1 pour près du tiers des observations.



Catégories :

Loi de probabilité - Statistiques

Page(s) en rapport avec ce sujet :

  • que nous nommerons loi de Benford discrète en base 10. Le même calcul montre que si on écrit les nombres en base c, c étant un entier supérieur à 2, ... (source : mistis.inrialpes)
  • La loi de Benford, ou loi des nombres anormaux car elle est étonnante quand on la découvre, montre que dans la vie de l'ensemble des jours, le chiffre 1 est ... (source : techno-science)
  • La loi de Benford ou loi du premier digit défini la probabilité qu'un chiffre spécifique soit le premier chiffre d'un nombre pris au hasard dans un... (source : pagesperso-orange)

La loi de Benford est aussi nommée loi des nombres anormaux car elle est étonnante quand on la découvre. Dans une liste de données statistiques, elle montre que le 1er chiffre non nul le plus habituel est 1 pour près du tiers des observations. Puis le 2 est lui-même est plus habituel que 3... et la probabilité d'avoir un 9 comme premier chiffre significatif n'est que de 4, 6%.

De façon générale, la loi donne la valeur théorique f de la fréquence d'apparition du premier chiffre d'un nombre d d'un résultat de mesure exprimé dans une base b donnée au moyen d'une unité.

f = \log_{b} \left(1 + \frac 1 d\right )


Historique

Cette distribution a été observée une première fois en 1881 par Simon Newcomb dans un article de l'American Journal of Mathematics [1], un astronome américain, après qu'il se fut aperçu de l'usure (et par conséquent de l'utilisation) préférentielle des premières pages des tables de logarithmes (alors compilées dans des ouvrages). Cet article de Newcomb passe totalement inaperçu pendant cinquante-sept ans. Frank Benford, aux alentours de 1938, remarqua à son tour cette usure inégale, crut être le premier à formuler cette loi qui porte indûment son nom actuellement et arriva aux même résultats après avoir répertorié des dizaines de milliers de données (longueurs de fleuves, cours de la bourse, etc).

Application

La loi de Benford est utilisée aux États-Unis, mais aussi dans d'autres pays, dont la France, pour détecter des fraudes fiscales, suite aux idées exposées en 1972 par Hal Varian. Les chiffres 5 et les 6 prédominent nettement dans les données falsifiées : 40% pour les 5 et plus de 20% pour les 6. Pour proposer un modèle de prédiction d'indice boursier, il convient d'inclure un test de cohérence car la loi de Benford ne fait pas de distinction entre les nombres 20 et 200000 : ces deux nombres ayant 2 et 0 comme chiffres significatifs[2].

Système décimal

Loi de Benford freq relat.PNG
Loi de Benford freq cumul.PNG

En particulier, pour le système décimal (base 10), on a donc :

f = \log_{10} \left(1 + \frac 1 d\right )

Ce qui aboutit au tableau de résultats suivants :

d 1 2 3 4 5 6 7 8 9
f 30, 1 17, 6 12, 5 9, 7 7, 9 6, 7 5, 8 5, 1 4, 6
Fréquences relatives d'apparition du 1er chiffre (base 10) (%)
d 1 2 3 4 5 6 7 8 9
f 30, 1 47, 7 60, 2 69, 9 77, 8 84, 5 90, 3 95, 4 100
Fréquences cumulées d'apparition du 1er chiffre (base 10) (%)


Il existe aussi une discrète sur-présentation des premiers chiffres en ce qui concerne le second chiffre significatif du nombre. Cette sur-présentation tend à s'annuler au delà.

Les exemples illustrant cette loi sont nombreux : prenez la suite des 100 premiers carrés, la fréquence des nombres commençant par 1 est nettement supérieure aux fréquences des carrés commençant par 2, 3, 4 etc. En constituant la liste de 100 nombres, produits de deux ou trois nombres tirés au hasard (dans un grand intervalle), de nouveau la fréquence des nombres commençant par 1 est nettement plus élevée que les autres fréquences.

Les suites numériques qui se comportent précisément comme le stipule la loi de Benford sont , en fait, assez rares : parmi celles-ci, on peut citer la suite de Fibonacci, la suite des n !... Dans la vie réelle, la décroissance des probabilités suivant le premier chiffre est beaucoup constatée mais la convergence vers les valeurs de la loi de Benford n'est qu'approximative.

Au contraire, cette loi n'est pas vérifiée si la série de données comporte des contraintes quant à l'échelle des valeurs vraisemblables : la taille des individus ne suit, à l'évidence, pas la loi de Benford puisque la quasi totalité des mesures débute par le chiffre «1».

Explication

Les explications les plus classiques supposent que les suites habituelles admettent des caractéristiques spécifiques :

La forme précise de la loi de Benford peut par exemple être expliquée si on admet que les logarithmes des nombres sont uniformément distribués. Cela veut dire qu'un nombre a tout autant de chances d'être entre 100 et 1000 (logarithme entre 2 et 3) qu'il a de chances de se trouver entre 10 000 et 100 000 (logarithme entre 4 et 5). Pour de nombreux ensembles de nombres, et tout spécifiquement ceux qui croissent exponentiellement, comme les chiffres d'affaire d'entreprises et les cours de bourse, cette supposition est raisonnable.

On peut surtout l'appuyer par le raisonnement suivant : si une loi générale de distribution des nombres existe, elle doit être indépendante d'un choix d'unité (donc rester valable après multiplication par une constante) et d'un choix de base. L'équidistribution des logarithmes satisfait ces conditions, et est par conséquent un candidat crédible. [3]

Si une variable résulte de la multiplication entre elles de la plupart de variables indépendantes, alors elle suit environ la loi de Benford (précisément à la limite) [4].

Mais ces explications sont à la fois spécifiques (à un certain type de données) et spéculatives (pourquoi supposer que les facteurs agissent multiplicativement ou que le logarithme suit une loi uniforme ?). Il y a peu de temps, Gauvrit et Delahaye[5] ont proposé une explication plus simple et générale de la loi de Benford. Selon les chercheurs, c'est le caractère étalé et régulier de la majorité des variables utilisées qui explique la loi de Benford. Ils suggèrent d'ailleurs qu'un équivalent de cette loi, fondé sur d'autres fonctions que le logarithme, fonctionnerait tout autant.

Ébauche de démonstration

Choisissons un nombre réel strictement positif appartenant à un intervalle I.

On cherche la probabilité de son premier chiffre non nul, indépendamment de toute autre caractéristique.

Cela correspond à la recherche d'une mesure m sur la totalité I, supposé mesurable, avec :

  1. P(\mathrm{1ˆ{er}∼chiffre = 1}) = \frac{m( I\cap\{\ldots\cup[10;20[\cup[1;2[\cup[00 \cup[0;0[\cup[0.001;0.002[\cup\ldots\})}{m(I)}
  2. P(\mathrm{1ˆ{er}∼chiffre = 2}) = \frac{m( I\cap\{\ldots\cup[20;30[\cup[2;3[\cup[0 00\cup[0;0[\cup[0.002;0.003[\cup\ldots\})}{m(I)}
  3. P(\mathrm{1ˆ{er}∼chiffre = 3}) = \frac{m( I\cap\{\ldots\cup[30;40[\cup[3;4[\cup[000@\cup[0;0[\cup[0.003;0.004[\cup\ldots\})}{m(I)}
  4. etc.

On suppose que I est construit comme une union de produits de l'intervalle [1;10[ par des réels ai > 0 ; c'est-à-dire : I = ∪ ai × [1;10[ pour des ai > 0. Donc, on travaille dans le groupe multiplicatif des réels strictement positifs (car c'est ainsi que la topologie de ce groupe est construite).

La totalité des réels strictement positifs pourvu de la multiplication étant un groupe topologique séparable et localement compact, il existe une et une seule mesure (à un cœfficient multiplicateur près) qui soit invariante par la loi de groupe : la mesure de Haar du groupe.

Cette mesure est m = \tfrac{\mathrm dx}{x}.

Prenons I = [1;10[, on a :

m(I) = \int_1ˆ{10} \frac{\mathrm dx}{x} = \ln(10) - \ln(1) = \ln(10)

Et on a :

P(\mathrm{1ˆ{er}∼chiffre} = k) = \frac{m( [k;k+1[)}{m(I)} = \ldots = \frac{\ln(k+1)-\ln(k)}{\ln10} = \frac{\ln(1+\frac{1}{k})}{\ln10}

Comme la mesure m est invariante par le produit, en prenant I = ∪ ai × [1;10[ avec ai = 10n, on arrive au même résultat (on peut aussi le vérifier par le calcul).

Ébauche faite à partir d'un travail exposé sur le site de l'Université Paris 5[6]. Il manque dans ces deux exposés un argument convaincant sur l'obligation d'utiliser la mesure de Haar.

Références

  1. Hors série de La Recherche sur les nombres, Ted Hill, Le premier chiffre significatif fait sa loi, page 73.
  2. Hors série de La Recherche sur les nombres, Ted Hill, Le premier chiffre significatif fait sa loi, page 75.
  3. Theodore P. Hill, Base invariance implies Benford's Law, Proceedings of the American Mathematical Society 123, 887-895 (1995). Free web link.
  4. Boyle, J. "An Application of Fourier Series to the Most Significant Digit Problem. " Amer. Math. Monthly 101, 879-886, 1994.
  5. http ://msh. revues. org/document10363. html
  6. La loi de Benford

Bibliographie

Recherche sur Amazon (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Loi_de_Benford.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 07/04/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu