La loi de Benford est un mystère mathématique, mais nous l’utilisons tout le temps

Nous avons un défi pour vous : pensez à un ensemble de données. Un très grand, de préférence. Cela n’a pas besoin d’être aléatoire – cela pourrait être “la population de toutes les villes américaines”, par exemple, ou “chaque numéro de sécurité sociale”. Mais cela doit couvrir plusieurs ordres de grandeur : quelque chose comme “taille humaine” ou “mois d’anniversaire” ne suffira pas, car toutes les réponses possibles seront assez proches les unes des autres.

J’en ai un? Super. Maintenant : à votre avis, quel est le premier chiffre le plus fréquent dans cet ensemble ?

Intuitivement, la question ne semble pas avoir beaucoup de sens, n’est-ce pas ? Il s’agit d’un ensemble de nombres énorme et assez imprévisible, il est donc logique que les premiers chiffres – c’est-à-dire le premier chiffre de chaque entrée, donc par exemple le premier chiffre de six cent trente-trois font six – seraient répartis uniformément. Un neuvième des données commencerait par le numéro un ; un neuvième commencerait par deux; un neuvième avec trois; etc.

Et si on vous disait que ce n’est pas le cas ? En fait, le premier chiffre le plus fréquent est presque certainement un – de beaucoup aussi. En pratique, vous constaterez généralement qu’environ 30 % de vos points de données commencent par le numéro un. Que se passe-t-il?

Qu’est-ce que la loi de Benford ?

Cette fréquence déséquilibrée est le phénomène mathématique appelé loi de Benford. Malgré son nom, il a été découvert par l’astronome Simon Newcomb, et complètement par accident : il se trouvait en train de consulter des tables logarithmiques en 1881 lorsqu’il a remarqué que les pages commençant par un étaient beaucoup plus usées que toutes les autres. Il a envoyé une note au Journal américain de mathématiqueset un phénomène est né tranquillement.

Personne n’a accordé beaucoup d’attention à la découverte jusqu’en 1937, lorsqu’un physicien du nom de Frank Benford a décidé de la tester par lui-même. Il y a une raison pour laquelle nous l’appelons la loi de Benford et non la loi de Newcomb – vous voyez, Benford a mis le travail dedans. Il a testé le phénomène sur plus de 20 000 points de données provenant de sources extrêmement différentes – taux de mortalité, poids moléculaires, nombre de populations, adresses, rivières, nombres de le Reader’s Digest, vous l’appelez – et la loi du premier chiffre s’est maintenue dans chacun d’eux.

Dans tout ensemble de données qui suit la loi de Benford, les premiers chiffres ressembleront à ceci.

Crédit d’image : IFLScience

Cela semble incroyable, non ? Voyons donc cela en action – tout ce dont nous avons besoin est un grand ensemble de données naturelles. Que diriez-vous… de la superficie, en kilomètres carrés, de tous les pays du monde.

Compter les fréquences de chacun des premiers chiffres – et se débarrasser de la Cité du Vatican car elle est trop petite pour nos besoins – nous donne ceci :

Un diagramme de fréquence montrant les premiers chiffres des zones de 194 pays, par rapport à la loi de Benford.

Ils s’accordent plutôt bien, n’est-ce pas ? Quelle chance, sinon cela aurait été une perte de temps colossale.

Crédit image : IFLScience

Les barres sont les nombres réels de… euh, les nombres. La ligne correspond à ce que nous attendrions de la loi de Benford. Effrayant!

Qu’est-ce qui cause la loi de Benford ?

En regardant cet exemple, vous pourriez penser, d’accord, c’est peut-être un phénomène humain – peut-être que nous aimons juste les nombres inférieurs, alors nous arrêtons d’étendre nos royaumes ou quoi que ce soit lorsque nous atteignons un million de kilomètres carrés. Eh bien, regarde ça :

Un diagramme de fréquence montrant les premiers chiffres des 95 premières puissances de 2 et les comparant à la loi de Benford.

Crédit d’image : IFLScience

Regarde ça? C’est le même schéma, non ? Sauf que celui-ci mesure les premiers chiffres de 2n – à peine quelque chose physiquement mis en place par des mains humaines.

Maintenant, il ne fait aucun doute que certains d’entre vous les plus avertis en mathématiques se dirigent déjà vers la section des commentaires pour dire quelque chose sur la façon dont cet effet dépend très probablement de la base que vous choisissez. Il se trouve que nous travaillons en base dix, donc quand nous disons que la plupart des premiers chiffres sont ceux d’un ensemble de données donné, ce que nous disons en réalité, c’est que la plupart des entrées sont uneou quelque chose-adolescentou une cent et quelque chose, et ainsi de suite.

Si nous passons, par exemple, à la base cinq ou à l’hexadécimal, ces mêmes valeurs auront une représentation différente, ne commençant pas nécessairement par un, donc la fréquence des premiers chiffres sera sûrement différente aussi.

Une illustration de la conversion d'un nombre de base dix en base cinq

163 en base dix est 1123 en base cinq. Mais en base huit, c’est 247 – cela réfute-t-il la loi de Benford ?

Crédit d’image : IFLScience

Voici la chose cool: il n’est pas dépendant du socle. Prenons notre ensemble de données sur la taille des pays et convertissons-le en base… oh, choisissons la base huit :

Un diagramme de fréquence montrant les premiers chiffres de 194 populations de pays en base huit.

Populations pays base huit. Je l’ai quand même eu.

IFLScience

Et voici la même chose pour le jeu de données en hexadécimal, ou base seize :

Un diagramme de fréquence montrant les premiers chiffres de 194 populations de pays en base seize.

Il y a deux types de personnes dans le monde : ceux qui comprennent l’hexagone, et F les autres.

IFLScience

Cela ne répond pas vraiment à la question…

C’est juste. Mais bon, voilà le truc : personne ne sait vraiment l’explication mathématique de la loi de Benford. “La loi de Benford continue de défier les tentatives de dérivation facile”, ont écrit les probabilistes Arno Berger et Theodore Hill dans leur article de 2011. La loi de Benford contre-attaque.

“Même s’il serait hautement souhaitable d’avoir à la fois une preuve formelle rigoureuse et une explication heuristique raisonnablement solide, il semble peu probable qu’une dérivation rapide ait beaucoup d’espoir d’expliquer mathématiquement BL.”

Cela ne veut pas dire que les gens n’ont pas essayé, cependant. Pendant un certain temps, l’hypothèse principale était que cela avait quelque chose à voir avec l’invariance d’échelle : si les premiers chiffres d’un ensemble de données obéissent à une loi universelle, l’argument courait, alors cela ne devait pas dépendre d’unités particulières, puisque “Dieu n’est pas connu”. privilégier soit le système métrique, soit le système anglais », a déclaré le mathématicien Ralph Raimi écrit en 1976.

En utilisant un peu de logique mathématique, vous pouvez en effet arriver à la loi de Benford – mais il y a un problème. Rappelez-vous comment nous avons dit, “si les premiers chiffres obéissent à une loi » ? La preuve ne fonctionne que si nous avons supposé que c’était vrai – et il n’a pas fallu longtemps pour que les gens remarquent qu’une telle loi n’existait pas.

Peut-être que la réponse est, comme Hill proposé en 1998, que les ensembles de données sont rarement aussi simples qu’ils en ont l’air. « Par exemple », écrit-il, « supposons que vous collectiez des données dans un journal, et que le premier article concerne les numéros de loterie (qui sont généralement uniformément distribués), le deuxième article concerne une population particulière avec une distribution standard en cloche et le troisième est une mise à jour des derniers calculs de poids atomiques.

“Aucun de ces calculs n’a de fréquences à chiffres significatifs proches de la loi de Benford, mais leur moyenne en a”, a expliqué Hill, “et un échantillonnage aléatoire des trois produira des fréquences numériques proches de la loi de Benford.”

Bien sûr, aucun de ceux-ci ne peut expliquer pourquoi des ensembles purement mathématiques, comme notre exemple précédent des premiers chiffres de 2n, suivez exactement la loi de Benford. Si vous voulez savoir ce qui se passe lorsque les mathématiciens abandonnent complètement, ne cherchez pas plus loin : la loi de Benford est “une caractéristique intégrée de notre système de numération”. a écrit Weaver“simplement le résultat de notre façon d’écrire les nombres”, par Goudsmit et Furry. Désolé, les enfants – la loi de Benford juste est. Arrêtez de poser des questions.

Alors, à quoi sert la loi de Benford ?

Nous ne savons peut-être pas pourquoi la loi de Benford existe, mais cela ne veut pas dire qu’elle est inutile. Pensez-y : si nous savons que de grands ensembles de données ont souvent cette propriété, alors toutes les données qui n’a pas suivre la loi de Benford – eh bien, c’est un peu suspect.

“L’IRS l’utilise depuis des décennies pour dénicher les fraudeurs”, a déclaré Hill. a déclaré à Reuters alors que de faux complots ont volé au lendemain de l’élection présidentielle de 2020. La loi aide l’agence à “identifier les entrées suspectes”, a-t-il expliqué, “au moment où ils demandent aux auditeurs de travailler sur les preuves tangibles”.

A l’ère du big data et des réseaux sociaux, la loi de Benford est plus important que jamais. “Cela implique que si la distribution des premiers chiffres s’écarte de la distribution attendue, cela indique une fraude”, a expliqué Madahali et Hall en 2020.

« Nous enquêtons[d] si les robots des médias sociaux et les activités d’exploitation de l’information sont conformes à la loi de Benford. Nos résultats ont montré que le comportement des bots respecte la loi de Benford […] cependant, les activités liées aux opérations d’information ne l’ont pas fait.

Nous ne comprenons peut-être pas la loi de Benford, mais il semble que la loi de Benford nous comprenne – tout comme les ensembles de nombres aléatoires, il semble que le cerveau humain ne soit tout simplement pas très doué pour trouver de fausses données convaincantes. Donc, quelle que soit la raison derrière la loi de Benford, deux choses sont sûres : elle ne disparaîtra pas et il ne semble pas que nous allons la comprendre de sitôt.

Peut-être que ça va. « Un phénomène vaste et souvent mal compris ne doit pas toujours être réduit à quelques théorèmes », écrivent Berger et Hill, et « il n’existe actuellement aucune approche unifiée qui explique simultanément son apparition dans les systèmes dynamiques, la théorie des nombres, les statistiques et la réalité. données mondiales.

“En ce sens, la plupart des experts semblent convenir”, concluent-ils, “que l’omniprésence de la loi de Benford, en particulier dans les données réelles, reste mystérieuse.”

Facebook
Twitter
LinkedIn
Pinterest

Leave a Reply

Your email address will not be published.

This site uses Akismet to reduce spam. Learn how your comment data is processed.

ADVERTISEMENT