Statistiques: Combien voudriez-vous vérifier?

Imaginez cette situation:

Vous venez d’effectuer une mise à jour par lots sur des millions d’utilisateurs de votre base de données. Il n’y avait aucun message d’erreur et vous êtes sûr que tout s’est bien passé. Mais ça ne ferait pas de mal de vérifier…

Combien d’utilisateurs devriez-vous vérifier pour être sûr que tout fonctionnait pour au moins 95% des utilisateurs?

Voici quelques réflexions:

– si vous ne vérifiez pas, vous ne savez pas: la confiance est de 0%. Après tout, votre mise à jour par lot n’a peut-être pas fonctionné, mais aucun message d’erreur ne s’est affiché.
– Si vous cochez ALL, vous connaissez la réponse: la confiance est de 100%. Mais cela pourrait être beaucoup de travail…
– si vous vérifiez certains utilisateurs, peut-être 10, et que la mise à jour a fonctionné… vous pouvez commencer à vous sentir bien. Comment pouvez-vous avoir confiance?

Je ne pense pas que la réponse soit évidente. J’ai dû prendre un peu de temps pour y réfléchir.

Un détour: note moyenne

Je me souvenais avoir lu Comment ne pas trier par note moyenne et je pensais pouvoir appliquer la même logique à ce problème.

Si vous n’avez qu’une critique et que c’est positif, est-ce 100%? Intuitivement, nous savons que ce n’est pas le cas: c’est l’opinion d’une seule personne. À mesure que de plus en plus de personnes donnent des critiques positives, nous pouvons commencer à nous sentir mieux quant à la précision du score.

La citation de l’article est:

Compte tenu de mes notes, il y a 95% de chances que la fraction «réelle» des notes positives soit au moins quoi?

Nous pouvons utiliser la limite inférieure de l’intervalle de confiance de Wilson.

En pratique, avec R

La fonction binom.wilson, du paquetage binom, peut être utilisée comme ceci:

> binom.wilson(18, 20)
method x n mean lower upper
1 wilson 18 20 0.9 0.6989664 0.9721335

En d’autres termes, si nous avons échantillonné 18 positifs et 2 négatifs (18/20), la fraction «réelle» se situerait probablement entre 0,699 et 0,972 (moyenne: 0,9).

Pour notre exemple, nous pourrions l’invoquer avec 100% de succès:

> binom.wilson(10, 10)
method x n mean lower upper
1 wilson 10 10 1 0.7224672 1

La limite supérieure n’est pas intéressante: nous ne sommes pas intéressés par le meilleur des cas. Mais si vous cochez 10 et qu’ils réussissent tous, vous pouvez être sûr que cela a fonctionné pour 72,2% des utilisateurs (borne inférieure).

Si nous continuons à vérifier et que nous continuons à trouver des succès, nous pouvons être de plus en plus certains du succès «réel»:

Il faut 73 contrôles pour atteindre une limite inférieure de 95% du «vrai» succès (ligne rouge).

Une analyse

Voici l’analyse sous la forme d’un document RMarkdown et le document html de sortie obtenu.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *