Échantillonnage
Échantillonnage
16
Connaître la définition d’un échantillon de taille pour une expérience à deux issues.
Effectuer une première approche de la loi des grands nombres.
Savoir estimer une probabilité, ou une proportion dans une population, à partir d’une fréquence observée sur un échantillon.
Échantillonnage
Notion d’échantillon
Définition
Soit . On considère une expérience aléatoire à deux issues, que l’on peut répéter de manière indépendante (ie. de sorte que la probabilité de chaque issue ne dépend pas des résultats précédemment obtenus).
Un échantillon de taille est constitué des résultats obtenus par répétitions de cette expérience aléatoire.
On lance un dé équilibré à faces et on regarde si on tombe sur un résultat pair.
On peut répéter cette expérience aléatoire plusieurs fois de manière
indépendante. Si on la répète dix fois, on obtient un échantillon de
taille , par exemple : où désigne l’issue
: le nombre obtenu est pair
et l’issue :
le nombre obtenu est impair
.
On lance un dé tétraédrique (à quatre faces) équilibré, et on
s’intéresse au fait d’obtenir . Donner un exemple
d’échantillon de taille possible.
En notant l’issue le numéro obtenu est
et son contraire,
un échantillon de taille possible est
Simulation
Remarque
Simuler un échantillon informatiquement permet d’étudier des séries statistiques comportant un très grand nombre de données.
La code ci-contre est composé de deux fonctions.
piece()
qui permet de renvoyer aléatoirement (pour Face) ou (pour Pile) afin de simuler un lancer de pièce.echantillon(n)
qui simule lancers de pièce et renvoie la liste des résultats.
Par exemple, echantillon(20)
pourra renvoyer la
liste
[0,0,1,1,1,0,0,0,1,0,0,1,0,0,1,1,1,0,0,0]
qui présente une fréquence de Pile égale à .
On lance un dé à faces et on s’intéresse à
l’événement obtenir
.
Quelles sont les issues possibles pour cette expérience ? Donner la loi de probabilité associée.
Écrire une fonction
frequenceDe6(n)
en Python qui construit un échantillon de taille et qui calcule la fréquence de dans cet échantillon.À quoi sert la fonction
simulation(n, N)
écrite ci-dessous ?
L’événement succès est
obtenir
qui a une probabilité de et l’événement échec estne obtenir pas
qui a une probabilité de . On peut représenter la loi de probabilité dans le tableau suivant :Issue Obtenir Ne pas obtenir Probabilité Cette fonction sert à simuler échantillons de taille et retourne les fréquences obtenues.
Échantillons de grande taille
Fluctuation
Définition
On considère une expérience aléatoire à deux issues et on note la probabilité d’une issue .
Si on réalise plusieurs échantillons de même taille, la fréquence de l’issue observée sur chaque expérience varie. C’est ce qu’on appelle la fluctuation d’échantillonnage.
Plus la taille des échantillons est grande, plus le phénomène de fluctuation diminue : les fréquences se rapprochent alors de . C’est la loi des grands nombres.
On exécute simulation(1000, 10)
où
simulation(n, N)
est la fonction définie à l’exercice , et on obtient le résultat suivant :
[0.164,0.186,0.176,0.154,0.178,0.161,0.159,0.176,0.176,0.167]
On constate qu’avec une taille d’échantillon suffisamment élevée ( ici), les fréquences se stabilisent autour de la probabilité de .
Estimation
Définition
On considère une expérience aléatoire à deux issues et on note la probabilité d’une issue. Soit la fréquence observée de cette issue dans l’échantillon. Lorsque est grand, et sont proches donc, si l’on ne connaît pas la valeur de , on peut considérer que constitue une estimation.
On exécute simulation(20, 100)
où
simulation(n, N)
est la fonction définie à l’exercice , et on représente le résultat dans le graphique
ci-dessous par un nuage de points.
À partir des fréquences observées, on retrouve une approximation de la probabilité d’obtenir : .
Remarque
Lorsqu’on approche la probabilité par la fréquence observée , l’erreur commise est égale à . Un résultat mathématique permet d’affirmer que, la plupart du temps, En particulier, plus est grand, plus et sont proches.
Un supermarché souhaite estimer la proportion de ses clients qui paient par carte bancaire (CB). Pour cela, pendant jours, on relève la fréquence de clients payant par CB sur les premiers clients, de sorte que l’on a échantillons de taille . Les résultats sont représentés dans le graphique ci-dessous.
Estimer la proportion des clients payant par CB dans ce supermarché.
On observe que les fréquences de paiement en CB sont toutes regroupées autour d’une même valeur : (environ). Cela veut dire que la probabilité qu’un client paie par CB est proche de ; donc, que la proportion de clients payant en CB est d’environ %.