Échantillonnage

Échantillonnage

16

  • Connaître la définition d’un échantillon de taille pour une expérience à deux issues.

  • Effectuer une première approche de la loi des grands nombres.

  • Savoir estimer une probabilité, ou une proportion dans une population, à partir d’une fréquence observée sur un échantillon.

Échantillonnage

Notion d’échantillon

Définition

Soit . On considère une expérience aléatoire à deux issues, que l’on peut répéter de manière indépendante (ie. de sorte que la probabilité de chaque issue ne dépend pas des résultats précédemment obtenus).

Un échantillon de taille est constitué des résultats obtenus par répétitions de cette expérience aléatoire.

On lance un dé équilibré à faces et on regarde si on tombe sur un résultat pair.

On peut répéter cette expérience aléatoire plusieurs fois de manière indépendante. Si on la répète dix fois, on obtient un échantillon de taille , par exemple : désigne l’issue : le nombre obtenu est pair et l’issue : le nombre obtenu est impair.

On lance un dé tétraédrique (à quatre faces) équilibré, et on s’intéresse au fait d’obtenir . Donner un exemple d’échantillon de taille possible.

En notant l’issue le numéro obtenu est et son contraire, un échantillon de taille possible est

Simulation

Remarque

Simuler un échantillon informatiquement permet d’étudier des séries statistiques comportant un très grand nombre de données.

La code ci-contre est composé de deux fonctions.

  • piece() qui permet de renvoyer aléatoirement (pour Face) ou (pour Pile) afin de simuler un lancer de pièce.

  • echantillon(n) qui simule lancers de pièce et renvoie la liste des résultats.

Par exemple, echantillon(20) pourra renvoyer la liste

[0,0,1,1,1,0,0,0,1,0,0,1,0,0,1,1,1,0,0,0]

qui présente une fréquence de Pile égale à .

code-1

On lance un dé à faces et on s’intéresse à l’événement obtenir .

  1. Quelles sont les issues possibles pour cette expérience ? Donner la loi de probabilité associée.

  2. Écrire une fonction frequenceDe6(n) en Python qui construit un échantillon de taille et qui calcule la fréquence de dans cet échantillon.

  3. À quoi sert la fonction simulation(n, N) écrite ci-dessous ?




    code-2

  1. L’événement succès est obtenir qui a une probabilité de et l’événement échec est ne obtenir pas qui a une probabilité de . On peut représenter la loi de probabilité dans le tableau suivant :

    Issue Obtenir Ne pas obtenir
    Probabilité
  2. code-3

  3. Cette fonction sert à simuler échantillons de taille et retourne les fréquences obtenues.

Échantillons de grande taille

Fluctuation

Définition

On considère une expérience aléatoire à deux issues et on note la probabilité d’une issue .

Si on réalise plusieurs échantillons de même taille, la fréquence de l’issue observée sur chaque expérience varie. C’est ce qu’on appelle la fluctuation d’échantillonnage.

Plus la taille des échantillons est grande, plus le phénomène de fluctuation diminue : les fréquences se rapprochent alors de . C’est la loi des grands nombres.

On exécute simulation(1000, 10)simulation(n, N) est la fonction définie à l’exercice , et on obtient le résultat suivant :

[0.164,0.186,0.176,0.154,0.178,0.161,0.159,0.176,0.176,0.167]

On constate qu’avec une taille d’échantillon suffisamment élevée ( ici), les fréquences se stabilisent autour de la probabilité de .

Estimation

Définition

On considère une expérience aléatoire à deux issues et on note la probabilité d’une issue. Soit la fréquence observée de cette issue dans l’échantillon. Lorsque est grand, et sont proches donc, si l’on ne connaît pas la valeur de , on peut considérer que constitue une estimation.

On exécute simulation(20, 100)simulation(n, N) est la fonction définie à l’exercice , et on représente le résultat dans le graphique ci-dessous par un nuage de points.

tikzpicture-1

À partir des fréquences observées, on retrouve une approximation de la probabilité d’obtenir : .

Remarque

Lorsqu’on approche la probabilité par la fréquence observée , l’erreur commise est égale à . Un résultat mathématique permet d’affirmer que, la plupart du temps, En particulier, plus est grand, plus et sont proches.

Un supermarché souhaite estimer la proportion de ses clients qui paient par carte bancaire (CB). Pour cela, pendant jours, on relève la fréquence de clients payant par CB sur les premiers clients, de sorte que l’on a échantillons de taille . Les résultats sont représentés dans le graphique ci-dessous.

tikzpicture-2

Estimer la proportion des clients payant par CB dans ce supermarché.

tikzpicture-3

On observe que les fréquences de paiement en CB sont toutes regroupées autour d’une même valeur : (environ). Cela veut dire que la probabilité qu’un client paie par CB est proche de ; donc, que la proportion de clients payant en CB est d’environ %.