Un peu de statistique descriptive
Les données brutes
On dispose de données brutes sur différents aspects d'un ensemble d'objets, par exemple sous la forme de réponses à un questionnaire.
L'ensemble d'objets étudié s'appelle la population, et chaque aspect de la population étudié s'appelle une variable. Les différentes valeurs que peut prendre une variable donnée s'appellent ses modalités.
Par exemple, on pourrait avoir des données concernant les ordinateurs présents au pavillon informatique entre 1995 et 2000 (la population). Chaque machine aurait une fiche donnant son année d'achat, sa marque de processeur, son nombre de pannes, son nombre d'années d'utilisation (4 variables). La variable année d'achat pourrait avoir une vingtaine de modalités (la plupart des années entre 1980 et 2000).
Dans les exemples qui suivent (et qui ressemblent aux données de votre projet), la population est un ensemble de 250 étudiants de l'UPV en 1998, que l'on étudie selon 6 variables. Ce sont les mêmes données que lors de la première séance.
La distribution d'une variable
Prenons la variable sexe de la population; elle a deux modalités, F et M. La distribution de cette variable représente la répartition de la population selon ses modalités. Elle s'obtient en comptant l'effectif de chaque modalité. On représente souvent une distribution dans un tableau, par exemple :
modalités | F | M |
effectifs | 162 | 88 |
Si on a un tableur, on ne fait pas les comptes à la main !
La distribution jointe de deux variables :
Prenons les variables sexe et mois de naissance de la population. La distribution jointe de ces variables s'obtient en comptant l'effectif de chaque couple de modalités.
Voici un tableau possible de la distribution jointe de ces deux variables (ici, on trouve 10 garçons nés en avril) :
mois | F | M |
1 | 5 | 7 |
2 | 14 | 7 |
3 | 18 | 8 |
4 | 14 | 10 |
5 | 12 | 3 |
6 | 20 | 7 |
7 | 17 | 15 |
8 | 14 | 3 |
9 | 13 | 8 |
10 | 22 | 12 |
11 | 7 | 3 |
12 | 6 | 5 |
Remarquer que les totaux marginaux de cette distribution jointe fournissent les distributions de chaque variable, et que le total général donne bien sûr la taille de la population:
mois | F | M | Total |
1 | 5 | 7 | 12 |
2 | 14 | 7 | 21 |
3 | 18 | 8 | 26 |
4 | 14 | 10 | 24 |
5 | 12 | 3 | 15 |
6 | 20 | 7 | 27 |
7 | 17 | 15 | 32 |
8 | 14 | 3 | 17 |
9 | 13 | 8 | 21 |
10 | 22 | 12 | 34 |
11 | 7 | 3 | 10 |
12 | 6 | 5 | 11 |
Total | 162 | 88 | 250 |
NB: Un tableur peut vous calculer ce genre de tableaux à partir de données brutes. Il suffit de savoir faire un tableau croisé, comme nous l'avons vu lors de la séance de révisions sur les tableurs.
Variables indépendantes
On dit que deux variables (sur la même population) sont indépendantes si leur distribution jointe est un tableau de proportionnalité. Du point de vue des Statistiques, cela signifie que la valeur prise par une variable est indépendante de la valeur prise par l'autre.
Les deux variables sexe et mois ci-dessus ne sont évidemment pas indépendantes: il suffit de regarder les deux premières colonnes, 5/7 n'est pas égal à 14/7.
Par exemple, dans les deux tableaux ci-dessous, le prix des pommes de terre et le poids acheté sont indépendants en haut (les prix au kilo sont fixes pour chaque variété de patates), mais pas en bas (rabais pour achat en gros pour certaines variétés; lesquelles ?).
ratte | bintje | rosée | |
1kg | 1,5 | 0,75 | 0,9 |
2kg | 3 | 1,5 | 1,8 |
5kg | 7,5 | 3,75 | 4,5 |
5kg | 7,5 | 3,75 | 4,5 |
10 kg | 15 | 7 | 9 |
50 kg | 60 | 30 | 45 |
Graphiques
Les tableaux issus de la statistique descriptive sont à la base de représentations graphiques.
Par exemple, la distribution jointe du sexe et du mois de naissance peut être illustrée par un graphique dit en Anneaux.
La suite
Retour au sommaire. Pour toute question écrivez moi .