Un peu de statistique descriptive

Les données brutes

On dispose de données brutes sur différents aspects d'un ensemble d'objets, par exemple sous la forme de réponses à un questionnaire.

L'ensemble d'objets étudié s'appelle la population, et chaque aspect de la population étudié s'appelle une variable. Les différentes valeurs que peut prendre une variable donnée s'appellent ses modalités.

Par exemple, on pourrait avoir des données concernant les ordinateurs présents au pavillon informatique entre 1995 et 2000 (la population). Chaque machine aurait une fiche donnant son année d'achat, sa marque de processeur, son nombre de pannes, son nombre d'années d'utilisation (4 variables). La variable année d'achat pourrait avoir une vingtaine de modalités (la plupart des années entre 1980 et 2000).

Dans les exemples qui suivent (et qui ressemblent aux données de votre projet), la population est un ensemble de 250 étudiants de l'UPV en 1998, que l'on étudie selon 6 variables. Ce sont les mêmes données que lors de la première séance.

La distribution d'une variable

Prenons la variable sexe de la population; elle a deux modalités, F et M. La distribution de cette variable représente la répartition de la population selon ses modalités. Elle s'obtient en comptant l'effectif de chaque modalité. On représente souvent une distribution dans un tableau, par exemple :

modalitésFM
effectifs16288

Si on a un tableur, on ne fait pas les comptes à la main !

La distribution jointe de deux variables :

Prenons les variables sexe et mois de naissance de la population. La distribution jointe de ces variables s'obtient en comptant l'effectif de chaque couple de modalités.

Voici un tableau possible de la distribution jointe de ces deux variables (ici, on trouve 10 garçons nés en avril) :

moisFM
157
2147
3188
41410
5123
6207
71715
8143
9138
102212
1173
1265

Remarquer que les totaux marginaux de cette distribution jointe fournissent les distributions de chaque variable, et que le total général donne bien sûr la taille de la population:

moisFMTotal
15712
214721
318826
4141024
512315
620727
7171532
814317
913821
10221234
117310
126511
Total16288250

NB: Un tableur peut vous calculer ce genre de tableaux à partir de données brutes. Il suffit de savoir faire un tableau croisé, comme nous l'avons vu lors de la séance de révisions sur les tableurs.

Variables indépendantes

On dit que deux variables (sur la même population) sont indépendantes si leur distribution jointe est un tableau de proportionnalité. Du point de vue des Statistiques, cela signifie que la valeur prise par une variable est indépendante de la valeur prise par l'autre.

Les deux variables sexe et mois ci-dessus ne sont évidemment pas indépendantes: il suffit de regarder les deux premières colonnes, 5/7 n'est pas égal à 14/7.

Par exemple, dans les deux tableaux ci-dessous, le prix des pommes de terre et le poids acheté sont indépendants en haut (les prix au kilo sont fixes pour chaque variété de patates), mais pas en bas (rabais pour achat en gros pour certaines variétés; lesquelles ?).

 rattebintjerosée
1kg1,50,750,9
2kg31,51,8
5kg7,53,754,5
 
5kg7,53,754,5
10 kg1579
50 kg603045

Graphiques

Les tableaux issus de la statistique descriptive sont à la base de représentations graphiques.

Par exemple, la distribution jointe du sexe et du mois de naissance peut être illustrée par un graphique dit en Anneaux.

La suite

Retour au sommaire. Pour toute question écrivez moi .