Un peu de statistique descriptive

Les données brutes

On dispose de données brutes sur différents aspects d'un ensemble d'objets, par exemple sous la forme de réponses à un questionnaire. L'ensemble d'objets étudié s'appelle la population et chaque aspect de la population étudiée s'appelle une variable. Les différentes valeurs que peut prendre une variable donnée s'appellent ses modalités.

Par exemple, on pourrait avoir des données concernant les ordinateurs présents au pavillon informatique entre 1995 et 2000 (la population). Chaque machine aurait une fiche donnant son année d'achat, sa marque de processeur, son nombre de pannes, son nombre d'années d'utilisation (4 variables). La variable année d'achat pourrait avoir une vingtaine de modalités (la plupart des années entre 1980 et 2000).

Dans les exemples qui suivent (et qui ressemblent aux données de votre projet), la population est un ensemble de 250 étudiants de l'UPV en 1998, que l'on étudie selon 6 variables.

La distribution d'une variable

Considérons la variable sexe de la population. Elle a deux modalités, F et M. La distribution de cette variable représente la répartition de la population selon ses modalités. Elle s'obtient en comptant l'effectif de chaque modalité. On représente souvent une distribution dans un tableau, par exemple :

modalités F M
effectifs 162 88

Bien entendu avec un tableur à disposition, on ne fait pas les comptes à la main (voir plus loin) !

La distribution jointe de deux variables

Considérons à présent les variables sexe et mois de naissance de la population. La distribution jointe de ces variables s'obtient en comptant l'effectif de chaque couple de modalités. Voici un tableau possible de la distribution jointe de ces deux variables (par exemple, dans le cas présent, il y a 10 garçons nés en avril) :

1 2 3 4 5 6 7 8 9 10 11 12
F 5 14 18 14 12 20 17 14 13 22 7 6
M 7 7 8 10 3 7 15 3 8 12 3 5

Remarquez que les totaux marginaux de cette distribution jointe fournissent les distributions de chaque variable et que le total général donne bien sûr la taille de la population :

1 2 3 4 5 6 7 8 9 10 11 12
F 5 14 18 14 12 20 17 14 13 22 7 6 162
M 7 7 8 10 3 7 15 3 8 12 3 5 88
12 21 26 24 15 27 32 17 21 34 10 11 250

Variables indépendantes

Deux variables (sur la même population) sont dites indépendantes si leur distribution jointe est un tableau de proportionnalité.