Le Khi2

Préalable

On souhaite "mesurer" l'écart entre une distribution donnée  et celle que l'on aurait, en théorie, si certaines hypothèses étaient vérifiées. Dans notre cas, l'hypothèse est que deux variables sont indépendantes, et on voudrait savoir si cette hypothèse est probablement vraie ou probablement fausse.

Le test du khi2 nous permet d'avoir une réponse. Ce test consiste à calculer un nombre à partir des deux distributions, réelle et théorique. Ce nombre est ensuite à comparer avec des tables, que l'on trouve dans tous les manuels de statistiques, et sans doute aussi sur le web (vous pourriez chercher une adresse pour votre page "utilisateur"). Selon la valeur de ce nombre, le nombre de modalités des variables, et le degré de confiance voulu, la table dit si l'hypothèse est statistiquement raisonnable ou non.

Les formules mathématiques

Etant donné un tableau représentant la distribution jointe de deux variables, on utilise les notations suivantes:
n11 n12 n13 n1.
n21 n22 n23 n2.
n.1 n.2 n.3 n

D'autre part, on note nij* l'effectif que l'on aurait si les variables étaient indépendantes.
Dans ces conditions, le khi2 est donné par la formule suivante, où la somme porte sur toutes les lignes et toutes les colonnes du tableau (dans le tableau ci-dessus, on a i=2 et j=3):

Par définition de l'indépendance (proportionnalité, produits en croix égaux... vous vous souvenez!), on sait que

nij* × n = ni. × n.j

En remplaçant et avec un petit peu de calcul, la formule du khi2 précédente peut s'écrire sous cette forme un peu plus simple, et surtout beaucoup plus facile à programmer sur tableur:

Le calcul avec un tableur (ici, Excel)

Téléchargez le fichier suivant. Il pourra vous servir de modèle pour les formules de votre projet.

Il y a dans la feuille "formule2" une distribution jointe (observée) de deux variables, avec ses totaux marginaux. La population est de 800 enfants et les variables sont leur ville de résidence et le nombre de jours qu'il leur faut en général pour se débarrasser d'un rhume.
En-dessous se trouve le tableau de la distribution (théorique) que l'on aurait si les variables étaient indépendantes. Il n'est là que pour information.
A droite, on a un tableau auxiliaire pour le calcul du khi2. Ce tableau calcule les termes de la somme dans la deuxième formule donnée ci-dessus. La somme est calculée en dernier, dans la cellule contenant le khi2.

Dans la feuille "formule2" le khi2 est calculé selon la première formule. Cette fois-ci, on a besoin d'avoir d'abord fabriqué le tableau des effectifs théoriques. Le résultat est évidemment le même... mais il y a plus de travail à faire.