Pondération
Le fait que l'on n'interroge qu'un seul individu par ménage nécessite de pondérer les réponses selon la dimension du ménage. Par ailleurs, l'échantillon peut ne pas présenter exactement les mêmes caractéristiques (par sexe, âge, catégorie sociale, etc.) que la population dans son ensemble. Un redressement va amener l'échantillon à coïncider avec la population générale des 18-69 ans.
Rappelons que l'échantillon se compose de trois parties : les questionnaires courts, les longs des ménages ordinaires, et ceux des foyers, qui étaient tous longs.
POIDS
Aux deux premiers groupes, il convient d'appliquer un poids proportionnel au nombre de personnes éligibles dans le ménage, c'est-à-dire âgées de 18 à 69 ans, puisqu'une seule (désignée au hasard par la « méthode anniversaire ») était interrogée. Ce nombre est donné par la variable Q8A; quand celle-ci n'était pas renseignée, on a cherché à l'estimer en tenant compte de la situation de couple (ou non) de la personne interrogée, et de son âge. La valeur moyenne de Q8A étant 2,1, on a divisé Q8A par cette valeur pour définir le poids.
Les personnes interrogées en foyers de travailleurs ou cités universitaires étaient tirées au hasard parmi les résidents d'un échantillon de ce type d'établissements. Connaissant le nombre de personnes de 18 à 69 ans habitant dans ce type de résidence, on peut comparer le taux de sondage effectif de cette population avec leur part dans la population totale, ce qui conduit à doner un poids 0,393 aux questionnaires recueillis dans les foyers collectifs. Le poids ainsi obtenu étant, en moyenne, un peu inférieur à 1 (en raison du 1 coefficient appliqué aux questionnaires des foyers), il a été ensuite ramené à 1.
PONDERATION DE L'ECHANTILLON TOTAL
La structure de l'échantillon obtenu (après application du poids défini ci-dessus) differe encore de celle de la population totale de 18-69 ans pour diverses raisons : personnes non abonnées au téléphone, personnes inscrites sur « liste rouge », personnes non jointes, refus de répondre ... Il était donc nécessaire de redresser l'échantillon pour éliminer (ou réduire) les effets de certains biais de structure sur les estimations tirées de l'enquête. Les analyses devant souvent être faites séparément pour chaque sexe, on a d'abord redressé chacun des deux sous-échantillons séparément. On a choisi d'intervenir avec prudence, en n'imposant pas à des catégories peu représentées des multiplicateurs trop élevés : pour la catégorie socioprofessionnelle (CSP), par exemple, on s'est contenté de « dégonfler » les catégories supérieures, en répartissant les hausses sur les autres catégories sans chercher à remettre à niveau des catégories peu nombreuses et nettement déficitaires (comme les agricultrices). Concrètement, on s'est calé sur les répartitions suivantes :
- région (3) : Ile-de-France, PACA (et Corse) + Rhône-Alpes, autres;
- âge au 1-1-92 (5) : 18-29,30-39,40-49,50-59,60-69 ans;
- situation matrinzoniale légale (3) : célibataire, marié, autre;
- activité et CSP (4) : inactif (y compris scolarisé, service militaire, mais non compris chômeur), cadre supérieur ou profession intermédiaire, autre profession, pas de profession déclarée (en particulier, chômeur n'ayant jamais travaillé).
Les distributions obtenues précédemment ont donc été recalées sur les distributions attendues, ce qui a conduit à définir des coefficients de redressement pour les 3*5*3'k4 = 180 classes définies ci-dessus; pour chaque individu, en multipliant ensuite son poids (provisoire) par ce coefficient, on obtient une variable de pondération applicable à chaque sexe séparément. Pour reconstituer un échantillon global, il suffit alors de rééquilibrer l'échantillon en fonction de la part de chaque sexe, ce qui conduit à la valeur finale de la pondération :
variable PO120 (de moyenne 1). En utilisant cette pondération, l'effectif initial (20055) est respecté, et ceux des diverses sous-catégories ne sont qu'assez peu modifiés.
PONDERATION DE L'ECHANTILLON DES LONGS
On peut considérer l'échantillon des questionnaires longs comme un sous-échantillon. Il ne peut être représentatif de la population totale, cependant, qu'en tenant compte de la procédure de sélection introduite par la carte-filtre, puisqu'une partie seulement des personnes « non à risque » étaient retenues pour ce questionnaire. A cet effet - massif - s'ajoute celui des abandons en cours de questionnaire, plus fréquents (8,4 %) que chez les « courts » (1,2 %). Il était donc nécessaire de reconstruire une pondération spécifique pour ces questionnaires, en visant à reconstituer une structure proche de celle des 20000.
L'étape « ménage » ne pose pas de problème particulier (on procède comme ci-dessus), si ce n'est que la moyenne des Q8A de ce sous-échantillon n'étant pas identique à celle des 20000, et la part des questionnaires recueillis en foyers collectifs étant plus importante (ils appartiennent tous à cette catégorie), le poids obtenu n'est pas identique au précédent.
L'étape « filtre » est l'élément nouveau. Les questionnaires des foyers étant tous longs d'office, ils ne posent pas de problème; en revanche, les personnes des ménages ordinaires se déclarant « non à risque » ne devaient recevoir un questionnaire long qu'une fois sur dix, selon leur jour de naissance dans le mois. Cet élément n'étant pas contrôlé a posteriori (on ne connaît pas le véritable jour de naissance), on est obligé de classer d'abord les individus « à risque » sur la base de leurs réponses aux questions spécifiques du questionnaire reproduisant les critères du filtre, et de considérer que ces personnes étaient donc éligibles pour un questionnaire long. Au prix de quelques hypothèses (pour plus de détails, voir les pages 102-105 du volume publié à la documentation Française), on peut calculer des coefficients de repondération, qui sont de l'ordre de 1,1 en moyenne pour les « à risque », et de 6,9
pour les « témoins ». Les résultats précédents sont ensuite multipliés par 4 820/20 055 pour obtenir encore une moyenne égale à 1.
On procède ensuite comme pour l'échantillon des 20 000, en redressant selon les mêmes critères d'abord pour chaque sexe, puis pour l'ensemble. Deux différences ici, cependant : d'une part, on a dû distinguer, au sein des inactifs, les scolarisés des autres inactifs; d'autre part, on a ajouté une variable de calage, le fait d'être repéré « à risque » ou non (on utilise donc les proportions obtenues dans le 20000). La pondération finale est : variable POILON (de moyenne 1). L'échantillon ainsi pondéré est toujours d'effectif 4 820, et sa structure globale (pour les critères du redressement) est identique à celle du 20 000 (ce ne sera pas vrai de toutes les autres distributions). Comme dans l'échantillon total, la proportion des « à risque » n'est que de 12 % environ, donc très inférieure à la proportion observée avant redressement (2 271 personnes ont été classées « à risque » parmi les 4 820 questionnaires longs).
Les deux variables PO120 et POILON doivent être utilisées dans tout traitement des données ACSF.