Statistiques : le B. A. BA d’une étude de toxicologie
Les articles sur l’actualité « Séralini » ont beaucoup parlé de « l’outil statistique » dans les études de toxicologie. Présenté comme un élément central de ces études, il permet de savoir si une conclusion peut être tirée de l’expérience réalisée, avec un risque donné d’erreur. Mais il reste flou pour le grand public. En reprenant le chapitre 3 de l’ouvrage « Expertise des OGM : l’évaluation tourne le dos à la science » publié par Inf’OGM [1], le présent article fournit les éléments de compréhension d’un débat aussi technique qu’important.
Dans les avis du Haut Conseil des Biotechnologies (HCB) sur les demandes d’autorisation, on retrouve une critique commune : celle de l’outil statistique utilisé. Depuis quelques années, presque tous les avis du HCB comportent la phrase suivante : « Le [Comité scientifique] du HCB note que le pétitionnaire conclut à l’équivalence du maïs [xxx] et de son comparateur non transgénique sans avoir mis en œuvre les tests d’équivalence et études de puissance appropriés. Ces informations seront exigées à l’avenir, conformément aux nouvelles lignes directrices sur l’analyse statistique de l’AESA (EFSA, 2010) ». Ainsi, le HCB critique l’utilisation de l’outil statistique par l’entreprise.
L’outil statistique, une aide à la conclusion
Si on nourrit un bébé rat avec une ration contenant du maïs génétiquement modifié, il va grandir et grossir. Cela ne permet pas de conclure que le transgène induit la croissance du rat. Pour établir une causalité, il faut comparer deux groupes au moins, aussi semblables que possible en dehors de l’élément à étudier. Les différences entre les groupes pourront alors être rapportées à l’élément à étudier. Pour les plantes transgéniques (PGM), les études de toxicité vont comparer deux groupes de rats : un groupe nourri avec la PGM et un groupe témoin nourri avec une plante de la même variété mais non transgénique.
Au cours d’une expérience, il peut arriver que les groupes de rats ne soient pas semblables pour des raisons indépendantes de la volonté de l’expérimentateur. Car les êtres vivants ne sont pas des machines et malgré les précautions prises, la variabilité les caractérise. En clair, si on compare deux groupes d’animaux, des différences existeront. Sachant cela, on comprend qu’il faille distinguer les différences dues au hasard et les différences liées à l’événement étudié. Le premier outil pour caractériser les différences observées est l’outil statistique. Ce n’est qu’une fois que les études statistiques ont identifié des différences statistiquement significatives que la seconde étape peut être entamée : savoir si ces différences statistiquement significatives ont une signification biologique [2].
Prenons un cas au hasard : durant 90 jours, des rats, mâles et femelles, sont nourris avec soit un aliment contenant 11% ou 33% de la PGM (maïs MON810 par exemple) soit avec un aliment contenant 33% de la plante témoin (grains de maïs non GM mais isogénique [3]). Différents paramètres sont étudiés (poids du corps, poids des organes, numération des cellules sanguines, dosages biochimiques, etc.). Pour chacun de ces paramètres et pour chaque pourcentage de PGM, pour chaque sexe, des comparaisons sont effectuées entre les groupes « essais » et les groupes « témoins ». L’objectif est, pour chacun de ces paramètres, de voir s’il existe une différence non attribuable au hasard, qui serait le signe d’un effet de la PGM étudiée.
Mais il existe toujours une probabilité de se tromper en énonçant une conclusion, sans préjuger de l’ampleur de l’erreur commise (ni des conséquences de cette erreur).
Une probabilité de se tromper…
Si la conclusion est « la différence du taux de calcium dans le sang, observée entre le groupe de rats ayant mangé de l’OGM et le groupe de rats témoins est significative au risque statistique de 5% », cela veut dire que la différence n’est pas imputable au hasard, avec une probabilité de se tromper de 5%.
Si on compare deux échantillons de rats issus d’une même population et nourris de la même façon (donc, identiques) et si on compare ces deux échantillons équivalents en fonction de cent paramètres (taille, poids, glycémie, etc.), au risque de 5%, on trouvera environ cinq paramètres présentant une différence significative alors même que ces différences ne sont pas réelles (faux positifs). L’expérimentateur peut choisir délibérément un pourcentage d’erreur. Ce choix est conditionné par ce qu’on cherche à faire. Dans un test de toxicologie où on recherche des différences entre des groupes, on a intérêt à choisir un seuil de signification à 5%, voire 10%, qui sont des risques élevés, car il est important de ne pas passer à côté d’anomalies et il vaut mieux « ratisser large ». Restera ensuite à discuter, à partir d’autres arguments, de la signification biologique des différences observées. Mais si les données statistiques sont des données scientifiques, leur interprétation quant à une signification biologique relève de l’expertise, c’est-à-dire d’un mode de vérité qui est autre que la vérité scientifique. Cette différence de statut n’est en rien péjorative, il s’agit simplement de comprendre que le mode de vérité n’est pas le même dans son rapport aux données. Un test de toxicologie est donc un outil d’aide à la décision et non une démonstration scientifique.
Dans ces conditions, pour comprendre la critique du manque d’information sur la puissance des analyses conduites, on peut prendre une image : si on place un guetteur sur une tour pour voir si l’ennemi arrive, la sécurité n’est pas la même s’il est doté d’une longue vue ou s’il est myope. Il en est de même des statistiques : la puissance statistique doit être adaptée en fonction de l’importance de l’effet que l’on veut être capable de détecter. Cette puissance se calcule. Elle est fonction de la variabilité des mesures du paramètre considéré et du nombre d’animaux utilisés pour faire le test, pour un seuil de détection donné. Si cette puissance n’est pas indiquée, le test n’est pas réellement interprétable, car on ne sait pas si le guetteur a une longue vue ou s’il est myope. Et malheureusement, la puissance des tests statistiques utilisés en toxicologie n’est jamais fournie dans aucun dossier de demande d’autorisation de mise sur le marché ou mise en culture d’OGM.
[1] Jacquemart, F., « Expertise des OGM : l’évaluation tourne le dos à la science », édition Inf’OGM, octobre 2012
[2] cf. note 1
[3] isogénique : variété à partir de laquelle a été fabriquée la PGM