CARTE BLANCHE : La position des stations météorologiques pose problème (2/2)

par Carl-Stéphane Huot, Diplômé en génie mécanique et industriel, U. Laval, Québec

Ce texte fait suite au précédent (ici) qui présentait les résultats de calculs statistiques sur l’évolution dans le temps de la position dans l’espace des stations météorologiques qui sont utilisées pour calculer le climat mondial. Le premier texte utilisait la version 3 du GHCN tel que fournit par le GISS. En juin 2019, la version 4 est devenue active. J’étais déjà en révision du premier texte, que j’ai décidé de publier malgré mes résultats liés à l’utilisation de la version 3. Comme le nombre de stations a sensiblement augmenté,  passant de 7400 dans la version 3 à 22000 dans la version 4,  il devenait particulièrement intéressant de poursuivre l’analyse précédente (version 3) avec la version 4 afin de voir si les conclusions se confirmaient ou non.

1/ Méthode

 En allant sur le site du GISS, il est possible de télécharger les stations utilisées pour calculer une température moyenne pour la Terre, avec les positions géographiques, les altitudes et les années pendant lesquelles ces stations sont actives (ici). Il est alors possible de calculer des positions moyennes en longitude, latitude et altitude. J’ai réalisé ces calculs d’abord pour l’ensemble de la Terre, ensuite en divisant celle-ci en hémisphères Nord, Sud Ouest et Est.

Il est  ensuite possible d’obtenir une meilleure représentativité de la répartition de ces zones en subdivisant la superficie de la Terre en superficies égales en latitude comme en longitude. J’ai ainsi divisé la Terre en segments de 10 degrés de latitude et en 20 surfaces identiques en longitude. Cette partie me sert principalement à effectuer un test du Khi-2.

Cette fois-ci, je n’ai fait que deux séries de calculs: la première pour l’ensemble des stations actives durant  la période de référence 1951-1980, et la seconde pour l’année 2018. J’ai estimé inutile de reprendre les calculs à nouveau pour les années 1981-2017, puisque le débat porte finalement sur la différence entre les années de référence et aujourd’hui. Il y a eu une variation progressive dans la période 1981-2017, qui nous amène aux stations actives en 2018, qui est la dernière année complète à ce jour.

 L’observation attentive de cette première série de données m’a amené à diviser la surface des États-Unis et celle de l’Europe d’une manière différente parce qu’il s’agit des deux zones qui ont subi le plus grand changement en pourcentage de stations, en plus d’être les zones où se concentre la très grande majorité des stations sur Terre. Pour les États-Unis, j’ai utilisé une zone s’étendant de 70°O à 125°O et de 30°N à 49°N. J’ai divisé celle-ci par bande de 11 degrés de longitude et en trois zones de surfaces identiques en longitude. Pour l’Europe, j’ai utilisé une zone comprise entre 10°O et 40°E et entre 35°N et 90°N. J’ai divisé celle-ci par bande de 10 degrés de longitude et en trois zones de surfaces identiques en longitude. J’ai refait les mêmes calculs que pour l’ensemble de la Terre.

2/ Comparaison entre les versions 3 et 4 du GHCN

 La base de données de la version 3 recense ~7400 stations et la version 4 ~27300. Une fois retirées, les stations ayant moins de 20 ans de données  pour la version 4, il reste environ 22000 stations. Comme on peut le voir dans les tableaux 1 et 2 , le pourcentage de stations a augmenté de 81 à 89% dans le Nord, et de 51 à 67% dans l’Ouest.

En 1951, la version 3 utilisait 3879 stations, en 1970 un maximum de 5398 stations et en 2018, 2022 stations. En 1951, la version 4 utilisait 9409 stations, en 1999 15251 stations et  9619 stations en 2018. Notons qu’en août 2019, le total de stations tombe à 6980.

Remarquons que la couverture du territoire terrestre a peu augmenté malgré le triplement du nombre de stations, les nouvelles stations de la version 4 se situant dans les mêmes zones que celles de la version 3.

La version 3 reprenait aussi des données qui ont disparu dans la version 4. Ces données concernent  la topographie locale (plat, vallée, montagne), la végétation (prairie, forêt, désert…), la distance à la côte si la mer est à moins de 30 km; la présence d’une grande masse d’eau; si la station est dans un aéroport et enfin la taille de la ville la plus proche. Ces données influencent elles aussi la température mesurée. Ainsi, dans la version 3, un tiers des stations était situé dans des aéroports où il est bien connu que les gaz des réacteurs haussent la température locale. De même, un quart des stations se trouvait dans des villes de plus de 50000 habitants, avec 20% dans des zones de 10000 à 50000 habitants, et le reste en zone rurale. Or l’humanité habite sur environ 0,6% des sols de la planète et utilise environ 33% des sols pour l’agriculture. On voir ainsi de manière très claire qu’il y a une concentration très élevée de stations dans les zones habitées ou transformées par l’homme.

3/ Résultats

3.1. Tableaux 1 à 6 (voir à la fin de l’article)

Entre la version 3 et la version 4, pour les années de référence, le pourcentage de stations au Nord est passé de 85 à 91% et le pourcentage du côté Ouest est passé de 53 à 67%.

Pour 2018, le pourcentage de stations au Nord est passé de 85 à 90% et le pourcentage du côté Ouest est passé de 63 à 67%.

L’altitude a sensiblement augmenté pour 2018 (version 4) comparé aux données précédentes (version 3) et même par rapport aux années de référence 1951-1980 de la version actuelle.

3.2. Tableaux 7 et 8 (voir à la fin de l’article)

– L’Europe, entre les longitudes -10 à 40 (Est de l’Ukraine) et au nord du 35ème parallèle, a vu sa part diminuer de 15,5 à 10,8% entre les années 1951-1980 et 2018. Le pourcentage de stations a cependant parfois augmenté comme au Portugal, en Espagne, en Norvège, en Suède et en Finlande, mais le pourcentage final a diminué à l’échelle européenne suite aux diminutions de stations dans de nombreux pays ;

– Les États-Unis ont fort augmenté leur pourcentage de stations par rapport à la version 3 et entre 1951-1980 et 2018, passant de 45,4 à 54,0% à l’échelle mondiale, ou de  43,7 à 51,7%  si l’on ne tient pas compte de Hawaï et de l’Alaska. L’Est du pays, plus froid, a perdu du poids, surtout au niveau des États de la Nouvelle-Angleterre et de ceux entourant les Grands-Lacs. L’Ouest du pays, plus chaud, a augmenté son poids.

– Le Canada, plus froid, a vu son pourcentage baisser de 4,4 à 3,3% durant ces mêmes années.

– Au total, ces trois zones contiennent aujourd’hui 68% des stations mondiales, pour une surface de moins de 7% du globe.

3.3. Test du Khi-2

     J’ai à nouveau divisé la Terre en superficies de 10 degrés de longitude et en 20 superficies égales en latitude. J’ai ensuite exécuté le test du khi-2 à l’aide de la moyenne du nombre de stations pour chaque superficie pour 1951-1980 et pour l’année 2018 seulement. Encore une fois, la valeur du test est en pratique 0 dans les 2 directions, ce qui indique que les échantillons ne sont pas du tout les mêmes.

4/ Conclusion

Comme on a pu le voir, l’ouverture, la fermeture et le déplacement de stations ont été considérables dans la période 1951-2018. Bien que les trois variables que j’ai utilisées sont importantes pour la température de chaque station, il reste bon nombre d’autres paramètres à tenir compte, dont ceux que j’ai mentionnés plus haut. Il serait donc intéressant de s’y attarder, peut-être via d’autres études statistiques, afin de mieux quantifier les changements que cela implique en terme de température mondiale, mon étude étant plus qualitative et grossière. 

 

Références

https://data.giss.nasa.gov/gistemp/stdata/

https://data.giss.nasa.gov/gistemp/station_data_v4/

https://stats.oecd.org/Index.aspx?DataSetCode=BUILT_UP

http://www.fao.org/faostat/en/#data

TABLEAUX 1 à 9, également ici

4 réflexions sur « CARTE BLANCHE : La position des stations météorologiques pose problème (2/2) »

  1. Mon hypothèse nulle est simplement que la répartition géographique globale des stations sur la Terre demeure inchangée en moyenne entre, d’une part, les années de référence 1951-1980 (dont la moyenne sert de 0 pour mesure la température moyenne de la surface de la Terre), et pour l’année 2018 -dernière complète au moment de la publication de ce texte. De ce point de vue, c’est un échec, comme vous pouvez le voir dans le tableau 9. Avec beaucoup plus de travail, il m’aurait été possible de diviser la surface de la Terre plus finement, mais probablement pas avec un résultat bien différent.
    Quant au tableau de contingence, je ne l’ai fait que pour 2 zones, les États-Unis (48 lower states comme on dit) et l’Europe, avec une surface assez large à chaque fois. En dehors de cela je ne traite qu’une variable à la fois, pour démontrer l’absence de continuité dans le temps dans l’emplacement de la prise des mesures. La concentration des stations est aussi extrêmement variable sur la Terre, autant dans le temps que dans l’espace.
    Mon travail est, je le répète, plus qualitatif que quantitatif. Il y a d’autres variables qui entrent en ligne de compte, mais elles sont hors des limites de ce texte. Par exemple, lorsqu’il manque des mois de données, c’est plus souvent en hiver qu’un été, augmentant la température. On pourra ajouter que plusieurs des autres variables qui étaient disponibles dans la version 3 ont disparu dans la version 4, ne permettant plus de faire de comparaisons.
    L’idée de base était de faire un texte relativement simple qui permettrait à un bon nombre de gens de comprendre qu’il y a déplacement dans le temps de la position globale et du nombre des stations, et que ce déplacement ait de bonnes chances de fausser la valeur calculée. Il me faudrait cependant d’autres outils qu’Excel pour évaluer la variation qui en découle, même en voulant me concentrer sur une portion de la Terre plus limitée.

  2. Je ne comprends pas vos tests même si vous voulez démontrer une hétérogénéité de distribution dans les espaces définis. Il s’agit de faire des tests de Chi carré d’homogénéité ou de contingence, basés sur H0 qu’il n’y a pas de différence dans les proportions de stations entre la période de référence et 2018. Plus l’hétérogénéité est grande, plus le Chi carré est élevé. Par exemple, pour la première partie de votre dernier tableau 9, je trouve un Chi carré de 696,0004314 et vous indiquez 1.66E-124, ce qui est proche de zéro.
    La grande hétérogénéité montre que les distributions des stations ont fortement changé, ce qui, en effet, ne permet pas de comparer correctement les températures entre les deux périodes.

    1. Merci pour cette remarque. Je dois préciser que les valeurs du test du Khi2 que je donne sont les valeurs statistiques du test et non les valeurs du test comme tel, qui n’ont de sens que couplées au nombre de classes de toute façon. On doit donc lire que la probabilité que la répartition spatiale des stations en 2018 soit statistiquement la même que pour l’année de référence est presque égale à 0.

Répondre à Stephane Annuler la réponse

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *