Methods for Forecasting Extreme Events with Machine Learning and Extreme Value Statistics

Olivier C. Pasche

Ph.D. Thesis, University of Geneva, 2026

Short Abstract

Extreme events such as natural disasters, financial crashes, and overloaded infrastructures or services collapsing cause severe harm and lasting consequences, especially when they strike by surprise. Providing reliable risk forecasts is crucial for early preparedness, to save lives and ecosystems, and prevent economic recessions. However, foreseeing extreme events is statistically challenging, as they are unprecedented or scarce in historical records, and have complex drivers. Existing methods generally either cannot extrapolate or are not designed for accurate forecasting. This thesis develops novel methodologies for accurately forecasting the conditional risk of extreme events and for understanding their drivers, by combining the extrapolation capabilities of extreme value statistics with the predictive versatility of machine learning and with the insightfulness of causal inference. Its contributions include practical methods for predicting extreme quantiles, high-confidence intervals, and other risk metrics, a method for causal discovery in extreme regimes under confounding, and a study of leading AI weather models during extreme events.

Keywords: extreme events, prediction, forecast, risk, extreme value theory, generalized Pareto distribution, extreme value statistics, machine learning, recurrent neural network, deep learning, quantile regression, conformal prediction, prediction intervals, high confidence, causation, causal inference, confounding, natural disasters, flood, heatwave, forecast assessment, actuarial science

Published thesis: https://doi.org/10.13097/archive-ouverte/unige:193040 (PDF)
Imprimatur: https://archive-ouverte.unige.ch/unige:193040 (PDF)

Dates

Private defence: November 2025
Public defence: February 2026
Final version: February 2026

Abstract

Extreme events such as natural disasters, financial crashes, and overloaded infrastructures or services collapsing cause severe harm and have catastrophic lasting consequences, especially when they strike by surprise. Providing reliable forecasts and risk estimates is crucial for early warnings, disaster preparedness, and adaptation. They help policymakers make informed decisions, financial investors promptly mitigate losses, emergency services and communities prepare, and insurers anticipate sudden increases in claims. This can, in turn, save lives and ecosystems, and prevent economic recessions. In particular, with their increasing frequency and intensity under climate change, environmental extremes such as floods, heatwaves, wildfires, and hurricanes, are especially critical to predict accurately. However, foreseeing extreme events is statistically challenging, as they are, by nature, unprecedented or scarce in historical records, and have complex drivers. Existing methods generally either cannot extrapolate or are not designed for accurate forecasting.
In that light, this thesis develops novel methodologies for accurately forecasting the conditional risk of extreme events and for understanding their drivers, by combining the extrapolation capabilities of extreme value statistics with the predictive flexibility and versatility of machine learning and with the insightfulness of causal inference. The first contribution introduces a method providing accurate extreme quantile predictions when the dependence on predictors is complex or acts between observations, by combining neural networks with extreme value statistics. The model can also forecast other risk metrics, such as high-threshold exceedance probabilities or expected shortfalls, as the entire conditional tail of the response variable is modelled. The second contribution provides an additional type of forecasts: prediction intervals. Our extreme conformal procedure predicts informative and adaptive high-confidence intervals of likely values for the response variable, when the required confidence level is too high for classical conformal methods to be applicable. The third contribution proposes a permutation test for causal discovery in extreme regimes, and a way to mitigate confounding effects detrimental to the extremal causal analysis. The fourth studies the performance of state-of-the-art deep-learning global weather prediction models, during real extreme events, highlighting differences from operational physics-based systems. The new methods introduced in this thesis, and their implementation, aim to provide practical tools for risk assessment and forecasting, that are applicable to a wide range of domains.

Résumé

Les événements extrêmes tels que les catastrophes naturelles, les crashs financiers et l’effondrement d’infrastructures ou de services surchargés causent de graves dommages et ont des conséquences catastrophiques durables, en particulier lorsqu’ils surviennent par surprise. Fournir des prédictions et des estimations de risque fiables est crucial pour mettre en place des alertes précoces, la préparation aux catastrophes et l’adaptation. Elles aident les gouvernements à prendre des décisions éclairées, les investisseurs financiers à atténuer leurs pertes, les services d’urgence et les communautés à se préparer, et les assureurs à anticiper les hausses soudaines de sinistres. Cela peut, par conséquent, sauver des vies et des écosystèmes, et prévenir des récessions économiques. En particulier, compte tenu de leur fréquence et intensité croissantes dues au changement climatique, les extrêmes environnementaux, tels que les inondations, les canicules, les incendies de forêt et les ouragans, sont particulièrement critiques à prédire avec précision. Cependant, la prévision d’événements extrêmes est statistiquement difficile, car ils sont, par nature, sans précédent ou rares dans les archives, et ont des mécanismes complexes. Les méthodes existantes ne peuvent généralement pas extrapoler ou ne sont pas conçues pour des prédictions précises.
Dans cette optique, cette thèse développe de nouvelles méthodologies pour prédire le risque conditionnel d’événements extrêmes avec précision et pour comprendre leurs mécanismes, en combinant les capacités d’extrapolation de la statistique des valeurs extrêmes avec la flexibilité prédictive et la polyvalence de l’apprentissage automatique, et avec la sagacité de l’inférence causale. La première contribution introduit une méthode permettant des prédictions de quantiles extrêmes précises, lorsque la dépendance aux variables explicatives est complexe ou s’exerce entre les observations, en combinant les réseaux de neurones avec la statistique des valeurs extrêmes. Le modèle peut également prédire d’autres mesures de risque, telles que les probabilités de dépassement de seuils élevés ou les pertes attendues au-delà de ces seuils, puisque l’ensemble de la queue conditionnelle de la variable réponse est modélisé. La deuxième contribution fournit un type supplémentaire de prévisions : des intervalles de prédiction. Notre procédure conformelle extrême prédit des intervalles de haute confiance, informatifs et adaptatifs, pour les valeurs probables de la variable réponse, lorsque le niveau de confiance requis est trop élevé pour que les méthodes conformelles classiques soient applicables. La troisième contribution propose un test de permutation pour la découverte causale dans les régimes extrêmes, ainsi qu’une manière d’atténuer les facteurs de confusion néfastes à l’analyse causale des extrêmes. La quatrième étudie les performances de modèles récents de deep-learning pour la prévision météorologique globale, lors d’événements extrêmes réels, en mettant en évidence leurs différences avec les systèmes opérationnels traditionnels, basés sur la physique. Les nouvelles méthodes introduites dans cette thèse, ainsi que leurs implémentations, visent à fournir des outils pratiques pour l’évaluation et la prédiction de risque, applicables à un large éventail de domaines.

Mots-clés : événements extrêmes, prédiction, prévision, risque, théorie des valeurs extrêmes, distribution de Pareto généralisée, statistique des valeurs extrêmes, apprentissage automatique, réseau de neurones récurrent, apprentissage profond, régression quantile, prédiction conformelle, intervalles de prédiction, haute confiance, causalité, inférence causale, facteur de confusion, catastrophes naturelles, inondation, canicule, évaluation de prédictions, science actuarielle

Recommended citation: Pasche, O. C. (2026). "Methods for Forecasting Extreme Events with Machine Learning and Extreme Value Statistics." Ph.D. Thesis, University of Geneva. https://doi.org/10.13097/archive-ouverte/unige:193040
Download Paper