Dishani Sen reçoit son ISPAward des mains d’Henri-Jean Pollet, président de l’ISPA Belgique.

Utilisation des données de traces numériques pour générer des estimations représentatives de la prévalence de la maladie (infections par COVID-19) dans les municipalités belges

Est-il possible de prédire la prévalence au niveau régional des infections par COVID-19 en Belgique en analysant les symptômes déclarés sur Twitter ?
l’analyse des symptômes déclarés sur Twitter ? S’appuyer uniquement sur des études centrées sur les hôpitaux et les cliniques a ses limites,
Les chercheurs ont donc exploré le potentiel des données numériques pour mieux comprendre la prévalence de COVID-19 en Belgique.
de la prévalence de COVID-19 et des symptômes ressentis par les personnes infectées.

La possibilité que le suivi des données des médias sociaux soit une stratégie viable pour la surveillance de la santé publique
est une perspective optimiste. surveillance de la santé publique. Il s’agit d’une compétence essentielle dans laquelle les organismes
de santé publique investissent afin de recevoir en temps réel des signaux de pandémie en temps réel sur l’évolution et la propagation de la pandémie.
Cependant, les données des médias sociaux sont souvent non organisées et constituent un échantillon non représentatif de la population en raison de
l’asymétrie démographique dans les fréquences d’utilisation et les taux d’accès. Ainsi, toute estimation directe à partir d’une plateforme comme Twitter
est susceptible d’être biaisée par rapport à certaines données démographiques. C’est dans cette optique que nous avons tenté d’utiliser les tweets (données numériques)
pour déduire la prévalence au niveau granulaire des infections par COVID-19 en Belgique.

Cette recherche vise à générer des estimations de l’incidence des infections par COVID-19, au niveau de la municipalité, en utilisant la post-stratification
de régression multiniveaux (MrP) pour tenir compte des biais d’échantillonnage dans l’échantillon des médias sociaux. Dans un premier temps,
les tweets sont obtenus auprès des utilisateurs sur la base de mots-clés dérivés de recherches antérieures, par exemple les tweets mentionnant la fièvre,
la toux, la perte de goût, la fatigue, etc. Ensuite, les principales caractéristiques démographiques et d’intérêt sont extraites à l’aide du pipeline d’apprentissage profond M3,
ainsi que des caractéristiques autodéclarées, transformant ainsi efficacement l’échantillon non structuré de tweets en un objet semblable à une enquête.

Enfin, sur la base de ces caractéristiques démographiques et de recensement, un modèle de régression logistique à effets mixtes avec post-stratification
selon le recensement belge est proposé pour prévoir le nombre de personnes infectées un jour donné. Cette étude contribue à la preuve de concept d’un pipeline
complet de bout en bout pour effectuer des prédictions en temps réel de la prévalence des maladies à un niveau granulaire dans une population
en utilisant les données des médias sociaux. Dans le cadre de ce POC, des contributions sont apportées à trois éléments fondamentaux: la collecte de tweets à grande échelle,
l’extraction de caractéristiques démographiques et l’attribution d’une valeur de localisation pour convertir des données numériques non structurées en objets de type enquête,
et l’utilisation d’un modèle de régression à plusieurs niveaux avec post-stratification pour faire des prédictions en temps réel sur la population à l’aide de données de traces numériques.

L’hypothèse générale de l’étude était que la prévalence de COVID-19 au niveau municipal peut être modélisée à l’aide de MrP sur les caractéristiques
de la population extraites de tweets agrégés afin de générer des estimations représentatives. Les résultats de l’étude sont similaires aux données réelles
sur la prévalence des infections par COVID-19 en Belgique pour une période de référence, avec une corrélation de 93 %. Cette forte corrélation positive est
une indication très très prometteuse qu’il y a un signal énorme dans les données de Twitter et que cette méthodologie a un potentiel élevé en épidémiologie numérique.