ISPAwards 2023 - abstract van de winnende paper

Dishani Sen receives her ISPAward from Henri-Jean Pollet, president of ISPA Belgium.

Using Digital Trace Data to Generate Representative Estimates on Disease Prevalence (COVID-19 Infections) in Belgian Municipalities

Is het mogelijk om de prevalentie op gebiedsniveau van COVID-19 infecties in België te voorspellen door het analyseren van zelfgerapporteerde symptomen op Twitter? Alleen vertrouwen op ziekenhuis- en kliniekgerichte studies heeft zijn beperkingen,dus hebben onderzoekers het potentieel van digitale traceergegevens onderzocht om een beter inzicht te krijgen in
de prevalentie van COVID-19 en de symptomen die ervaren worden door besmette personen.

Er is een optimistische toekomst in de mogelijkheid dat het monitoren van sociale media gegevens een levensvatbare strategie is voor toezicht op de volksgezondheid. Het is een kritische competentie waar volksgezondheidsorganisaties in investeren om real-time signalen te ontvangen van pandemische oplevingen en verspreiding. Gegevens van sociale media zijn echter vaak
ongeorganiseerd, en een niet-representatieve steekproef van de bevolking als gevolg van demografische scheefgroei in het gebruik van frequenties en toegangspercentages. Als zodanig is elke directe schatting van een platform als Twitter waarschijnlijk bevooroordeeld naar bepaalde demografische groepen. Met dit in gedachten wordt geprobeerd tweets (digitale sporengegevens) te gebruiken om conclusies te trekken over de prevalentie van COVID-19-infecties in België.

Dit onderzoek gaat over het genereren van schattingen van de incidentie van COVID-19 infecties, op gemeentelijk niveau, door Multilevel Regression Post-Stratification (MrP) te gebruiken om rekening te houden met steekproefbiases in de sociale media steekproef. In eerste instantie worden tweets verkregen van gebruikers op basis van trefwoorden die zijn afgeleid van eerder onderzoek, bijvoorbeeld tweets waarin koorts, hoest, smaakverlies, vermoeidheid, enz. worden vermeld. Vervolgens worden de belangrijkste demografische en geografische kenmerken van belang geëxtraheerd met behulp van de M3 deep learning pipeline, evenals eenvoudige zelfgerapporteerde kenmerken, waardoor de ongestructureerde twittersample effectief wordt omgezet in een enquête-achtig object. Tot slot, op basis van deze demografische kenmerken en censuskenmerken, een mixed effects logistische regressie model met post-stratificatie volgens de Belgische census voorgesteld om het aantal geïnfecteerde individuen op een bepaalde dag te voorspellen. Deze studie draagt bij tot het proof of concept van een volledige end-to-end pipeline om realtime voorspellingen te doen van ziekteprevalentie op een granulair niveau in een populatie met behulp van
sociale mediagegevens. Via deze POC worden bijdragen geleverd aan drie kernelementen: het verzamelen van tweets op grote schaal, het extraheren van demografische kenmerken en het toekennen van een locatiewaarde om
ongestructureerde digitale gegevens om te zetten in enquête-achtige objecten, en het gebruik van een regressiemodel op meerdere niveaus met post-stratificatie om real-time voorspellingen te doen over de bevolking met behulp van digitale trace data.

De algemene hypothese van de studie was dat de prevalentie op gebiedsniveau van COVID-19 op gemeentelijk niveau kan gemodelleerd kan worden met behulp van MrP op kenmerken geëxtraheerd uit geaggregeerde tweets om representatieve schattingen te genereren.

De resultaten van de studie komen overeen met feitelijke gegevens over de prevalentie van COVID-19-infecties in België voor een referentieperiode door een correlatie van 93%. Deze sterke positieve correlatie is een veelbelovende
indicatie dat er een enorm signaal zit in de Twitter-gegevens en dat deze methodologie een groot potentieel heeft
in de digitale epidemiologie.

This page is also available in: Engels

ISPAwards 2023 – abstract van de winnende paper