top of page

Qui influence qui sur Twitter ? (MEDIALEX)

  • Photo du rédacteur: Fynch Meynent
    Fynch Meynent
  • 7 avr.
  • 2 min de lecture

Dans le cadre du projet MEDIALEX, nous cherchons notamment à comprendre qui influence qui dans les dynamiques de mise à l'agenda. Je contribue à ce travail avec des collègues du médialab à Sciences Po. Pour ce faire, nous reproduisons le papier suivant écrit par Barberá et al. sur le Congrès Américain (https://www.cambridge.org/core/journals/american-political-science-review/article/who-leads-who-follows-measuring-issue-attention-and-agenda-setting-by-legislators-and-the-mass-public-using-social-media-data/D855849CE288A241529E9EC2E4FBD)


Ces derniers établissent plusieurs résultats intéressants.

  • Le public serait plutôt leader et le Congrès plutôt suiveur. En particulier, les élus suivent d'abord les supporters de leurs partis, puis le public attentif à l'actualité, puis le public général.

  • Si on contrôle par le rôle des médias, ces derniers semblent en réalité influencer les deux publics et interférer dans la relation a priori causale entre les agendas des élus et des publics.


Pour obtenir ces résultats, les auteurs ont utilisé un modèle LDA (Latent Dirichlet Allocation) pour établir la proportion d'attention accordée à des thématiques différentes par jour. Ensuite, un modèle VAR (Vecteurs Autorégressifs) est implémenté pour déterminer des IRF (Impulse Response Function) afin de savoir qui influence qui.


Nous cherchons donc à reproduire ce papier dans le contexte français, c'est-à-dire dans un contexte non bipartisan. Nous avons travaillé sur les tweets des députés de la XVIᵉ législature du 20 juin 2022 au 14 mars 2023 (en raison des restrictions liées à l'API de Twitter). Des tweets issus de médias et de différents types de public (supporter, attentif, général).

Pour déterminer la proportion d'attention par jour, nous utilisons un modèle LDA mais également un modèle BERTopic pour comparer les sorties des deux modèles en termes de classification thématique. Egalement, des réflexions sont à effectuer sur le modèle VAR. L'approche de Barberá et al. ne permet pas de traiter l'aspect panel des données au regard de leur implémentation. Nous appliquerons donc des modèles VAR ou VECM en panel, en fonction de la stationnarité ou du caractère cointégré des séries temporelles pour les différents acteurs.


Ces travaux ne sont pas achevés à l'heure actuelle, mais l'implémentation des modèles peut être suivie sur le GitHub du médialab : https://github.com/medialab/reproduction_wlwf



Comments


bottom of page