Twitter logo over young people holding phone

Les expressions de la génération Z sur Twitter


Sélectionner une des expressions détectées par le modèle pour voir s'afficher les tweets associés




    1. Introduction

    Parfois dans le métro j'entends des jeunes utiliser des expressions complètement nouvelles. Bien sûr certaines de ces expressions sont également utilisés par les gens de mon âge, mais d'autres nous sont complètement inconnus.

    Ces jeunes utilisent intensivement Facebook, Instagram, Snapchat mais aussi Twitter. Puisque les données Twitter sont partiellement publiques1, cela me donne la possibilité d'explorer les expressions qu'utilisent les jeunes dans leur timeline.

    2. Ciblage

    Afin d'identifier ces expressions, deux étapes sont nécessaires :

    1. trouver des tweets écrits par des jeunes, et qui incluent des expressions idiomatiques
    2. localiser l'expression au sein de ces tweets

    Pour la première étape, les tweets contenant la mention mdr (l'abbréviation de mort de rire). Ce choix est motivé par le fait que :

    1. Ce mot est très utilisé par les jeunes
    2. Les tweets contenant "mdr" sont souvent accompagnés d'une certaine émotion (humour, ironie, consternation). Je suspecte qu'il est plus facile de trouver des expressions idiomatiques que dans des contextes plus neutres.

    3. Détection des expressions

    Pour la seconde étape -isoler les expressions- dans les tweets, une technique simple de traitement du langage naturel est utilisée. Simplement, une expression est définie comme deux (ou plusieurs) mots qui ont de forte chance d'apparaître ensemble. Plus précisement, une expression est une combinaison de mots dont la fréquence est plus élevée que le produit des fréquences des mots qui la composent2.

    Un exemple classique d'expression est vin rouge. Cette combinaison de mots apparaît plus fréquemment que par exemple vin bleu, qui n'est donc pas expression. En effet, même si la fréquence individuelle des mots bleu et rouge est similaire, l'expression vin bleu a beaucoup moins de chance d'apparaître dans un texte que vin rouge.

    Le tableau ci-dessous détaille les expressions détectées. Ces résultats font aussi appraître des combinaisons qui ne sont pas réellement des expressions idiomatiques mais des expressions liées à l'actualité (racisme anti-blanc, cure de sébum, les gilets jaunes, un poisson d'avril), aux séries télé (casa de papel, dans koh-lanta) ou au sport (ligue des champions).

      Les expressions de la génération Z sur Twitter
      Nombre de mot Expression Indice Fréquence
      3 men are trash 28.6 0.0014 %
      3 in sha allah 27.5 0.0005 %
      3 racisme anti blanc 23.9 0.0009 %
      3 cure de sébum 20.7 0.0010 %
      3 les gilets jaunes 20.7 0.0006 %
      3 chacun ses goûts 20.6 0.0011 %
      3 casa de papel 19.9 0.0028 %
      3 du second degré 19.9 0.0007 %
      3 ligue des champions 19.7 0.0009 %
      3 claqué au sol 19.6 0.0007 %
      3 j'en ai marre 19.4 0.0046 %
      3 un poisson d'avril 19.4 0.0009 %
      3 4h du mat 19.3 0.0005 %
      3 3h du mat 19.2 0.0007 %
      3 en roue libre 19.2 0.0008 %
      3 s'il te plaît 19.1 0.0007 %
      3 je m'y attendais 19.0 0.0010 %
      3 peter un câble 18.8 0.0006 %
      3 ferme ta gueule 18.8 0.0019 %
      3 dans koh lanta 18.6 0.0006 %
      3 boule à z 18.6 0.0008 %
      3 bout d'un moment 18.6 0.0024 %
      3 boule a z 18.5 0.0007 %
      3 j'y ai pensé 18.4 0.0007 %
      3 éclaté au sol 18.4 0.0006 %
      3 ma meilleure amie 18.3 0.0009 %
      3 trou du cul 18.2 0.0017 %
      3 les réseaux sociaux 18.2 0.0012 %
      3 m'y attendais pas 18.2 0.0006 %
      3 n'a aucun sens 18.2 0.0017 %





    References

    1. Twitter API

    2. La mesure s'appelle pointwise mutual information