
Les expressions de la génération Z sur Twitter
2020-03-02Sur cette page :
Sélectionner une des expressions détectées par le modèle pour voir s'afficher les tweets associés
1. Introduction
Parfois dans le métro j'entends des jeunes utiliser des expressions complètement nouvelles. Bien sûr certaines de ces expressions sont également utilisés par les gens de mon âge, mais d'autres nous sont complètement inconnus.
Ces jeunes utilisent intensivement Facebook, Instagram, Snapchat mais aussi Twitter. Puisque les données Twitter sont partiellement publiques[1], cela me donne la possibilité d'explorer les expressions qu'utilisent les jeunes dans leur timeline.
2. Ciblage
Afin d'identifier ces expressions, deux étapes sont nécessaires :
- trouver des tweets écrits par des jeunes, et qui incluent des expressions idiomatiques
- localiser l'expression au sein de ces tweets
Pour la première étape, les tweets contenant la mention mdr (l'abbréviation de mort de rire). Ce choix est motivé par le fait que :
- Ce mot est très utilisé par les jeunes
- Les tweets contenant "mdr" sont souvent accompagnés d'une certaine émotion (humour, ironie, consternation). Je suspecte qu'il est plus facile de trouver des expressions idiomatiques que dans des contextes plus neutres.
3. Détection des expressions
Pour la seconde étape -isoler les expressions- dans les tweets, une technique simple de traitement du langage naturel est utilisée. Simplement, une expression est définie comme deux (ou plusieurs) mots qui ont de forte chance d'apparaître ensemble. Plus précisement, une expression est une combinaison de mots dont la fréquence est plus élevée que le produit des fréquences des mots qui la composent[2].
Un exemple classique d'expression est vin rouge. Cette combinaison de mots apparaît plus fréquemment que par exemple vin bleu, qui n'est donc pas expression. En effet, même si la fréquence individuelle des mots bleu et rouge est similaire, l'expression vin bleu a beaucoup moins de chance d'apparaître dans un texte que vin rouge.
Le tableau ci-dessous détaille les expressions détectées. Ces résultats font aussi appraître des combinaisons qui ne sont pas réellement des expressions idiomatiques mais des expressions liées à l'actualité (racisme anti-blanc, cure de sébum, les gilets jaunes, un poisson d'avril), aux séries télé (casa de papel, dans koh-lanta) ou au sport (ligue des champions). ∎
Nombre de mot | Expression | Indice | Fréquence |
---|---|---|---|
3 | men are trash | 28.6 | 0.0014 % |
3 | in sha allah | 27.5 | 0.0005 % |
3 | racisme anti blanc | 23.9 | 0.0009 % |
3 | cure de sébum | 20.7 | 0.0010 % |
3 | les gilets jaunes | 20.7 | 0.0006 % |
3 | chacun ses goûts | 20.6 | 0.0011 % |
3 | casa de papel | 19.9 | 0.0028 % |
3 | du second degré | 19.9 | 0.0007 % |
3 | ligue des champions | 19.7 | 0.0009 % |
3 | claqué au sol | 19.6 | 0.0007 % |
3 | j'en ai marre | 19.4 | 0.0046 % |
3 | un poisson d'avril | 19.4 | 0.0009 % |
3 | 4h du mat | 19.3 | 0.0005 % |
3 | 3h du mat | 19.2 | 0.0007 % |
3 | en roue libre | 19.2 | 0.0008 % |
3 | s'il te plaît | 19.1 | 0.0007 % |
3 | je m'y attendais | 19.0 | 0.0010 % |
3 | peter un câble | 18.8 | 0.0006 % |
3 | ferme ta gueule | 18.8 | 0.0019 % |
3 | dans koh lanta | 18.6 | 0.0006 % |
3 | boule à z | 18.6 | 0.0008 % |
3 | bout d'un moment | 18.6 | 0.0024 % |
3 | boule a z | 18.5 | 0.0007 % |
3 | j'y ai pensé | 18.4 | 0.0007 % |
3 | éclaté au sol | 18.4 | 0.0006 % |
3 | ma meilleure amie | 18.3 | 0.0009 % |
3 | trou du cul | 18.2 | 0.0017 % |
3 | les réseaux sociaux | 18.2 | 0.0012 % |
3 | m'y attendais pas | 18.2 | 0.0006 % |
3 | n'a aucun sens | 18.2 | 0.0017 % |