You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
 
 
 
 
 
 

6.3 KiB

title subtitle author date output documentclass fontsize geometry bibliography csl
IFT7022 - TP 3 - Commentaires Facebook en lien avec la presse écrite. Revue de littérature et quantification de la pertinence. François Pelletier 16 décembre 2019 [{pdf_document [{citation_package natbib} {number_sections true} {toc true}]}] article 11pt margin=1in NLP-TP3.bib transactions-on-speech-and-language-processing.csl

\pagebreak

Introduction

Description des corpus de textes

Nous analyserons les articles provenant des pages Facebook de trois médias écrits francophones: Le Figaro (France), Radio-Canada (Canada) et TVA Nouvelles (Canada). Pour chacun de ces médias, nous avons respectivement 25, 22 et 24 publications contenant un lien vers un article journalistique.

Le premier corpus étudié est constitué du texte de chacun des articles qui sont liés dans les publications (l'utilisateur de Facebook devant cliquer sur le lien pour y accéder). Le titre de l'article n'est pas inclus dans ce corpus.

Le second corpus est constitué d'un ensemble de commentaires publiés par des utilisateurs du réseau social et associés à chacune des publications précédentes. Il y a respectivement 7155, 2947 et 6262 commentaires pour chacun des trois médias écrits.

Ces deux corpus ont été créées à l'aide des données de commentaires extraites depuis l'application en ligne exportcomments.com @noauthor_exportcomments.com_2019 dans des fichiers XLSX. Les fichiers ont par la suite été utilisés par les programmes Python suivants:

  • commentaires.ipynb pour extraire les commentaires depuis les fichiers téléchargés à l'aide de Pandas @mckinney_data_2010.
  • textes_articles.ipynb pour extraire les textes depuis les URL disponibles dans les fichiers, par récupération de données (web scraping), en utilisant la librairie Python newspaper @ou-yang_newspaper3k:_2019.

\pagebreak

Attributs linguistiques des commentaires sur les réseaux sociaux

Les commentaires extraits constituent une nouvelle forme de discours, complètement différent des textes formatés et normalisés provenant du domaine journalistique. Il est donc nécessaire de s'y attarder plus longuement avant de poursuivre nos analyse.

Analyse du discours

Selon Baxter [@baxter_discourse-analytic_2010], l'analyse du discours, qui est principalement dérivée de la sociologie, se découpe en quatre composantes principales (p.11):

  • La variabilité du langage (adaptation à l'audience et au contexte)
  • La nature du langage (descriptif, narratif, expressif ou humoristique)
  • Le répertoire (vocabulaire, grammaire, figures de style)
  • Approches macro et micro-analytiques (contextes sociopolitique et psychologie)

Comme le sens propre de chacun des commentaires est influencé par ces éléments, il sera pertinent de pouvoir les représenter sous forme d'attributs dans un modèle de classification de la pertinence par rapport à l'article en référence. Sinon, le modèle pourrait être biaisé, par exemple, en favorisant les commentaires qui ont un vocabulaire soutenu, davantage descriptifs et sur un ton professionnel, c'est-à-dire similaire au style journalistique. Toutefois, ce dernier pourrait ne pas être davantage en lien avec le contenu de l'article qu'un commentaire humoristique avec un niveau grammatical faible.

Sémiotique

Selon Liebeskind [@liebeskind_comment_2018], les commentaires sur les réseaux sociaux présentent de nouvelles caractéristiques sémiotiques et linguistiques. En fait, on parle ici de sémiotique, car le discours n'est plus seulement signifié par des mots, mais aussi par des abbréviations, des émojis, des onomatopées, des répétitions de caractères (en particulier la ponctuation). On ajoute une dimension linguistique, car en plus d'un jargon spécifique à ce type de communication, les commentaires sont souvent écrits dans un niveau de langage passant du soutenu au vulgaire dans le même fil de conversation.

Emojis et interjections

Les émojis et les interjections sont une composante essentielle des commentaires retrouvés sur les réseaux sociaux. Plus d'un commentaire sur huit contient un émoji.

Halté [@halte_les_2018] a étudié en détail le rôle des émoticones (tels que :-)) et des interjections (tels que le fameux lol), ainsi que leur normalisation inspirée des caractères japonais nommés pour l'occasion emojis (néologisme qui relie l'anglais emotion et la racine japonaise -ji représentant la notion de symbole). Il précise d'ailleurs que des tests de substitution ou de suppression permettent d'identifier le rôle modalisateur de ces expression (une sorte de multiplicateur de la polarité ou valence du texte). La portée d'une émoticone, tout comme la portée d'une négation, peut être déterminée en effectuant une analyse syntaxique par relations ou par constituants. Mais, règle générale, l'auteur remarque que la portée s'étend toujours sur les éléments qui précèdent l'émoticone, ce qui peut parfois limiter la recherche des fragments de la phrase qui en sont affectés (lorsqu'ils ne sont pas à la fin du commentaire).

Majuscules et répétitions

Georgalou [@georgalou_discourse_2017]

Ponctuations

Impact sur la classification des parties du discours

La présence de ces nouveaux attributs fait de sorte qu'il ne sera plus possible d'utiliser avec autant de fiabilité les classificateurs de parties du discours (part of speech) aussi efficacement, car ils n'ont pas été conçus pour tenir compte de la présence de ces nouveaux éléments dans les phrases. Une approche retenue dans cette analyse pour augmenter la qualité de l'étiquetage est de séparer les émojis du contenu des phrases et de les considérer séparément, tout en conservant un marqueur de leur position dans les phrases. Comme des modèles ne tiennent généralement pas compte de la casse ni de la présence de ponctuation à l'extérieur de la phrase, il n'est pas nécessaire d'apporter d'autres modifications ici.

Qualité des commentaires

Syntaxique

Lexicale

\pagebreak

Entités et parties du discours

Lieu et temps

Expertise

Positionnement

\pagebreak

Relations entre les commentaires

Intertextualité

Interdiscursivité

Multimodalité

\pagebreak

Représentation vectorielle

\pagebreak

Classification de la pertinence

\pagebreak

Conclusion

\pagebreak

Références