Browse Source

ajout quelques paragraphes au rapport

master
FRANCOIS PELLETIER 9 months ago
parent
commit
0d3164a8c9
4 changed files with 2527 additions and 117 deletions
  1. +2418
    -66
      Analyse_Articles.ipynb
  2. +25
    -0
      NLP-TP3.bib
  3. +13
    -10
      commentaires_reseaux_sociaux.mm
  4. +71
    -41
      rapport.md

+ 2418
- 66
Analyse_Articles.ipynb
File diff suppressed because it is too large
View File


+ 25
- 0
NLP-TP3.bib View File

@@ -79,4 +79,29 @@
editor = {Litosseliti, Lia},
year = {2010},
pages = {117--137}
}

@article{robb_how_2014,
title = {How {Capital} {Letters} {Became} {Internet} {Code} for {Yelling}},
url = {https://newrepublic.com/article/117390/netiquette-capitalization-how-caps-became-code-yelling},
urldate = {2019-12-21},
journal = {The New Republic},
author = {Robb, Alice},
month = apr,
year = {2014}
}

@inproceedings{bird_nltk:_2002,
title = {Nltk: {The} natural language toolkit},
booktitle = {In {Proceedings} of the {ACL} {Workshop} on {Effective} {Tools} and {Methodologies} for {Teaching} {Natural} {Language} {Processing} and {Computational} {Linguistics}. {Philadelphia}: {Association} for {Computational} {Linguistics}},
author = {Bird, Steven},
year = {2002}
}

@book{zeman_universal_2019,
title = {Universal {Dependencies} 2.5},
copyright = {Licence Universal Dependencies v2.5},
url = {http://hdl.handle.net/11234/1-3105},
author = {Collective},
year = {2019}
}

+ 13
- 10
commentaires_reseaux_sociaux.mm View File

@@ -2,7 +2,7 @@
<!--To view this file, download free mind mapping software Freeplane from http://freeplane.sourceforge.net -->
<node TEXT="Commentaires sur les r&#xe9;seaux sociaux" FOLDED="false" ID="ID_1075161201" CREATED="1573954855044" MODIFIED="1573954867944" STYLE="oval">
<font SIZE="18"/>
<hook NAME="MapStyle">
<hook NAME="MapStyle" zoom="0.684">
<properties edgeColorConfiguration="#808080ff,#ff0000ff,#0000ffff,#00ff00ff,#ff00ffff,#00ffffff,#7c0000ff,#00007cff,#007c00ff,#7c007cff,#007c7cff,#7c7c00ff" fit_to_viewport="false"/>

<map_styles>
@@ -63,7 +63,7 @@
</stylenode>
</map_styles>
</hook>
<hook NAME="AutomaticEdgeColor" COUNTER="7" RULE="ON_BRANCH_CREATION"/>
<hook NAME="AutomaticEdgeColor" COUNTER="8" RULE="ON_BRANCH_CREATION"/>
<node TEXT="Schultes" POSITION="left" ID="ID_1889975585" CREATED="1573955304008" MODIFIED="1573955306512">
<edge COLOR="#00ff00"/>
<node TEXT="Classification Youtube" ID="ID_960774191" CREATED="1573954869370" MODIFIED="1573955309655">
@@ -214,19 +214,19 @@
<node TEXT="Vid&#xe9;os" ID="ID_421888374" CREATED="1576433246259" MODIFIED="1576433247808"/>
</node>
</node>
<node TEXT="Localisation" FOLDED="true" ID="ID_206247466" CREATED="1576433752181" MODIFIED="1576433841871">
<node TEXT="Textualisation" FOLDED="true" ID="ID_1774810454" CREATED="1576433842212" MODIFIED="1576433850744">
<node TEXT="Localisation" ID="ID_206247466" CREATED="1576433752181" MODIFIED="1576558033924">
<node TEXT="Textualisation" ID="ID_1774810454" CREATED="1576433842212" MODIFIED="1576433850744">
<node TEXT="&#xc9;l&#xe9;ment culturel" ID="ID_726017284" CREATED="1576433850747" MODIFIED="1576433859642"/>
</node>
<node TEXT="M&#xe9;tonymie" FOLDED="true" ID="ID_1450191917" CREATED="1576433862048" MODIFIED="1576433910984">
<node TEXT="M&#xe9;tonymie" ID="ID_1450191917" CREATED="1576433862048" MODIFIED="1576433910984">
<node TEXT="Inclus la localisation, mais dans un autre type lexical" ID="ID_1282192414" CREATED="1576433915495" MODIFIED="1576433947584"/>
</node>
<node TEXT="Personnification" ID="ID_1888056104" CREATED="1576433968022" MODIFIED="1576433972282"/>
<node TEXT="Personnification" ID="ID_1888056104" CREATED="1576433968022" MODIFIED="1576558033923"/>
<node TEXT="S&#xe9;miotique transgressive" ID="ID_508849276" CREATED="1576434327152" MODIFIED="1576434342653">
<node TEXT="Signes qui ne vont pas ensemble, dans un m&#xea;me discours. Pour marquer l&apos;opposition implicite" ID="ID_1864195644" CREATED="1576434347915" MODIFIED="1576434379898"/>
</node>
</node>
<node TEXT="Temps" FOLDED="true" ID="ID_1259089697" CREATED="1576436972135" MODIFIED="1576436974049">
<node TEXT="Temps" ID="ID_1259089697" CREATED="1576436972135" MODIFIED="1576436974049">
<node TEXT="Temporalit&#xe9;" ID="ID_935107929" CREATED="1576436975051" MODIFIED="1576436979169"/>
<node TEXT="Notion de maintenant" ID="ID_63573093" CREATED="1576436979945" MODIFIED="1576436985093"/>
<node TEXT="Cycles" ID="ID_1458339480" CREATED="1576437010439" MODIFIED="1576437014557"/>
@@ -234,14 +234,14 @@
<node TEXT="Pass&#xe9; et futur" ID="ID_1383560062" CREATED="1576437051190" MODIFIED="1576437056318"/>
<node TEXT="&#xc2;ge, anniversaires" ID="ID_1886330627" CREATED="1576437056834" MODIFIED="1576437061864"/>
</node>
<node TEXT="&#xc9;ducation et expertise" FOLDED="true" ID="ID_869848700" CREATED="1576437570827" MODIFIED="1576437579348">
<node TEXT="&#xc9;ducation et expertise" ID="ID_869848700" CREATED="1576437570827" MODIFIED="1576437579348">
<node TEXT="Montrer son expertise" ID="ID_1657747338" CREATED="1576437580284" MODIFIED="1576437611763"/>
<node TEXT="Se r&#xe9;clamer le droit de mener la discussion (entitlement)" ID="ID_1490384821" CREATED="1576437612334" MODIFIED="1576437625926"/>
<node TEXT="Montrer ses r&#xe9;ussites acad&#xe9;miques" ID="ID_1508946328" CREATED="1576437628508" MODIFIED="1576437637956"/>
<node TEXT="R&#xe9;f&#xe9;rences, imp&#xe9;ratifs, pr&#xe9;supposition, souhaits" ID="ID_718153801" CREATED="1576437668961" MODIFIED="1576437681186"/>
</node>
<node TEXT="Position" ID="ID_727200733" CREATED="1576438549864" MODIFIED="1576438559654">
<node TEXT="Expression" FOLDED="true" ID="ID_986508069" CREATED="1576438633543" MODIFIED="1576438637443">
<node TEXT="Expression" ID="ID_986508069" CREATED="1576438633543" MODIFIED="1576438637443">
<node TEXT="Attitude" ID="ID_274391283" CREATED="1576438566378" MODIFIED="1576438593868"/>
<node TEXT="&#xc9;motion" ID="ID_920344361" CREATED="1576438594326" MODIFIED="1576438596613"/>
<node TEXT="Croyance" ID="ID_592625157" CREATED="1576438596770" MODIFIED="1576438599820"/>
@@ -259,7 +259,7 @@
</node>
<node TEXT="Liebeskind - Comment relevance" POSITION="right" ID="ID_459551622" CREATED="1576549993953" MODIFIED="1576550001728">
<edge COLOR="#00007c"/>
<node TEXT="Attributs linguistiques" FOLDED="true" ID="ID_1357799857" CREATED="1576550002709" MODIFIED="1576550036378">
<node TEXT="Attributs linguistiques" ID="ID_1357799857" CREATED="1576550002709" MODIFIED="1576550036378">
<node TEXT="Abbreviations" ID="ID_1817531479" CREATED="1576550015732" MODIFIED="1576550021276"/>
<node TEXT="Emojis" ID="ID_1973703164" CREATED="1576550021670" MODIFIED="1576550023922"/>
<node TEXT="Onomatop&#xe9;es" ID="ID_360315962" CREATED="1576550024857" MODIFIED="1576550028567"/>
@@ -295,5 +295,8 @@
<node TEXT="R&#xe9;f&#xe9;rence au m&#xe9;dia publi&#xe9;" ID="ID_375827810" CREATED="1576550925702" MODIFIED="1576550934220"/>
</node>
</node>
<node TEXT="" POSITION="left" ID="ID_297819593" CREATED="1576557881822" MODIFIED="1576557881827">
<edge COLOR="#007c00"/>
</node>
</node>
</map>

+ 71
- 41
rapport.md View File

@@ -19,91 +19,121 @@ csl: transactions-on-speech-and-language-processing.csl

# Introduction

# Description des corpus de textes

Nous analyserons les articles provenant des pages Facebook de trois médias écrits francophones: Le Figaro (France), Radio-Canada (Canada) et TVA Nouvelles (Canada). Pour chacun de ces médias, nous avons respectivement 25, 22 et 24 publications contenant un lien vers un article journalistique.

Le premier corpus étudié est constitué du texte de chacun des articles qui sont liés dans les publications (l'utilisateur de Facebook devant cliquer sur le lien pour y accéder). Le titre de l'article n'est pas inclus dans ce corpus.

Le second corpus est constitué d'un ensemble de commentaires publiés par des utilisateurs du réseau social et associés à chacune des publications précédentes. Il y a respectivement 7155, 2947 et 6262 commentaires pour chacun des trois médias écrits.

Ces deux corpus ont été créées à l'aide des données de commentaires extraites depuis l'application en ligne exportcomments.com @noauthor_exportcomments.com_2019 dans des fichiers XLSX. Les fichiers ont par la suite été utilisés par les programmes Python suivants:

- `commentaires.ipynb` pour extraire les commentaires depuis les fichiers téléchargés à l'aide de Pandas @mckinney_data_2010.
- `textes_articles.ipynb` pour extraire les textes depuis les URL disponibles dans les fichiers, par récupération de données (*web scraping*), en utilisant la librairie Python `newspaper` @ou-yang_newspaper3k:_2019.

\pagebreak

# Attributs linguistiques des commentaires sur les réseaux sociaux

Les commentaires extraits constituent une nouvelle forme de discours, complètement différent des textes formatés et normalisés provenant du domaine journalistique. Il est donc nécessaire de s'y attarder plus longuement avant de poursuivre nos analyse.
Les commentaires extraits des fils de discussions sur des publications Facebook constituent une nouvelle forme de discours, complètement différent des textes formatés et normalisés provenant du domaine journalistique. Il est donc nécessaire de s'y attarder en détail afin de réaliser des analyses pertinences.

## Analyse du discours

Selon Baxter [@baxter_discourse-analytic_2010], l'analyse du discours, qui est principalement dérivée de la sociologie, se découpe en quatre composantes principales (p.11):
Selon Baxter [@baxter_discourse-analytic_2010], l'analyse du discours, qui est principalement dérivée de la sociologie, se découpe en quatre composantes principales (p.11) :

- La variabilité du langage (adaptation à l'audience et au contexte)
- La nature du langage (descriptif, narratif, expressif ou humoristique)
- Le répertoire (vocabulaire, grammaire, figures de style)
- Approches macro et micro-analytiques (contextes sociopolitique et psychologie)
- Approche macro et microanalytiques (contextes sociopolitiques et psychologiques)

Comme le sens propre de chacun des commentaires est influencé par ces éléments, il sera pertinent de pouvoir les représenter sous forme d'attributs dans un modèle de classification de la pertinence par rapport à l'article en référence. Sinon, le modèle pourrait être biaisé, par exemple, en favorisant les commentaires qui ont un vocabulaire soutenu, davantage descriptifs et sur un ton professionnel, c'est-à-dire similaire au style journalistique. Toutefois, ce dernier pourrait ne pas être davantage en lien avec le contenu de l'article qu'un commentaire humoristique avec un niveau grammatical faible.
**Observations**: Comme le sens propre de chacun des commentaires est influencé par ces éléments, il sera pertinent de pouvoir les représenter sous forme d'attributs dans un modèle de classification de la pertinence par rapport à l'article en référence. Sinon, le modèle pourrait être biaisé, par exemple, en favorisant les commentaires qui ont un vocabulaire soutenu, davantage descriptif et sur un ton professionnel, c'est-à-dire similaire au style journalistique. Toutefois, ce dernier pourrait ne pas être davantage en lien avec le contenu de l'article qu'un commentaire humoristique avec un niveau grammatical faible.

## Sémiotique
## Mécanismes d'emphase

Selon Liebeskind [@liebeskind_comment_2018], les commentaires sur les réseaux sociaux présentent de nouvelles caractéristiques sémiotiques et linguistiques. En fait, on parle ici de sémiotique, car le discours n'est plus seulement signifié par des mots, mais aussi par des abbréviations, des émojis, des onomatopées, des répétitions de caractères (en particulier la ponctuation). On ajoute une dimension linguistique, car en plus d'un jargon spécifique à ce type de communication, les commentaires sont souvent écrits dans un niveau de langage passant du soutenu au vulgaire dans le même fil de conversation.
Selon Liebeskind [@liebeskind_comment_2018], les commentaires sur les réseaux sociaux présentent de nouvelles caractéristiques sémiotiques et linguistiques. En fait, on parle ici de sémiotique, car le discours n'est plus seulement signifié par des mots, mais aussi par des abréviations, des émojis, des onomatopées, des répétitions de caractères (en particulier la ponctuation). On ajoute une dimension linguistique, car en plus d'un jargon spécifique à ce type de communication, les commentaires sont souvent écrits dans un niveau de langage passant du soutenu au vulgaire dans le même fil de conversation. Ces différents comportements peuvent être rassemblés sous la dénomination de mécanismes d'emphase.

### Emojis et interjections
### Émojis et interjections

Les émojis et les interjections sont une composante essentielle des commentaires retrouvés sur les réseaux sociaux. Plus d'un commentaire sur huit contient un émoji.

Halté [@halte_les_2018] a étudié en détail le rôle des émoticones (tels que `:-)`) et des interjections (tels que le fameux *lol*), ainsi que leur normalisation inspirée des caractères japonais nommés pour l'occasion `emojis` (néologisme qui relie l'anglais *emotion* et la racine japonaise *-ji* représentant la notion de symbole). Il précise d'ailleurs que des tests de substitution ou de suppression permettent d'identifier le rôle modalisateur de ces expression (une sorte de multiplicateur de la polarité ou valence du texte). La portée d'une émoticone, tout comme la portée d'une négation, peut être déterminée en effectuant une analyse syntaxique par relations ou par constituants. Mais, règle générale, l'auteur remarque que la portée s'étend toujours sur les éléments qui précèdent l'émoticone, ce qui peut parfois limiter la recherche des fragments de la phrase qui en sont affectés (lorsqu'ils ne sont pas à la fin du commentaire).
Halté [@halte_les_2018] a étudié en détail le rôle des émoticônes (tels que `:-)`) et des interjections (tels que le fameux *lol*), ainsi que leur normalisation inspirée des caractères japonais nommés pour l'occasion `émojis` (néologisme qui relie l'anglais *emotion* et la racine japonaise *-ji* représentant la notion de symbole). Il précise d'ailleurs que des tests de substitution ou de suppression permettent d'identifier le rôle modalisateur de ces expressions (une sorte de multiplicateur de la polarité ou valence du texte).

### Majuscules et répétitions
**Observations**: La portée d'une émoticône, tout comme la portée d'une négation, peut être déterminée en effectuant une analyse syntaxique par relations ou par constituants. Mais, règle générale, l'auteur remarque que la portée s'étend toujours sur les éléments qui précèdent l'émoticône, ce qui peut parfois limiter la recherche des fragments de la phrase qui en sont affectés (lorsqu'ils ne sont pas à la fin du commentaire).

Georgalou [@georgalou_discourse_2017]
### Majuscules, emphases et répétitions

Les commentaires sur les réseaux sociaux laissent aussi apparaître de nouveaux modes d'expressions basés sur la typographie. L'utilisation de majuscules est intuitive pour l'ajout d'emphase depuis des millénaires, selon le professeur Paul Luna [@robb_how_2014], et était utilisée par les empereurs romains pour illustrer la grandeur de leurs conquêtes. Cependant, leur usage moderne est davantage considéré comme l'expression de la colère. L'ajout d'astérique est aussi un marqueur d'emphase, principalement utilisé dans les groupes de discussion en ligne, et se substitue aux caractères gras ou soulignés disponibles dans les traitements de texte. Plusieurs des auteurs cités dans ce rapport [@georgalou_discourse_2017], [@halte_les_2018], [@liebeskind_comment_2018] notent aussi la présence fréquente de successions de plusieurs signes de ponctuation ou de la même lettre dans un mot comme un moyen additionnel de mettre de l'emphase. Notons que le TweetTokenizer de NLTK [@bird_nltk:_2002] compte même un paramètre pour limiter le nombre de successions d'un même jeton.

### Ponctuations

### Impact sur la classification des parties du discours

La présence de ces nouveaux attributs fait de sorte qu'il ne sera plus possible d'utiliser avec autant de fiabilité les classificateurs de parties du discours (*part of speech*) aussi efficacement, car ils n'ont pas été conçus pour tenir compte de la présence de ces nouveaux éléments dans les phrases. Une approche retenue dans cette analyse pour augmenter la qualité de l'étiquetage est de séparer les émojis du contenu des phrases et de les considérer séparément, tout en conservant un marqueur de leur position dans les phrases. Comme des modèles ne tiennent généralement pas compte de la casse ni de la présence de ponctuation à l'extérieur de la phrase, il n'est pas nécessaire d'apporter d'autres modifications ici.
Ces nouveaux attributs font de sorte qu'il ne sera plus possible d'utiliser avec autant de fiabilité les classificateurs de parties du discours (*part of speech*) aussi efficacement, car ils n'ont pas été conçus pour tenir compte de la présence de ces nouveaux éléments dans les phrases. Une approche retenue dans cette analyse pour augmenter la qualité de l'étiquetage est de séparer les émojis du contenu des phrases et de les considérer séparément, tout en conservant un marqueur de leur position dans les phrases. Comme des modèles ne tiennent généralement pas compte de la casse ni de la présence de ponctuation à l'extérieur de la phrase, il n'est pas nécessaire d'apporter d'autres modifications ici.

## Qualité des commentaires

### Syntaxique
Schultes, Dorner et Lehner [@schultes_leave_2013] ont étudié les commentaires sur la plateforme de partage de vidéos Youtube. Le principal objectif était de classifier les commentaires selon différentes catégories de vidéos, en tenant compte à la fois des types de commentaires et de leur qualité. Les principaux constats de leurs travaux sont que les commentaires sont généralement mal perçus par les utilisateurs du site web, étant perçus comme agressifs, stupides et non-pertinents par près de la moitié des utilisateurs. Environ un utilisateur sur huit serait enclin à laisser des commentaires, alors que plus de la moitié ne liraient que les premiers commentaires.

### Lexicale
Les types de commentaires correspondent à leur rôle: participer à une discussion, décrire son expérience de façon substantielle constitue un commentaire de qualité supérieure ou au contraire, un commentaire avec une forte charge sentimentale serait de qualité inférieure. Pour mesurer la qualité, ils ont utilisé l'outil SentiStrength, un outil d'analyse de sentiment spécialisé dans les commentaires de réseaux sociaux, ainsi qu'une liste de marqueurs émotionnels. Pour mesurer la pertinence, ils ont mesuré l'appariement de mots-clés dans le commentaire avec le titre du vidéo. Enfin, selon cette étude, l'ensemble des commentaires effectués sur un vidéo permettraient en soi de fournir une description adéquate du vidéo.

\pagebreak
**Observations**: On pourrait donc déduire, depuis ces travaux, que la pertinence d'un commentaire pourrait être mesurée par la contribution d'un commentaire individuel à cette représentation collective. Une hypothèse à valider serait de voir s'il est possible d'avoir cette même représentation du contenu d'articles journalistiques à travers l'ensemble des commentaires qui leurs sont associés.

# Entités nommées

## Lieu

Georgalou [@georgalou_discourse_2017] décrit différentes approches pour identifier les marqueurs de localisation dans les commentaires sur Facebook, dans un rapport à l'identité de l'utilisateur. Tout d'abord, il y a l'usage de toponymes et d'anthroponymes (en particulier les gentilés). La localisation peut aussi être liée à un élément culturel (site touristique, régime alimentaire, évènement), à une personnification (nationalité, appartenance ou personnalités politiques) ou à une relativisation (par des adverbes ou adjectifs démonstratifs).

# Entités et parties du discours
**Observations**: Il sera essentiel de pouvoir ramener ces différents marqueurs de localisation à une forme normalisée pour en faire l'analyse et la comparaison avec les entités présentes dans le texte de l'article en question. De plus, il sera nécessaire ici de pouvoir utiliser une notion de méronymie ou d'holonymie dans la représentation pour en établir la pertinence. Un index géographique composé de données sémantiques telles que la base de données GeoNames sera très utile pour cette tâche.

## Lieu et temps
## Temps

Toujours selon Georgalou, différents types de marqueurs temporels sont utilisés dans les commentaires. Ces marqueurs peuvent représenter des durées, des moments, des références à des évènements historiques ou culturels, mais souvent aussi une référence relative à l'âge (anniversaire, vieillissement, évènement de vie, une génération ou une cohorte) ou à une expérience vécue par l'utilisateur. Le temps peut aussi être mesuré avec un nombre d'évènements ou tel qu'une commodité ou une monnaie. Certaines formes de ponctuation ou d'interjections peuvent exagérer la portée d'un marqueur temporel. On pourrait aussi ajouter la présence d'émojis représentant des concepts temporels. Tout comme pour les lieux, on peut aussi retrouver des adverbes.

**Observations**: Pour utiliser ces entités mentionnées dans les commentaires dans la mesure de leur pertinence, il sera nécessaire de bien identifier les marqueurs de temps dans l'article, d'extraire les dates des évènements cités et de mesurer les durées entre ces différents instants.

# Prise de parole

## Expertise

## Positionnement
Georgalou démontre aussi l'usage des commentaires sur Facebook pour démontrer une forme d'expertise, étaler son éducation et aussi s'approprier la maîtrise d'un sujet. Le réseau social est utilisé pour projeter une image positive du niveau d'éducation par les utilisateurs. Cette expertise est illustrée par un choix de vocabulaire spécifique au domaine professionnel ou éducatif, par des phrases impératives ou interrogatives, par le jugement du travail des autres (parfois sarcastiques) et par l'ajout de références en lien avec le domaine d'expertise.

\pagebreak
**Observations**: Pour mesurer la pertinence de cette expertise avec le contenu de l'article, il faudra identifier les principaux sujets de celui-ci, puis constater si au moins un d'entre eux correspond à l'expertise prétendue par l'utilisateur.

## Position

La prise de position relie le commentaire aux réalités socio-culturelles traitées dans l'article journalistique. Ces positions sont exprimées par des adjectifs et des adverbes évaluatifs, des verbes affectifs et cognitifs, des modalités, des pronoms génériques, de l'ironie, des questions rhétoriques, des citations et des paroles de chansons ainsi que l'utilisations de mécanismes d'emphase. On notera aussi l'usage de nombreuses images, notamment les *memes*, quoique ce n'est pas le sujet de ce rapport.

**Observations**: On remarque ici que l'on devra utiliser des étiquettes plus détaillés que celles qu'on retrouve notamment dans Universal Dependancies [@zeman_universal_2019] pour identifier les parties du discours impliquées dans la prise de position. Pour ce faire, il sera nécessaire d'utiliser conjointement les parties du discours et une base sémantique telle que WordNet pour augmenter le niveau de détail contenu dans les étiquettes.

# Relations entre les commentaires

## Intertextualité
Halté [@halte_les_2018] caractérise le tchat par l'intermittence entre la discussion synchrone et asynchrone, la forte présence d'indices contextuels, des tours de parole segmentés, des conversations entrelacées, la présence ou l'absence de séparations syntaxiques et le présence de mécanismes d'emphase.

## Interdiscursivité
**Observations**: Toutes ces caractéristiques du tchat, qui peut s'apparenter fortement aux fils de discussion sur les réseaux sociaux, sont ainsi à considérer dans l'étude de la pertinence des commentaire par rapport à un article, car on ne retrouve pas seulement qu'une relation unidirectionnelle entre le commentaire et l'article, mais aussi un ensemble de relations entre les commentaires.

## Multimodalité
## Les types de relations

\pagebreak
Ces types de relations peuvent, en quelque sorte, constituer une mesure qui représente la variable réponse dans un modèle de classification

# Représentation vectorielle
- L'**intertextualité** se définit comme la relation du commentaire avec les commentaires précédents, ainsi qu'avec la publication originale. C'est le concept qui peut être représenté par une mesure de distance entre les commentaires, ainsi qu'entre un commentaire et la publication.
- L'**interdiscursivité** se définir comme l'entrecroisement de différents dialogues indépendants dans un même fil de discussion. Les commentaires peuvent ainsi parfois être associés à la mauvaise discussion et mener à des quidproquo ou à des interprétations humoristiques. Il sera important de pouvoir associer le commentaire au bon fil de discussion pour en mesurer la pertinence. Il s'agit ici d'apposer une étiquette à un commentaire qui indique à quel dialogue il appartient.
- La **multimodalité** se définit comme l'interchangeabilité des différents modes de communication au sein d'une même discussion. C'est l'aspect multimédia des discussions sur les réseaux sociaux, où le texte, les images et les vidéos se succèdent. On pourrait ici mesurer le nombre de changement de modalité du discours dans une même discussion.

\pagebreak
# Modélisation selon les technique d'analyse et traitement du langage naturel

# Classification de la pertinence
## Représentation vectorielle

\pagebreak

## Classification de la pertinence


# Exemple d'application

## Description des corpus de textes

Nous analyserons les articles provenant des pages Facebook de trois médias écrits francophones : Le Figaro (France), Radio-Canada (Canada) et TVA Nouvelles (Canada). Pour chacun de ces médias, nous avons respectivement 25, 22 et 24 publications contenant un lien vers un article journalistique.

Le premier corpus étudié est constitué du texte de chacun des articles qui sont liés dans les publications (l'utilisateur de Facebook devant cliquer sur le lien pour y accéder). Le titre de l'article n'est pas inclus dans ce corpus.

Le second corpus est constitué d'un ensemble de commentaires publiés par des utilisateurs du réseau social et associés à chacune des publications précédentes. Il y a respectivement 7155, 2947 et 6262 commentaires pour chacun des trois médias écrits.

Ces deux corpus ont été créés à l'aide des données de commentaires extraites depuis l'application en ligne exportcomments.com @noauthor_exportcomments.com_2019 dans des fichiers XLSX. Les fichiers ont par la suite été utilisés par les programmes Python suivants :

- `commentaires.ipynb` pour extraire les commentaires depuis les fichiers téléchargés à l'aide de Pandas @mckinney_data_2010.
- `textes_articles.ipynb` pour extraire les textes depuis les URL disponibles dans les fichiers, par récupération de données (*web scraping*), en utilisant la librairie Python `newspaper` @ou-yang_newspaper3k:_2019. Du même coup, cette librairie permet d'extraction d'entités nommées et l'étiquetage des parties du discours.

## Métriques considérées

## Méthodologie et algorithmes

## Quelques résultats

# Conclusion



Loading…
Cancel
Save