Les gens utilisent des forums, des réseaux sociaux, des blogs et d'autres plates-formes pour partager leur opinion, générant ainsi une énorme quantité de Les données . Pendant ce temps, les utilisateurs ou les consommateurs veulent savoir quel produit acheter ou quel film regarder, ils lisent donc également les critiques et essaient de prendre leurs décisions en conséquence.
La collecte manuelle d'informations sur les données générées par l'utilisateur prend du temps. C’est pourquoi de plus en plus d’entreprises et d’organisations s’intéressent aux méthodes d’analyse automatique des sentiments pour aidez-les à comprendre .
L’analyse des sentiments est le processus consistant à étudier les opinions et les émotions des gens, généralement à l’aide d’indices linguistiques. À première vue, ce n’est qu’une classification de texte problème, mais si nous approfondissons, nous découvrirons qu'il existe de nombreux problèmes difficiles qui affectent gravement la précision de l'analyse des sentiments. Ci-dessous, j'explorerai quelques pièges sur lesquels vous êtes confronté à votre travail le problème général de l'analyse des sentiments :
Nous allons passer en revue chaque sujet et essayer de comprendre comment les problèmes décrits affectent la qualité du classificateur de sentiment et quelles technologies peuvent être utilisées pour les résoudre.
Dans un texte sarcastique, les gens expriment leurs sentiments négatifs en utilisant des mots positifs. Ce fait permet au sarcasme de tromper facilement les modèles d'analyse des sentiments à moins qu'ils ne soient spécifiquement conçus pour prendre en compte sa possibilité.
Le sarcasme se produit le plus souvent dans le contenu généré par l'utilisateur tel que les commentaires Facebook, tweets , etc. La détection de sarcasme dans l'analyse des sentiments est très difficile à réaliser sans une bonne compréhension du contexte de la situation, du sujet spécifique et de l'environnement.
Cela peut être difficile à comprendre non seulement pour une machine mais aussi pour un humain. La variation continue des mots utilisés dans les phrases sarcastiques rend difficile la formation réussie des modèles d'analyse des sentiments. Des sujets communs, des intérêts et des informations historiques doivent être partagés entre deux personnes pour rendre le sarcasme disponible.
comment se connecter au metamask depuis un site web
Tout d'abord, examinons le sarcasme du point de vue de linguistique , où le sarcasme est largement étudié. Dans l'une des recherches les plus citées dans ce domaine , l'auteur Elisabeth Camp propose les quatre types de sarcasmes suivants:
La recherche du Camp a été publiée en 2012. En 2017, des chercheurs de l'Université de Stanford ont annoncé leur propre recherche assez intéressante «Avoir 2 heures pour rédiger un article, c'est amusant!»: Détection du sarcasme dans des portions numériques de texte où ils ont parlé d'un autre type de sarcasme appelé sarcasme numérique . Le sarcasme numérique est très fréquent sur les réseaux sociaux. L'idée sous-jacente est liée aux changements de valeurs numériques qui affectent ensuite la polarité du texte. Par exemple:
Comme nous pouvons le voir, ces phrases ne diffèrent que par le nombre utilisé - d'où le sarcasme numérique.
Il existe différentes approches pour la détection automatique du sarcasme, notamment:
Les approches basées sur l'apprentissage profond gagnent en popularité. Kumar, Somani et Bhattacharyya ont conclu en 2017 qu'un modèle d'apprentissage en profondeur particulier (l'architecture CNN-LSTM-FF) surpasse les approches précédentes, atteignant le plus haut niveau de précision pour la détection numérique du sarcasme.
Mais les réseaux de neurones profonds (DNN) n'étaient pas seulement les meilleurs pour le sarcasme numérique - ils ont également surpassé les autres approches de détection de sarcasme en général. Ghosh et Veale dans leur article de 2016 utilisez une combinaison d'un réseau de neurones convolutifs, d'un réseau de mémoire à long terme (LSTM) et d'un DNN. Ils comparent leur approche aux machines vectorielles de support récursives (SVM) et concluent que leur architecture d'apprentissage en profondeur est une amélioration par rapport à de telles approches.
comment obtenir des données twitter
En linguistique, la négation est un moyen d'inverser la polarité des mots, des phrases et même des phrases. Les chercheurs utilisent différentes règles linguistiques pour identifier si la négation se produit, mais il est également important de déterminer la gamme des mots qui sont affectés par les mots de négation.
Il n'y a pas de taille fixe pour la portée des mots concernés. Par exemple, dans la phrase «Le spectacle n'était pas intéressant», la portée n'est que le mot suivant après le mot de négation. Mais pour des phrases comme «Je n'appelle pas ce film un film de comédie», l'effet du mot de négation «pas» est jusqu'à la fin de la phrase. La signification originale des mots change si un mot positif ou négatif tombe dans la portée de la négation - dans ce cas, la polarité opposée sera renvoyée.
L'approche la plus simple pour traiter la négation dans une phrase, qui est utilisée dans la plupart des techniques d'analyse de sentiment de pointe, consiste à marquer comme nié tous les mots d'un signal de négation au jeton de ponctuation suivant. L'efficacité du modèle de négation peut être modifiée en raison de la construction spécifique du langage dans différents contextes.
Il y a plusieurs formes pour exprimer une opinion négative en phrases:
Le fait d'avoir des échantillons avec différents types de négations décrites augmentera la qualité d'un ensemble de données pour la formation et le test des modèles de classification des sentiments dans la négation. Selon les dernières recherches sur les réseaux de neurones récurrents (RNN), divers architectures des modèles LSTM surpassent toutes les autres approches pour détecter les types de négations dans les phrases.
Dans le journal Effet de la négation dans l'analyse des sentiments , un modèle d'analyse des sentiments a évalué 500 avis collectés sur Amazon et Trustedreviews.com. Les auteurs montrent une comparaison des modèles avec et sans détection de négation. Leur évaluation montre comment la prise en compte de la négation peut augmenter considérablement la précision d'un modèle.
tableau croisé dynamique excel 2013
L'ambiguïté des mots est un autre écueil auquel vous serez confronté en travaillant sur un problème d'analyse des sentiments. Le problème de l'ambiguïté des mots est l'impossibilité de définir la polarité à l'avance car la polarité de certains mots dépend fortement du contexte de la phrase.
Les approches d'analyse des sentiments basées sur le lexique sont populaires parmi les méthodes existantes. Un lexique d'opinion contient des mots d'opinion avec leur valeur de polarité. Il existe quelques lexiques d'opinion publique disponibles sur Internet: SentiWordNet, General Inquirer et SenticNet, entre autres. Parce que la polarité des mots varie dans différents domaines, il est impossible de développer un lexique d'opinion universel qui a une polarité pour chaque mot. Par exemple :
Ces deux exemples montrent comment le contexte affecte le sentiment des mots d'opinion. Dans le premier exemple, le mot polarité «imprévisible» est prédit comme positif. Dans le second, la polarité du même mot est négative.
Parfois, une phrase ou un document donné - ou n'importe quelle unité de texte que nous souhaitons analyser - présente une multipolarité. Dans ces cas, le fait de n'avoir que le résultat total de l'analyse peut être trompeur, tout comme la façon dont une moyenne peut parfois cacher des informations précieuses sur tous les chiffres qu'elle contient.
Imaginez quand les auteurs parlent de différentes personnes, produits ou entreprises (ou d'aspects de ceux-ci) dans un article ou une critique. Il est courant que dans un texte, certains sujets soient critiqués et d’autres loués.
différence entre une société ac et une société s
Ici, la polarité totale du sentiment manquera d'informations clés. C'est pourquoi il est nécessaire d'extraire toutes les entités ou aspects de la phrase avec des étiquettes de sentiment affectées et de ne calculer la polarité totale que si nécessaire.
Prenons un exemple qui se compose de plusieurs polarités: 'La qualité audio de mon nouvel ordinateur portable est tellement cool mais les couleurs d'affichage ne sont pas trop bonnes.'
Certains modèles d'analyse des sentiments attribueront une polarité négative ou neutre à cette phrase. Pour faire face à de telles situations, un modèle d'analyse des sentiments doit attribuer une polarité à chaque aspect de la phrase; ici, «audio» est un aspect auquel une polarité est attribuée et «affichage» est un aspect distinct avec une polarité négative.
Pour une description plus approfondie de cette approche, je recommande l'article intéressant et utile Deep Learning pour l'analyse des sentiments basée sur les aspects par Bo Wanf et Min Liu de l'Université de Stanford.
Dans cet article, nous avons parlé des problèmes courants de classification de l'analyse des sentiments: sarcasme, négations, ambiguïté des mots et multipolarité. Connaître chacun de ces éléments vous aidera à éviter d'éventuels problèmes: la prise en compte des situations dont nous avons parlé augmentera considérablement la précision de l'analyse des sentiments dans un modèle de classification. J'espère que vous avez trouvé cet article comme une introduction utile au sujet.
En relation: Tirer le meilleur parti des modèles pré-formésL'analyse des sentiments est le processus consistant à étudier les opinions et les émotions des gens.
Les gens utilisent des forums, des réseaux sociaux, des blogs et d'autres plates-formes pour partager leur opinion, générant ainsi une énorme quantité de données. Les entreprises et les organisations souhaitent analyser automatiquement ces données générées par les utilisateurs afin d'en savoir plus efficacement à grande échelle.
Une phrase subjective exprime des sentiments, des opinions ou des croyances personnels.
Un lexique contient des mots d'opinion avec leur valeur de polarité. Les modèles d'analyse des sentiments basés sur le lexique résument les valeurs de polarité pour les mots du lexique qui apparaissent dans une phrase et définissent le sentiment en fonction du score de polarité totale.
quel genre de langue est c
La classification des sentiments est un processus de détection automatique de la polarité d'une phrase. La plupart du temps, il existe trois sorties possibles utilisées dans la classification des sentiments: positive, neutre ou négative.