portaldacalheta.pt
  • Principal
  • La Technologie
  • Personnes Et Équipes
  • Gestion De Projet
  • Équipes Distribuées
Science Des Données Et Bases De Données

Exploration de données Twitter: un guide pour l'analyse de Big Data à l'aide de Python



Big Data est partout. Période. Dans le cadre de la gestion d’une entreprise prospère à l’âge d’aujourd’hui, vous allez probablement la rencontrer, que cela vous plaise ou non.

Que vous soyez un homme d'affaires essayant de rattraper son retard ou un prodige du codage à la recherche de son prochain projet, ce tutoriel vous donnera un bref aperçu de ce qu'est le Big Data. Vous apprendrez comment cela s'applique à vous et comment vous pouvez démarrer rapidement grâce à l'API Twitter et Python.



Serpent Python lisant Twitter



Qu'est-ce que le Big Data?

Big Data est exactement ce à quoi cela ressemble - beaucoup de données. Seul, un seul point de données ne peut pas vous donner beaucoup d'informations. Mais des téraoctets de données, associés à des modèles mathématiques complexes et à une puissance de calcul turbulente, peuvent créer des informations que les êtres humains ne sont pas capables de produire. La valeur que le Big Data Analytics apporte à une entreprise est intangible et dépasse les capacités humaines chaque jour.



La première étape de l'analyse du Big Data consiste à collecter les données elles-mêmes. Ceci est connu sous le nom de «data mining». Les données peuvent provenir de n'importe où. La plupart des entreprises gèrent des gigaoctets de données sur les utilisateurs, les produits et la localisation. Dans ce didacticiel, nous allons explorer comment nous pouvons utiliser les techniques d'exploration de données pour collecter des données Twitter, ce qui peut être plus utile que vous ne le pensez.

Par exemple, supposons que vous exécutiez Facebook et que vous souhaitiez utiliser les données de Messenger pour fournir des informations sur la manière dont vous pouvez mieux faire de la publicité auprès de votre public. Messenger a 1,2 milliard utilisateurs actifs mensuels . Dans ce cas, les big data sont des conversations entre utilisateurs. Si vous lisiez individuellement les conversations de chaque utilisateur, vous seriez en mesure d'avoir une bonne idée de ce qu'ils aiment et de leur recommander des produits en conséquence. Utilisation d'une technique d'apprentissage automatique appelée Traitement du langage naturel (NLP), vous pouvez le faire à grande échelle avec l'ensemble du processus automatisé et laissé aux machines.



quel type de llc ai-je

Il ne s'agit là que de l'un des innombrables exemples de la manière dont l'apprentissage automatique et l'analyse de données volumineuses peuvent ajouter de la valeur à votre entreprise.

Pourquoi les données Twitter?

Twitter est une mine d'or de données. Contrairement aux autres plates-formes sociales, presque tous les tweets des utilisateurs sont entièrement publics et extractibles. C'est un énorme avantage si vous essayez d'obtenir une grande quantité de données sur lesquelles exécuter des analyses. Les données Twitter sont également assez spécifiques. L'API de Twitter vous permet d'effectuer des requêtes complexes, comme extraire chaque tweet sur un certain sujet au cours des vingt dernières minutes, ou extraire les tweets non retweetés d'un certain utilisateur.



Une simple application de ceci pourrait être d'analyser la manière dont votre entreprise est reçue par le grand public. Vous pouvez collecter les 2000 derniers tweets qui mentionnent votre entreprise (ou tout terme de votre choix) et exécuter un algorithme d'analyse des sentiments dessus.

Nous pouvons également cibler les utilisateurs qui vivent spécifiquement dans un certain emplacement, appelé données spatiales. Une autre application de ceci pourrait être de cartographier les zones du globe où votre entreprise a été le plus mentionnée.



Comme vous pouvez le voir, les données Twitter peuvent être une grande porte d'entrée aperçus du grand public , et comment ils reçoivent un sujet. Cela, combiné à l'ouverture et à la limitation généreuse du débit de l'API de Twitter, peut produire des résultats puissants.

Aperçu des outils

Nous utiliserons Python 2.7 pour ces exemples. Idéalement, vous devriez avoir un IDE pour écrire ce code. J'utiliserai PyCharm - Édition communautaire .



Pour nous connecter à l'API de Twitter, nous utiliserons une bibliothèque Python appelée Tweepy , que nous installerons dans quelques instants.

Commencer

Compte de développeur Twitter

Pour utiliser l'API de Twitter, nous devons créer un compte développeur sur le Site d'applications Twitter .



  1. Connectez-vous ou créez un compte Twitter sur https://apps.twitter.com/ .
  2. Créer une nouvelle application (bouton en haut à droite) Contenu du Tweet et liens sur le terminal
  3. Remplissez la page de création d'application avec un unique nom, un nom de site Web (utilisez un site Web réservé si vous n'en avez pas) et une description du projet. Acceptez les termes et conditions et passez à la page suivante. Tweet que le premier lien de la photo précédente lié à
  4. Une fois votre projet créé, cliquez sur l'onglet «Clés et jetons d'accès». Vous devriez maintenant pouvoir voir votre secret client et votre clé client. Certains des attributs renvoyés par l
  5. Vous aurez également besoin d'une paire de jetons d'accès. Faites défiler vers le bas et demandez ces jetons. La page devrait s'actualiser et vous devriez maintenant avoir un jeton d'accès et un secret de jeton d'accès. Attributs utilisateur renvoyés par l

Nous aurons besoin de tous ces éléments plus tard, alors assurez-vous de garder cet onglet ouvert.

Installation de Tweepy

Tweepy est un outil parfaitement pris en charge pour accéder à l'API Twitter. Il prend en charge Python 2.6, 2.7, 3.3, 3.4, 3.5 et 3.6. Il existe plusieurs façons d'installer Tweepy. Le moyen le plus simple est d'utiliser pip.

Utiliser Pip

Tapez simplement pip install tweepy dans votre terminal.

Utiliser GitHub

Vous pouvez suivre les instructions sur Dépôt GitHub de Tweepy . Les étapes de base sont les suivantes:

git clone https://github.com/tweepy/tweepy.git cd tweepy python setup.py install

Vous pouvez également y résoudre les problèmes d'installation.

Authentification

Maintenant que nous avons les outils nécessaires prêts, nous pouvons commencer à coder! La ligne de base de chaque application que nous allons créer aujourd'hui nécessite l'utilisation de Tweepy pour créer un objet API avec lequel nous pouvons appeler des fonctions. Cependant, pour créer l'objet API, nous devons d'abord nous authentifier avec nos informations de développeur.

Tout d'abord, importons Tweepy et ajoutons nos propres informations d'authentification.

import tweepy consumer_key = 'wXXXXXXXXXXXXXXXXXXXXXXX1' consumer_secret = 'qXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXh' access_token = '9XXXXXXXX-XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXi' access_token_secret = 'kXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXT'

Il est maintenant temps de créer notre objet API.

# Creating the authentication object auth = tweepy.OAuthHandler(consumer_key, consumer_secret) # Setting your access token and secret auth.set_access_token(access_token, access_token_secret) # Creating the API object while passing in auth information api = tweepy.API(auth)

Ce sera la base de chaque application que nous construisons, alors assurez-vous de ne pas la supprimer.

Exemple 1: votre chronologie

Dans cet exemple, nous allons extraire les dix tweets les plus récents de votre fil Twitter. Nous allons le faire en utilisant l'objet API home_timeline() fonction. Nous pouvons ensuite stocker le résultat dans une variable et la parcourir en boucle pour imprimer les résultats.

# Using the API object to get tweets from your timeline, and storing it in a variable called public_tweets public_tweets = api.home_timeline() # foreach through all tweets pulled for tweet in public_tweets: # printing the text stored inside the tweet object print tweet.text

Le résultat devrait ressembler à un tas de tweets aléatoires, suivis de l'URL du tweet lui-même.

Documentation de la commande de chronologie utilisateur

Suivre le lien vers le tweet vous amènera souvent au tweet lui-même. Suivre le lien du premier tweet nous donnerait le résultat suivant:

Le contenu du compte Twitter @NyTimes au moment de la rédaction

Notez que si vous exécutez cela via un terminal et non un IDE comme PyCharm, vous pourriez avoir des problèmes de formatage lors de la tentative d'impression du texte du tweet.

Le JSON derrière les résultats

Dans l'exemple ci-dessus, nous avons imprimé le texte de chaque tweet en utilisant tweet.text. Pour faire référence à des attributs spécifiques de chaque objet tweet, nous devons regarder le JSON renvoyé par l'API Twitter.

comment déchiffrer un numéro de carte de crédit

Le résultat que vous recevez de l'API Twitter est au format JSON et contient une grande quantité d'informations. Pour plus de simplicité, ce tutoriel se concentre principalement sur l'attribut «texte» de chaque tweet et sur les informations sur le tweeter (l'utilisateur qui a créé le tweet). Pour l'exemple ci-dessus, vous pouvez voir l'intégralité de l'objet JSON renvoyé Ici .

Voici un aperçu de quelques attributs qu'un tweet a à offrir.

Contenu de la chronologie utilisateur pour @NyTimes

Si vous voulez trouver la date à laquelle le tweet a été créé, vous l'interrogez avec print tweet.created_at.

Vous pouvez également voir que chaque objet tweet contient des informations sur le tweeter.

Documentation de la commande de recherche

Pour obtenir les attributs «nom» et «emplacement» du tweeter, vous pouvez exécuter print tweet.user.screen_name et print tweet.user.location.

Notez que ces attributs peuvent être extrêmement utiles si votre application dépend de données spatiales.

Exemple 2: Tweets d'un utilisateur spécifique

Dans cet exemple, nous allons simplement extraire les vingt derniers tweets d'un utilisateur de notre choix.

Tout d'abord, nous allons examiner la Documentation Tweepy pour voir si une fonction comme celle-là existe. Avec un peu de recherche, nous constatons que le user_timeline() la fonction est ce que nous recherchons.

Résultats de la recherche lors d

Nous pouvons voir que le user_timeline() fonction a quelques paramètres utiles que nous pouvons utiliser, en particulier id (l'ID de l'utilisateur) et count (la quantité de tweets que nous voulons extraire). Notez que nous ne pouvons extraire qu'un nombre limité de tweets par requête en raison de Limites de taux de Twitter .

Essayons d'extraire les vingt derniers tweets du compte Twitter @NyTimes.

Nous pouvons créer des variables pour stocker la quantité de tweets que nous voulons extraire (compter), et l'utilisateur dont nous voulons les extraire (nom). Nous pouvons alors appeler la fonction user_timeline avec ces deux paramètres. Vous trouverez ci-dessous le code mis à jour (notez que vous devriez avoir conservé l'authentification et la création d'objet API en haut de votre code).

# Creating the API object while passing in auth information api = tweepy.API(auth) # The Twitter user who we want to get tweets from name = 'nytimes' # Number of tweets to pull tweetCount = 20 # Calling the user_timeline function with our parameters results = api.user_timeline(id=name, count=tweetCount) # foreach through all tweets pulled for tweet in results: # printing the text stored inside the tweet object print tweet.text

Nos résultats devraient ressembler à ceci:

définition de société c vs société s

Les applications populaires de ce type de données peuvent inclure:

  • Analyser des utilisateurs spécifiques et comment ils interagissent avec le monde
  • Trouver des influenceurs Twitter et analyser les tendances et les interactions de leurs abonnés
  • Surveiller les changements dans les followers d'un utilisateur

Exemple 3: recherche de tweets à l'aide d'un mot-clé

Prenons un dernier exemple: obtenir les tweets les plus récents contenant un mot-clé. Cela peut être extrêmement utile si vous souhaitez surveiller des sujets spécifiquement mentionnés dans le monde de Twitter, ou même pour voir comment votre entreprise est mentionnée. Disons que nous voulons voir comment Twitter mentionne ApeeScape.

Après avoir parcouru le Documentation Tweepy , le search() la fonction semble être le meilleur outil pour atteindre notre objectif.

Le paramètre le plus important ici est q, le paramètre de requête, qui est le mot-clé que nous recherchons.

Nous pouvons également définir le paramètre de langue afin de ne pas recevoir de tweets d'une langue indésirable. Renvoyons uniquement les tweets en anglais ('en').

Nous pouvons maintenant modifier notre code pour refléter les changements que nous voulons apporter. Nous créons d'abord des variables pour stocker nos paramètres (requête et langage), puis appelons la fonction via l'objet API. Imprimons également le nom d'écran de l'utilisateur qui a créé le tweet dans notre boucle.

# Creating the API object while passing in auth information api = tweepy.API(auth) # The search term you want to find query = 'ApeeScape' # Language code (follows ISO 639-1 standards) language = 'en' # Calling the user_timeline function with our parameters results = api.search(q=query, lang=language) # foreach through all tweets pulled for tweet in results: # printing the text stored inside the tweet object print tweet.user.screen_name,'Tweeted:',tweet.text

Nos résultats devraient ressembler à ceci:

Voici quelques façons pratiques d'utiliser ces informations:

  • Créez un graphique spatial sur les endroits où votre entreprise est le plus mentionnée dans le monde
  • Exécutez une analyse des sentiments sur les tweets pour voir si l'opinion générale de votre entreprise est positive ou négative
  • Créez des graphiques sociaux des utilisateurs les plus populaires qui tweetent sur votre entreprise ou votre produit

Nous pouvons couvrir certains de ces sujets dans de futurs articles.

Conclusion

L'API de Twitter est extrêmement utile dans les applications d'exploration de données et peut fournir de vastes informations sur l'opinion publique. Si l'API Twitter et l'analyse du big data vous intéressent davantage, je vous encourage à en savoir plus sur l'API Twitter , Tweepy , et Directives de limitation de taux de Twitter .

Nous n'avons couvert que les bases de l'accès et de l'extraction. L'API de Twitter peut être exploitée dans des problèmes de Big Data très complexes, impliquant des personnes, des tendances et des graphiques sociaux trop compliqués pour que l'esprit humain puisse les saisir seul.

Comprendre les bases

Qu'est-ce que l'exploration de données et le Big Data?

L'exploration de données consiste à extraire une énorme quantité de données d'une source et à la stocker. Le résultat est le «big data», qui est juste une grande quantité de données en un seul endroit.

Pourquoi les données Twitter sont-elles utiles?

Les données Twitter sont ouvertes, personnelles et complètes. Vous pouvez extraire un peu d'un utilisateur en analysant ses tweets et ses tendances. Vous pouvez également voir comment les gens parlent de sujets spécifiques à l'aide de mots-clés et de noms d'entreprise.

En quoi l'analyse du Big Data est-elle utile pour une organisation?

Pour une organisation, l'analyse des mégadonnées peut fournir des informations qui surpassent les capacités humaines. Être capable d'exécuter de grandes quantités de données grâce à une analyse lourde de calculs est une chose pour laquelle les modèles mathématiques et les machines prospèrent.

Comment bâtir une forte culture du travail à distance: une entrevue avec Christy Schumann

Personnes Et Équipes

Comment bâtir une forte culture du travail à distance: une entrevue avec Christy Schumann
Tout ce que vous devez savoir sur UX Sketching

Tout ce que vous devez savoir sur UX Sketching

Outils Et Tutoriels

Articles Populaires
Ingénieur Senior Ruby on Rails
Ingénieur Senior Ruby on Rails
Repenser l'interface utilisateur de la plate-forme TV
Repenser l'interface utilisateur de la plate-forme TV
Soutenir l'offre technologique grâce à l'éducation STEM
Soutenir l'offre technologique grâce à l'éducation STEM
UX personnalisé et puissance du design et de l'émotion
UX personnalisé et puissance du design et de l'émotion
Explication du flux Git amélioré
Explication du flux Git amélioré
 
Un guide sur les moteurs Rails dans la nature: Exemples concrets de moteurs Rails en action
Un guide sur les moteurs Rails dans la nature: Exemples concrets de moteurs Rails en action
Conception d'une VUI - Interface utilisateur vocale
Conception d'une VUI - Interface utilisateur vocale
Huit raisons pour lesquelles Microsoft Stack est toujours un choix viable
Huit raisons pour lesquelles Microsoft Stack est toujours un choix viable
Tirer le meilleur parti des actions - Leçons d'un ancien analyste de recherche
Tirer le meilleur parti des actions - Leçons d'un ancien analyste de recherche
Addiction au rachat d'actions: études de cas de succès
Addiction au rachat d'actions: études de cas de succès
Articles Populaires
  • c-corp contre s-corp contre llc
  • qu'est-ce que wp-json
  • l'un des concepts les plus importants en marketing est l'élasticité-prix de la demande, qui est le
  • que signifie l'augmentation du personnel
  • valeur nette d'elon musc 2010
  • flux git vs flux github
  • à quoi sert le langage c
Catégories
  • La Technologie
  • Personnes Et Équipes
  • Gestion De Projet
  • Équipes Distribuées
  • © 2022 | Tous Les Droits Sont Réservés

    portaldacalheta.pt