Big Data est partout. Période. Dans le cadre de la gestion d’une entreprise prospère à l’âge d’aujourd’hui, vous allez probablement la rencontrer, que cela vous plaise ou non.
Que vous soyez un homme d'affaires essayant de rattraper son retard ou un prodige du codage à la recherche de son prochain projet, ce tutoriel vous donnera un bref aperçu de ce qu'est le Big Data. Vous apprendrez comment cela s'applique à vous et comment vous pouvez démarrer rapidement grâce à l'API Twitter et Python.
Big Data est exactement ce à quoi cela ressemble - beaucoup de données. Seul, un seul point de données ne peut pas vous donner beaucoup d'informations. Mais des téraoctets de données, associés à des modèles mathématiques complexes et à une puissance de calcul turbulente, peuvent créer des informations que les êtres humains ne sont pas capables de produire. La valeur que le Big Data Analytics apporte à une entreprise est intangible et dépasse les capacités humaines chaque jour.
La première étape de l'analyse du Big Data consiste à collecter les données elles-mêmes. Ceci est connu sous le nom de «data mining». Les données peuvent provenir de n'importe où. La plupart des entreprises gèrent des gigaoctets de données sur les utilisateurs, les produits et la localisation. Dans ce didacticiel, nous allons explorer comment nous pouvons utiliser les techniques d'exploration de données pour collecter des données Twitter, ce qui peut être plus utile que vous ne le pensez.
Par exemple, supposons que vous exécutiez Facebook et que vous souhaitiez utiliser les données de Messenger pour fournir des informations sur la manière dont vous pouvez mieux faire de la publicité auprès de votre public. Messenger a 1,2 milliard utilisateurs actifs mensuels . Dans ce cas, les big data sont des conversations entre utilisateurs. Si vous lisiez individuellement les conversations de chaque utilisateur, vous seriez en mesure d'avoir une bonne idée de ce qu'ils aiment et de leur recommander des produits en conséquence. Utilisation d'une technique d'apprentissage automatique appelée Traitement du langage naturel (NLP), vous pouvez le faire à grande échelle avec l'ensemble du processus automatisé et laissé aux machines.
quel type de llc ai-je
Il ne s'agit là que de l'un des innombrables exemples de la manière dont l'apprentissage automatique et l'analyse de données volumineuses peuvent ajouter de la valeur à votre entreprise.
Twitter est une mine d'or de données. Contrairement aux autres plates-formes sociales, presque tous les tweets des utilisateurs sont entièrement publics et extractibles. C'est un énorme avantage si vous essayez d'obtenir une grande quantité de données sur lesquelles exécuter des analyses. Les données Twitter sont également assez spécifiques. L'API de Twitter vous permet d'effectuer des requêtes complexes, comme extraire chaque tweet sur un certain sujet au cours des vingt dernières minutes, ou extraire les tweets non retweetés d'un certain utilisateur.
Une simple application de ceci pourrait être d'analyser la manière dont votre entreprise est reçue par le grand public. Vous pouvez collecter les 2000 derniers tweets qui mentionnent votre entreprise (ou tout terme de votre choix) et exécuter un algorithme d'analyse des sentiments dessus.
Nous pouvons également cibler les utilisateurs qui vivent spécifiquement dans un certain emplacement, appelé données spatiales. Une autre application de ceci pourrait être de cartographier les zones du globe où votre entreprise a été le plus mentionnée.
Comme vous pouvez le voir, les données Twitter peuvent être une grande porte d'entrée aperçus du grand public , et comment ils reçoivent un sujet. Cela, combiné à l'ouverture et à la limitation généreuse du débit de l'API de Twitter, peut produire des résultats puissants.
Nous utiliserons Python 2.7 pour ces exemples. Idéalement, vous devriez avoir un IDE pour écrire ce code. J'utiliserai PyCharm - Édition communautaire .
Pour nous connecter à l'API de Twitter, nous utiliserons une bibliothèque Python appelée Tweepy , que nous installerons dans quelques instants.
Pour utiliser l'API de Twitter, nous devons créer un compte développeur sur le Site d'applications Twitter .
Nous aurons besoin de tous ces éléments plus tard, alors assurez-vous de garder cet onglet ouvert.
Tweepy est un outil parfaitement pris en charge pour accéder à l'API Twitter. Il prend en charge Python 2.6, 2.7, 3.3, 3.4, 3.5 et 3.6. Il existe plusieurs façons d'installer Tweepy. Le moyen le plus simple est d'utiliser pip
.
Tapez simplement pip install tweepy
dans votre terminal.
Vous pouvez suivre les instructions sur Dépôt GitHub de Tweepy . Les étapes de base sont les suivantes:
git clone https://github.com/tweepy/tweepy.git cd tweepy python setup.py install
Vous pouvez également y résoudre les problèmes d'installation.
Maintenant que nous avons les outils nécessaires prêts, nous pouvons commencer à coder! La ligne de base de chaque application que nous allons créer aujourd'hui nécessite l'utilisation de Tweepy pour créer un objet API avec lequel nous pouvons appeler des fonctions. Cependant, pour créer l'objet API, nous devons d'abord nous authentifier avec nos informations de développeur.
Tout d'abord, importons Tweepy et ajoutons nos propres informations d'authentification.
import tweepy consumer_key = 'wXXXXXXXXXXXXXXXXXXXXXXX1' consumer_secret = 'qXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXh' access_token = '9XXXXXXXX-XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXi' access_token_secret = 'kXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXT'
Il est maintenant temps de créer notre objet API.
# Creating the authentication object auth = tweepy.OAuthHandler(consumer_key, consumer_secret) # Setting your access token and secret auth.set_access_token(access_token, access_token_secret) # Creating the API object while passing in auth information api = tweepy.API(auth)
Ce sera la base de chaque application que nous construisons, alors assurez-vous de ne pas la supprimer.
Dans cet exemple, nous allons extraire les dix tweets les plus récents de votre fil Twitter. Nous allons le faire en utilisant l'objet API home_timeline()
fonction. Nous pouvons ensuite stocker le résultat dans une variable et la parcourir en boucle pour imprimer les résultats.
# Using the API object to get tweets from your timeline, and storing it in a variable called public_tweets public_tweets = api.home_timeline() # foreach through all tweets pulled for tweet in public_tweets: # printing the text stored inside the tweet object print tweet.text
Le résultat devrait ressembler à un tas de tweets aléatoires, suivis de l'URL du tweet lui-même.
Suivre le lien vers le tweet vous amènera souvent au tweet lui-même. Suivre le lien du premier tweet nous donnerait le résultat suivant:
Notez que si vous exécutez cela via un terminal et non un IDE comme PyCharm, vous pourriez avoir des problèmes de formatage lors de la tentative d'impression du texte du tweet.
Dans l'exemple ci-dessus, nous avons imprimé le texte de chaque tweet en utilisant tweet.text
. Pour faire référence à des attributs spécifiques de chaque objet tweet, nous devons regarder le JSON renvoyé par l'API Twitter.
comment déchiffrer un numéro de carte de crédit
Le résultat que vous recevez de l'API Twitter est au format JSON et contient une grande quantité d'informations. Pour plus de simplicité, ce tutoriel se concentre principalement sur l'attribut «texte» de chaque tweet et sur les informations sur le tweeter (l'utilisateur qui a créé le tweet). Pour l'exemple ci-dessus, vous pouvez voir l'intégralité de l'objet JSON renvoyé Ici .
Voici un aperçu de quelques attributs qu'un tweet a à offrir.
Si vous voulez trouver la date à laquelle le tweet a été créé, vous l'interrogez avec print tweet.created_at
.
Vous pouvez également voir que chaque objet tweet contient des informations sur le tweeter.
Pour obtenir les attributs «nom» et «emplacement» du tweeter, vous pouvez exécuter print tweet.user.screen_name
et print tweet.user.location
.
Notez que ces attributs peuvent être extrêmement utiles si votre application dépend de données spatiales.
Dans cet exemple, nous allons simplement extraire les vingt derniers tweets d'un utilisateur de notre choix.
Tout d'abord, nous allons examiner la Documentation Tweepy pour voir si une fonction comme celle-là existe. Avec un peu de recherche, nous constatons que le user_timeline()
la fonction est ce que nous recherchons.
Nous pouvons voir que le user_timeline()
fonction a quelques paramètres utiles que nous pouvons utiliser, en particulier id
(l'ID de l'utilisateur) et count
(la quantité de tweets que nous voulons extraire). Notez que nous ne pouvons extraire qu'un nombre limité de tweets par requête en raison de Limites de taux de Twitter .
Essayons d'extraire les vingt derniers tweets du compte Twitter @NyTimes.
Nous pouvons créer des variables pour stocker la quantité de tweets que nous voulons extraire (compter), et l'utilisateur dont nous voulons les extraire (nom). Nous pouvons alors appeler la fonction user_timeline avec ces deux paramètres. Vous trouverez ci-dessous le code mis à jour (notez que vous devriez avoir conservé l'authentification et la création d'objet API en haut de votre code).
# Creating the API object while passing in auth information api = tweepy.API(auth) # The Twitter user who we want to get tweets from name = 'nytimes' # Number of tweets to pull tweetCount = 20 # Calling the user_timeline function with our parameters results = api.user_timeline(id=name, count=tweetCount) # foreach through all tweets pulled for tweet in results: # printing the text stored inside the tweet object print tweet.text
Nos résultats devraient ressembler à ceci:
définition de société c vs société s
Les applications populaires de ce type de données peuvent inclure:
Prenons un dernier exemple: obtenir les tweets les plus récents contenant un mot-clé. Cela peut être extrêmement utile si vous souhaitez surveiller des sujets spécifiquement mentionnés dans le monde de Twitter, ou même pour voir comment votre entreprise est mentionnée. Disons que nous voulons voir comment Twitter mentionne ApeeScape.
Après avoir parcouru le Documentation Tweepy , le search()
la fonction semble être le meilleur outil pour atteindre notre objectif.
Le paramètre le plus important ici est q
, le paramètre de requête, qui est le mot-clé que nous recherchons.
Nous pouvons également définir le paramètre de langue afin de ne pas recevoir de tweets d'une langue indésirable. Renvoyons uniquement les tweets en anglais ('en').
Nous pouvons maintenant modifier notre code pour refléter les changements que nous voulons apporter. Nous créons d'abord des variables pour stocker nos paramètres (requête et langage), puis appelons la fonction via l'objet API. Imprimons également le nom d'écran de l'utilisateur qui a créé le tweet dans notre boucle.
# Creating the API object while passing in auth information api = tweepy.API(auth) # The search term you want to find query = 'ApeeScape' # Language code (follows ISO 639-1 standards) language = 'en' # Calling the user_timeline function with our parameters results = api.search(q=query, lang=language) # foreach through all tweets pulled for tweet in results: # printing the text stored inside the tweet object print tweet.user.screen_name,'Tweeted:',tweet.text
Nos résultats devraient ressembler à ceci:
Voici quelques façons pratiques d'utiliser ces informations:
Nous pouvons couvrir certains de ces sujets dans de futurs articles.
L'API de Twitter est extrêmement utile dans les applications d'exploration de données et peut fournir de vastes informations sur l'opinion publique. Si l'API Twitter et l'analyse du big data vous intéressent davantage, je vous encourage à en savoir plus sur l'API Twitter , Tweepy , et Directives de limitation de taux de Twitter .
Nous n'avons couvert que les bases de l'accès et de l'extraction. L'API de Twitter peut être exploitée dans des problèmes de Big Data très complexes, impliquant des personnes, des tendances et des graphiques sociaux trop compliqués pour que l'esprit humain puisse les saisir seul.
L'exploration de données consiste à extraire une énorme quantité de données d'une source et à la stocker. Le résultat est le «big data», qui est juste une grande quantité de données en un seul endroit.
Les données Twitter sont ouvertes, personnelles et complètes. Vous pouvez extraire un peu d'un utilisateur en analysant ses tweets et ses tendances. Vous pouvez également voir comment les gens parlent de sujets spécifiques à l'aide de mots-clés et de noms d'entreprise.
Pour une organisation, l'analyse des mégadonnées peut fournir des informations qui surpassent les capacités humaines. Être capable d'exécuter de grandes quantités de données grâce à une analyse lourde de calculs est une chose pour laquelle les modèles mathématiques et les machines prospèrent.