Sélectionner une page

Scrapping et vieille concurrentielle

une première chez les e-merchandiseur à cultura

Explication du projet

Le contexte  

La veille concurrentielle est un élément essentiel pour un e-merchandiseur ainsi que pour ses chefs de produits. Pour nous, cela nous permet de vérifier si le prix est une des causes d’un taux de rebond élevé sur nos fiches produits. Pour les chefs de produits, cette veille permet de réaliser des alignements prix quand cela est nécessaire. 
De plus, il est aussi intéressant de comparer le catalogue d’une enseigne sur une marque de produits avec le nôtre, pour optimiser notre offre.  

 

Néanmoins, la méthode des chefs de produits pour cette veille n’est pas optimisé : il consiste à naviguer sur nos concurrents directs pour une typologie de produits et relevé les prix à la main.
Trouvant que cette méthode n’était pas optimale et durable, j’ai donc souhaité me pencher sur le scrapping afin d’automatiser cette tâche et permettre à l’offre comme aux e-merchandiseurs de réaliser une veille plus qualitative et quantitative.  

« Freemium mais efficace    

L’outil Octoparse    

Pour m’essayer au scrapping et proposer une nouvelle méthodologie de veille à Cultura, j’ai essayé divers outils freemium comme webscrapper ou scrappingbot. Mon choix s’est finalement porté sur l’outil Octoparse qui dispose d’une version gratuite assez efficace. 

L’outil est assez simple : il suffit de créer des dashbord en insérant l’URL du site que l’on souhaite scrapper. Ensuite, un ensemble de règles est à mettre en place pour donner des directions à l’outil. Dans notre cas, nous avons une règle de pagination où l’outil sait qu’il doit se rendre en bas de page et cliquer sur « page suivante » pour voir toutes les pages du rayon (on identifie le « page suivante avec le XPath). Une fois que la pagination est en place, nous configurons le fait que l’outil doit aller sur chaque fiche produit présente sur la page, extraire les données voulues, revenir sur la liste produit et réaliser cette boucle jusqu’à ce que tous les produits de la page soient scrappés. 

Pour perfectionner notre scrapping et éviter que des données soient manquantes, il est préférable de configurer un temps de chargement à chaque changement de page. En effet, en cas de temps trop court, les données peuvent ne pas avoir le temps de s’afficher, ainsi le scrapping sera incomplet et pourrait s’interrompre. 

Une fois les données récoltées, il ne reste plus qu’à extraire le fichier en .svg et lui appliquer une mise en forme « type Excel ». Les données sont récoltées et prêtes à être couplées à notre référentiel via des recherches V pour les comparer. 

export scrapping octoparse
octoparse pour scrapping
scrapping

Merci d'avoir regardé

Je suis disponible si vous souhaitez me contacter
Me contacter Mes projets