Hello, aujourd’hui on va rapidement parler de scrapping. Je ne vais pas m’attarder sur la technique. Le scrapper que je vais vous présenter est fait en nodeJS. Dans l’exemple que j’ai implémenté, j’affiche simplement le résultat dans la console. Bien évidemment il sera possible de tout mettre en base de données. Dans un projet que j’ai pu développer pour un client, j’ai , après scrapping , insérer la données directement dans un index ElasticSearch ce qui m’a permis de faire une recherche plus poussée et surtout de tout garder en cache.

Scrapper quoi ?

Le scrapper actuel permet de récupérer les résultats de recherche d’un moteur de recherche. J’ai implémenté le cas de Google, Bing, Lycos et duckduckgo. Cela m’a permis de faire des requêtes sans être « ban ». Il est évidemment possible de transformer le code que je vais vous fournir pour scrapper un site précis. Bien évidemment je précise que le code fournis n’est pas à utilisé pour scrapper n’importe quoi.

Le code du scrapper

Comme je vous l’ai dit plus haut. Je vous fournis le code sans trop d’explication technique. Mais pour faire simple, on requête sur un url avec des paramètres spécifiques, on boucle sur chaque résultat grâce a cheerio qui pourra ciblé le DOM de la page et on récupère les informations voulues.

Vous pouvez également créer un moteur de recherche personnel, j’ai écrit un article à ce sujet. La création d’un moteur de recherche à facet via NodeJS / Javascript

Vous trouverez le code de ce scrapper nodejs sur github. N’hésitez pas à me donner vos avis et vos retours d’expériences. Bon codding et à bientôt.

Photo by Christian Wiediger on Unsplash

Article liés :

Show CommentsClose Comments

Leave a comment