Internet et le Scraping

Hello,

Je fais du scraping à mes heures perdues et je rencontre de nombreuses difficultés.
Suis-je le seul à m'adonner à cette passion ?

Bisoux dans le cou

Poster un commentaire
boulbi
boulbi
2 sem

Un peu moins de détails sp.

bzerath
bzerath
2 sem

et tu scrapes quoi ? dans quel but ?

Subuxone
Subuxone
2 sem

@bzerath: Des prix, pour en faire des courbes et en définir des cotes.

bzerath
bzerath
2 sem

@Subuxone: ya keepa qui fait ça sur amazon si tu connais pas

Subuxone
Subuxone
2 sem

@bzerath: J'ai eu des retours comme quoi l'API était super mais malheureusement payante.
Je n'ai donc jamais eu l'occasion d'y mettre un doigt.
Je trouve que Amazon n'est pas trop restrictif sur le scraping, ça se fait plutôt bien, je n'ai jamais eu de soucis avec eux.

jeandoux
jeandoux
2 sem

Est ce que tu utilises https://apify.com/ ?
J'en fait beaucoup au taff en ce moment, pour taper de manière officielle la knowledge de nos clients et la retranscrire à nos bots GenAI, et franchement Apify a été la découverte qui nous a fait le plus progresser.

Subuxone
Subuxone
2 sem

@jeandoux: Pas du tout, je fais tout maison car je n'ai pas de budget ( je ne paie qu'un fournisseur de VPN). J'utilise essentiellement du curl / puppetter / playwright / appium pour android.
J'évite autant que possible d'utiliser un vrai navigateur car c'est un gouffre à ressource et je ne suis pas billes gate.

jeandoux
jeandoux
2 sem

@Subuxone: Je comprends bien ! Après tout dépend de ton usage aussi, on a mis un certain temps ici à sortir du free tier de Apify

Subuxone
Subuxone
2 sem

@jeandoux: La plus grosse de mes problématiques est Cloudflare et surtout Imperva. Surtout quand je dois venir souvent sur une page ( exemple statistiques du prix du yaourt dans un drive, donc allez sur tous les drives, tous les articles, tout le temps, ...).

Je ne sais pas comment facture Apify mais pour te donner une idée, en chargant juste le corps des pages, sans chargement javascript, des images, pubs, ... je tire environ 70Go de HTML par jour. CA représente entre 1500 et 2500 IPs/instances qui tournent. Ca doit être hors de prix pour un particulier.

jeandoux
jeandoux
2 sem

@Subuxone: Ok en effet ça aurait été mieux de donner plus de contexte dès le début 😅

C'est assez marrant parce que t'as l'air de faire ça un peu pour le plaisir, en tant que particulier, alors que t'as clairement un usage qui pourrait être celui d'un pro. T'en fais quoi de tes 70gb de HTML tous les jours du coup ?

Je te confirme en tout cas que, même si Apify pourrait sans doute faire le taff, ça te coûterait un bras, donc à moins d'avoir un business derrière, c'est en effet pas du tout ce qui te faut.

Bonne chance en tout cas, surtout pour Imperva, tu t'attaques à un truc dont le seul objet est d'empêcher ton activité, et globalement ils ont plus de moyens que toi. Il te bloque petit à petit ? Je suppose qu'il faut rajouter des proxy et des user-agents et rotate tout ça en permanence pour pas se faire griller, bon courage franchement !

Subuxone
Subuxone
2 sem

@jeandoux:
Mes 70Go de HTML, je les parse et je récupère les infos qui m'intéresse pour les mettre dans une base de données. Je n'ai pas de liste exhaustive mais je m'en sers pour :
- constater les variations de prix d'articles
- suivre des évolutions de stock
- détecter des anomalies de prix
- définir des cotations d'articles de collection
- Reconstruire des bases catalogues, magasins, EANs, etc.

Imperva / Cloudflare c'est assez chiant oui.
La rotation d'IP ainsi que la restitution de header ( user agents, language, encoding, ...) crédible n'est pas une solution viable pour bypasser efficacement ces services. On peut aussi jouer avec le ciphers mais je ne trouve pas cela très probant pour le moment.
Je n'ai pas les moyens nécessaires ( Infra ) pour faire tourner 100 navigateurs en dur, donc pour le moment j'ai une forge à cookie qui me permet de bypasser certaines vérifications( résolution javascript, captcha, ...).
La forge produit mon cookie valide pendant quelques minutes, je l''injecte dans du curl avec ce qui va bien pour requeter un certain temps.

Mais oui, c'est eux qui vont gagner la guerre, je fais ça sur mon temps libre, quand j'ai envie.

jeandoux
jeandoux
2 sem

@Subuxone: Et tu as identifié des moyens de te faire du cash avec ce que tu fais sinon ? Si tu préfères on peut passer en MP pour en discuter.

Subuxone
Subuxone
1 sem

@jeandoux: Je n'ai pas identifié car je n'ai ni envie de marchander, ni envie d'être redevable d'une quelconque qualité de service, ni envie d'être à la base de potentielle emmerde.

Hqro
Hqro
2 sem

J'en fais pas mal, j'avais même commencé à scraper les boxs de CB pour faire des stats et le partager à la communauté. Mais depuis que @saian a downgradé les serveurs, ça faisait tomber le site, donc j'ai laissé tombé.

Offerzo
Offerzo
2 sem

@Hqro: c'est pas du scraping ça , c'est du ddos

Hqro
Hqro
2 sem

@Offerzo: nan franchement j'ai fais doucement, j'ai encore le code sur mon Github et c'était vraiment tout doux.

jeandoux
jeandoux
2 sem

@Hqro: Bah si ça faisait tomber le site c'est qu'il y a un soucis quelque part quand même 😅

Hqro
Hqro
2 sem

@jeandoux: Je suis pas sûr que le site soit capable de gérer plus de 4 ou 5 utilisateurs simultanés (à l'époque)

VilainCookie

Kezako?

superPlot
superPlot
2 sem

@VilainCookie: Le scrapping, c'est "l'aspiration" de site web.
ça peut être pour faire une copie conforme (pour conservé le site).
Mais ça peut être aussi pour la création de base de donnée. (et de sont exploitation).

Offerzo
Offerzo
2 sem

J'en fais quand j'en ai besoin. Pas par passion

MayAstrid
MayAstrid
2 sem

J'ai tenté plusieurs fois, par exemple scraper des annonces immo sur lbc ou une liste de livres sur un article, mais ça marchait jamais, donc j'ai laissé tomber...

Cette page est réservée aux ADULTES

Tu es sur le point d'accéder à un site web qui contient du matériel explicite (pornographie).

Tu ne dois accéder à ce site que si tu as au moins 18 ans ou si tu as l'âge légal pour visionner ce type de matériel dans ta juridiction locale, l’âge le plus élevé étant retenu. En outre, tu déclares et garantis que tu ne permettras aucun mineur à d'accéder à ce site ou à ces services.


En accédant à ce site, tu acceptes nos conditions d'utilisation.