Nouvelles Du Monde

Twitter introduit des limites quotidiennes temporaires pour empêcher la collecte de données – IT Pro – Actualités

Twitter introduit des limites quotidiennes temporaires pour empêcher la collecte de données – IT Pro – Actualités

Les modèles de scrapers sont vraiment très différents de ceux des utilisateurs, vous devriez donc pouvoir les ralentir relativement facilement.

Oui, si vous scrapez uniquement à partir d’une seule adresse IP et avec les mêmes en-têtes. Permettez-moi de vous présenter les moyens de dépasser les blocs :

* Modification de TLS (l’une des façons dont cloudflare essaie d’arrêter le grattage consiste à utiliser l’empreinte digitale TLS)
* Proxies / IP tournantes (et avec IP6 c’est encore plus facile ou vous devez bloquer tout /64 … quels que soient les blocs)
* Modification des en-têtes pour correspondre aux navigateurs actuels. Aka, vous ne grattez pas avec un en-tête de base vide, mais qui correspond à ce que le site attend.
* navigateurs sans tête si l’on essaie de jouer des tours JS
* Profil virtuel (construire des clients virtuels qui se répètent, c’est-à-dire qui apparaissent comme de vrais clients et où leurs en-têtes, etc. restent les mêmes mais qui suivent un modèle de threads/re-scraping)
* Profils de compte (voir ci-dessus mais où vous créez des comptes et continuez à gratter chaque compte dans certains intérêts chaque jour). Très difficile à reconnaître en dehors des contrôles aléatoires.
* Et lire le github où les gens intègrent l’anti-scraping dans leur logiciel et ensuite vous faites juste l’inverse (comme certains navigateurs ont des bugs/fonctionnalités que l’on peut utiliser pour empêcher le scraping, mais si vous le savez, vous imitez ce comportement. Ou vous utilisez simplement un navigateur sans tête)

Lire aussi  Ce que le prince William a dit à propos de la guérison du cancer de la princesse Kate

Et gardez à l’esprit qu’une fois que vous avez récupéré le contenu d’un site, vous allez rechercher de nouveaux contenus, c’est-à-dire que votre récupération ne se traduira pas par des dizaines de millions d’appels supplémentaires pour tout obtenir. Le problème pour les sites d’arrêter de scraper est qu’ils doivent de plus en plus chercher des cas particuliers pour reconnaître les robots scrapeurs.

Là où un scraper, une fois qu’un bon système a été construit, peut continuer à réutiliser ce même système sur tous les sites Web (à condition qu’il y ait des mises à jour ici et là si quelqu’un a trouvé une nouvelle astuce).

C’est une guerre que vous perdez des automatiques parce que le grattoir n’a pas à se soucier de la clientèle. En tant qu’administrateur de site Web, vous devez faire attention à ce que votre anti-scraping ne tue pas de vrais utilisateurs comme les personnes qui n’utilisent pas de navigateurs chrome standard ou qui ont des modèles différents de ceux d’habitude. Où un grattoir peut contourner un bloc avec moins d’effort.

Lire aussi  Newsletter Glossy Pop : Le monde du marketing de la marque 'Eras ​​Tour', des bracelets de l'amitié aux cours de spinning

Et le grattage est aussi une grosse affaire. Il existe des entreprises spécialisées dans le scraping de contenu, où vous payez 500 $ pour des millions d’appels par mois. Et ils le font quand les correctifs si un site bloque des choses. La réalité est que s’ils veulent vos données, ils les obtiendront. Et à un prix BEAUCOUP moins cher que ce que de nombreuses entreprises proposent à leur API. Ironiquement, protéger votre site Web contre le scraping est en réalité plus coûteux car vous devez rendre des pages entières de votre serveur, le scraper n’extrait que des bits. Où si vous offrez ces données à moindre coût via une API, les gens utiliseront simplement l’API et vos serveurs se plaindront moins.

La réalité est qu’il y a toute une industrie qui s’occupe de cela et que le scraping lui-même n’est pas illégal, c’est ce que vous faites avec les données qui pose problème. Et si ces données sont traitées dans des modèles d’IA, amusez-vous à découvrir cela.

Lire aussi  Le rôle du Qatar dans la guerre entre Israël et le Hamas expliqué : NPR

La seule façon d’arrêter de scraper est les services payants (et puis il y aura aussi un service illégal de comptes volés/paypal volés, etc. qui offrira du scraping). Mais les services payants sont TRÈS difficiles à mettre en place car les gens n’ont que peu d’argent gratuit chaque mois. Et puis ils ne donnent cet argent qu’aux services élevés / importants… Spotify, Youtube (s’ils arrêtent vraiment les bloqueurs de publicités), les services de streaming. Et ploc, plus d’argent pour d’autres services. C’est un peu le problème de nos jours. Une fois que tout devient trop payant, vous perdez des utilisateurs et les gens retournent sur la voie illisible. Et… bonjour les grattoirs.

C’est vraiment un cycle que la plupart des entreprises ne comprennent pas. Les gens ne sont pas des pots d’argent illimité et c’est faisable si vous, en tant qu’entreprise, avez construit une position de monopole dans un segment de marché, mais tout le reste, eh bien …

2023-07-02 09:42:53
1688298676


#Twitter #introduit #des #limites #quotidiennes #temporaires #pour #empêcher #collecte #données #Pro #Actualités

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.

ADVERTISEMENT