Twitter introduit des limites quotidiennes temporaires pour empêcher la collecte de données – IT Pro – Actualités

Home » Économie » Twitter introduit des limites quotidiennes temporaires pour empêcher la collecte de données – IT Pro – Actualités

Les modèles de scrapers sont vraiment très différents de ceux des utilisateurs, vous devriez donc pouvoir les ralentir relativement facilement.

Oui, si vous scrapez uniquement à partir d’une seule adresse IP et avec les mêmes en-têtes. Permettez-moi de vous présenter les moyens de dépasser les blocs :

* Modification de TLS (l’une des façons dont cloudflare essaie d’arrêter le grattage consiste à utiliser l’empreinte digitale TLS)
* Proxies / IP tournantes (et avec IP6 c’est encore plus facile ou vous devez bloquer tout /64 … quels que soient les blocs)
* Modification des en-têtes pour correspondre aux navigateurs actuels. Aka, vous ne grattez pas avec un en-tête de base vide, mais qui correspond à ce que le site attend.
* navigateurs sans tête si l’on essaie de jouer des tours JS
* Profil virtuel (construire des clients virtuels qui se répètent, c’est-à-dire qui apparaissent comme de vrais clients et où leurs en-têtes, etc. restent les mêmes mais qui suivent un modèle de threads/re-scraping)
* Profils de compte (voir ci-dessus mais où vous créez des comptes et continuez à gratter chaque compte dans certains intérêts chaque jour). Très difficile à reconnaître en dehors des contrôles aléatoires.
* Et lire le github où les gens intègrent l’anti-scraping dans leur logiciel et ensuite vous faites juste l’inverse (comme certains navigateurs ont des bugs/fonctionnalités que l’on peut utiliser pour empêcher le scraping, mais si vous le savez, vous imitez ce comportement. Ou vous utilisez simplement un navigateur sans tête)

Et gardez à l’esprit qu’une fois que vous avez récupéré le contenu d’un site, vous allez rechercher de nouveaux contenus, c’est-à-dire que votre récupération ne se traduira pas par des dizaines de millions d’appels supplémentaires pour tout obtenir. Le problème pour les sites d’arrêter de scraper est qu’ils doivent de plus en plus chercher des cas particuliers pour reconnaître les robots scrapeurs.

Là où un scraper, une fois qu’un bon système a été construit, peut continuer à réutiliser ce même système sur tous les sites Web (à condition qu’il y ait des mises à jour ici et là si quelqu’un a trouvé une nouvelle astuce).

C’est une guerre que vous perdez des automatiques parce que le grattoir n’a pas à se soucier de la clientèle. En tant qu’administrateur de site Web, vous devez faire attention à ce que votre anti-scraping ne tue pas de vrais utilisateurs comme les personnes qui n’utilisent pas de navigateurs chrome standard ou qui ont des modèles différents de ceux d’habitude. Où un grattoir peut contourner un bloc avec moins d’effort.

Et le grattage est aussi une grosse affaire. Il existe des entreprises spécialisées dans le scraping de contenu, où vous payez 500 $ pour des millions d’appels par mois. Et ils le font quand les correctifs si un site bloque des choses. La réalité est que s’ils veulent vos données, ils les obtiendront. Et à un prix BEAUCOUP moins cher que ce que de nombreuses entreprises proposent à leur API. Ironiquement, protéger votre site Web contre le scraping est en réalité plus coûteux car vous devez rendre des pages entières de votre serveur, le scraper n’extrait que des bits. Où si vous offrez ces données à moindre coût via une API, les gens utiliseront simplement l’API et vos serveurs se plaindront moins.

La réalité est qu’il y a toute une industrie qui s’occupe de cela et que le scraping lui-même n’est pas illégal, c’est ce que vous faites avec les données qui pose problème. Et si ces données sont traitées dans des modèles d’IA, amusez-vous à découvrir cela.

La seule façon d’arrêter de scraper est les services payants (et puis il y aura aussi un service illégal de comptes volés/paypal volés, etc. qui offrira du scraping). Mais les services payants sont TRÈS difficiles à mettre en place car les gens n’ont que peu d’argent gratuit chaque mois. Et puis ils ne donnent cet argent qu’aux services élevés / importants… Spotify, Youtube (s’ils arrêtent vraiment les bloqueurs de publicités), les services de streaming. Et ploc, plus d’argent pour d’autres services. C’est un peu le problème de nos jours. Une fois que tout devient trop payant, vous perdez des utilisateurs et les gens retournent sur la voie illisible. Et… bonjour les grattoirs.

C’est vraiment un cycle que la plupart des entreprises ne comprennent pas. Les gens ne sont pas des pots d’argent illimité et c’est faisable si vous, en tant qu’entreprise, avez construit une position de monopole dans un segment de marché, mais tout le reste, eh bien …

2023-07-02 09:42:53
1688298676

#Twitter #introduit #des #limites #quotidiennes #temporaires #pour #empêcher #collecte #données #Pro #Actualités

Lai Guanlin a mis fin à son contrat et s’est retourné dans les coulisses. Il a été révélé sur Internet qu’il avait écrit une longue lettre aux fans pour exprimer ses sentiments : Je suis déterminé Boo Xingwen Titres de divertissement |

Lai Kuanlin, 22 ans, a fait ses débuts en tant que membre de Wanna One lors de

Nick Mavar, matelot de pont sur “Deadliest Catch”, est décédé à 59 ans

Nick Mavar, matelot sur Découverte Série télé-réalité sur la pêche extrême de la chaîne «Prise la plus

Simone Ashley révèle si elle et Jonathan Bailey reviendront pour la quatrième saison de Bridgerton | Bridgerton, Jonathan Bailey, Netflix, Simone Ashley, Télévision | Just Jared : actualités et potins sur les célébrités

Simone Ashley s’est ouvert sur l’avenir d’Anthony Bridgerton et Kate Sharma le La Chronique des Bridgerton. Elle

Nouvelles Du Monde

Twitter introduit des limites quotidiennes temporaires pour empêcher la collecte de données – IT Pro – Actualités

Related

Leave a Comment Cancel Reply

Lai Guanlin a mis fin à son contrat et s’est retourné dans les coulisses. Il a été révélé sur Internet qu’il avait écrit une longue lettre aux fans pour exprimer ses sentiments : Je suis déterminé Boo Xingwen Titres de divertissement |

Nick Mavar, matelot de pont sur “Deadliest Catch”, est décédé à 59 ans

Simone Ashley révèle si elle et Jonathan Bailey reviendront pour la quatrième saison de Bridgerton | Bridgerton, Jonathan Bailey, Netflix, Simone Ashley, Télévision | Just Jared : actualités et potins sur les célébrités

Guerre à Gaza, 8 soldats israéliens tués : leur véhicule blindé explose à Rafah

RECENT POSTS

7 conseils efficaces pour communiquer avec les gens et établir des contacts utiles

Ces stars qui ne seront pas à la Coupe du Monde

ADVERTISEMENT

Nouvelles Du Monde

Twitter introduit des limites quotidiennes temporaires pour empêcher la collecte de données – IT Pro – Actualités

Share this:

Related

Leave a Comment Cancel Reply

Lai Guanlin a mis fin à son contrat et s’est retourné dans les coulisses. Il a été révélé sur Internet qu’il avait écrit une longue lettre aux fans pour exprimer ses sentiments : Je suis déterminé Boo Xingwen Titres de divertissement |

Share this:

Nick Mavar, matelot de pont sur “Deadliest Catch”, est décédé à 59 ans

Share this:

Simone Ashley révèle si elle et Jonathan Bailey reviendront pour la quatrième saison de Bridgerton | Bridgerton, Jonathan Bailey, Netflix, Simone Ashley, Télévision | Just Jared : actualités et potins sur les célébrités

Share this:

Guerre à Gaza, 8 soldats israéliens tués : leur véhicule blindé explose à Rafah

Share this:

RECENT POSTS

7 conseils efficaces pour communiquer avec les gens et établir des contacts utiles

Ces stars qui ne seront pas à la Coupe du Monde

ADVERTISEMENT

Tags