Nouvelles Du Monde

Deux fois plus d’entreprises bloquent le GPTbot d’OpenAI et d’autres robots d’exploration Web IA

Deux fois plus d’entreprises bloquent le GPTbot d’OpenAI et d’autres robots d’exploration Web IA

2023-09-28 13:12:48

  • Des centaines de grandes entreprises et sites Web bloquent désormais le robot d’exploration de ChatGPT.
  • Des dizaines d’autres bloquent également désormais le robot d’exploration de Common Crawl, une source majeure de données de formation en IA.
  • Des données uniques et de haute qualité, principalement extraites du Web, sont essentielles à la performance des modèles d’IA.

De plus en plus d’entreprises tentent d’éviter que leurs données soient librement récupérées et enregistrées par des robots d’exploration travaillant au profit des modèles d’IA.

Le mois dernier, OpenAI a dévoilé pour la dernière fois son propre robot d’exploration, GPTBot, affirmant qu’il respecterait robots.txt, un méthode vieille de plusieurs décennies grâce auquel un site Web peut demander à un robot d’exploration de l’ignorer. Environ 70 des 1 000 sites les plus populaires je l’ai bloquénotamment Amazon et Tumblr.

Cette semaine, Insider a obtenu de nouvelles données à ce sujet Originalité.ai. Cela montre qu’en trois semaines environ, le nombre de principaux sites bloquant GPTbot est passé à plus de 250.

La liste des nouveaux bloqueurs GPTbot comprend Pinterest, Vimeo, GrubHub, Indeed, Apartments.com, The Guardian, Live Science, USA Today, NPR, CBS News et CBS Sports, NBC News et CNBC, The New Yorker, People, et ce qui apparaît. être tous les titres publiés par Hearst et ceux de Condé Nast. Même Weather.com bloque le bot.

Des informations uniques et précises sont essentielles au performances de l’IA générative des modèles comme le GPT-4 d’OpenAI, qui a mémorisé efficacement d’énormes quantités de texte pour répondre intelligemment aux questions des utilisateurs. La plupart des informations sur lesquelles ces modèles sont formés proviennent d’Internet, bien que la plupart soient détenues ou protégées par le droit d’auteur. Une prise de conscience croissante de cette pratique a conduit à plusieurs poursuites judiciaires, et nouvelles règles gouvernementales et des réglementations pourraient être en route.

De nombreuses autres entreprises bloquent désormais également CCBot, un robot d’exploration Web utilisé par Common Crawl. Basé en Europe, Common Crawl a passé des années à collecter des quantités massives de données du Web, y compris trucs sous copyright, et organiser les ensembles de données pour les utiliser comme données de formation gratuites pour de grands modèles de langage tels que Meta’s Llama. Fin septembre, selon les données d’Originality.ai, près de 14 % des 1 000 sites Web les plus populaires bloquaient CCBot.

Ceux qui bloquent CCBot incluent Amazon, Vimeo, Masterclass, Kelly Blue Book, The New York Times, The New Yorker et The Atlantic. Beaucoup de ceux qui bloquent CCBot bloquent également GPTBot. Bien qu’il semble que la notoriété de ChatGPT ait poussé davantage d’entreprises à bloquer son robot d’exploration, même si CCBot est probablement actif sur une période plus longue.

Alors que les entreprises en ligne ont déployé robots.txt pour tenter d’empêcher que leurs données ne soient utilisées pour former des modèles d’IA, de nombreuses entreprises technologiques ont mis à jour leurs conditions d’utilisation et leurs politiques d’utilisation pour leur donner un accès gratuit et complet au contenu et à l’activité des utilisateurs. utilisation dans les projets et la formation en IA.

Voir ci-dessous pour une liste complète des plus grands sites Web bloquant désormais GPTBot et CCBot depuis le 22 septembre :

Bloquer GPTBot

  • amazon.com

  • quora.com

  • nytimes.com

  • theguardian.com

  • Shutterstock.com

  • wikihow.com

  • cnn.com

  • sciencedirect.com

  • usatoday.com

  • ligne santé.com

  • stackexchange.com

  • alamy.com

  • scribd.com

  • webmd.com

  • nouvelles-du-monde.com

  • dictionnaire.com

  • Reuters.com

  • Washingtonpost.com

  • Medicalnewstoday.com

  • npr.org

  • cbsnews.com

  • goodhousekeeping.com

  • amazon.fr

  • tumblr.com

  • latimes.com

  • initié.com

  • glassdoor.com

  • vocabulaire.com

  • investiropedia.com

  • slideshare.net

  • amazon.de

  • cosmopolitan.com

  • nbcnews.com

  • indiamart.com

  • stackoverflow.com

  • hindustantimes.com

  • bloomberg.com

  • cnbc.com

  • people.com

  • tvtropes.org

  • amazon.fr

  • vimeo.com

  • verywellhealth.com

  • ikea.com

  • espn.com

  • indianexpress.com

  • thésaurus.com

  • pbs.org

  • 123rf.com

  • wattpad.com

  • variété.com

  • aujourd’hui.com

  • popsugar.com

  • thespruce.com

  • uol.com.br

  • amazon.fr

  • geeksforgeeks.org

  • elle.com

  • Economictimes.com

  • pcmag.com

  • theverge.com

  • toutes les recettes.com

  • penséeco.com

  • Rollingstone.com

  • filaire.com

  • nextdoor.com

  • hollywoodreporter.com

  • abc.net.au

  • ew.com

  • amazon.ca

  • news18.com

  • womenshealthmag.com

  • évaluezvotremusique.com

  • amazon.co.jp

  • techradar.com

  • airbnb.com

  • ndtv.com

  • lifewire.com

  • tomsguide.com

  • vautour.com

  • santé au quotidien.com

  • polygone.com

  • laconversation.com

  • esquire.com

  • prnewswire.com

  • billboard.com

  • menshealth.com

  • metro.co.uk

  • countryliving.com

  • mashable.com

  • jeuxradar.com

  • thehindu.com

  • timesofindia.com

  • date limite.com

  • harpersbazaar.com

  • medscape.com

  • nymag.com

  • raffinerie29.com

  • radiotimes.com

  • cbssports.com

  • tandfonline.com

  • theatlantic.com

  • trulia.com

  • amazon.es

  • pinterest.es

  • nationalgeographic.com

  • bhg.com

  • mangeur.com

  • Southernliving.com

  • healthgrades.com

  • vice.com

  • picclick.com

  • agitation.com

  • newyorker.com

  • eonline.com

  • digitalspy.com

  • opentable.com

  • pinterest.de

  • thepioneerwoman.com

  • caranddriver.com

  • byrdie.com

  • livemint.com

  • medicinenet.com

  • enseignantspayteachers.com

  • Cookpad.com

  • thespruceeats.com

  • bizjournals.com

  • pagesjaunes.fr

  • liputan6.com

  • delish.com

  • masterclass.com

  • archiveofourown.org

  • vox.com

  • realsimple.com

  • aarp.org

  • francetvinfo.fr

  • pinterest.fr

  • kumparan.com

  • theathletic.com

  • voyageetloisirs.com

  • vogue.com

  • livescience.com

  • appartements.com

  • marketwatch.com

  • glamour.com

  • amazon.it

  • cinémablend.com

  • thrillist.com

  • amazon.com.br

  • pinterest.fr

  • angi.com

  • alamy.es

  • usmagazine.com

  • distraire.com

  • bbcgoodfood.com

  • jagran.com

  • mercadolibre.com.mx

  • androidauthority.com

  • city-data.com

  • foodandwine.com

  • bonjourmagazine.com

  • amazon.com.au

  • gq.com

  • frances.com

  • amarujala.com

  • ieee.org

  • prévention.com

  • stern.de

  • kbb.com

  • edmunds.com

  • marthastewart.com

  • pcgamer.com

  • justanswer.com

  • santé.com

  • 20minutes.fr

  • fortune.com

  • maisons.com

  • scientificamerican.com

  • popularmechanics.com

  • verywellfit.com

  • vanityfair.com

  • chicagotribune.com

  • verywellmind.com

  • maisonbeautiful.com

  • cntraveler.com

  • allure.com

  • espagnoldict.com

  • jamaisbounce.com

  • réponses.com

  • moneycontrol.com

  • architecturaldigest.com

  • ardoise.com

  • lonelyplanet.com

  • inverse.com

  • corriere.it

  • actu.fr

  • self.com

  • tripsavvy.com

  • instyle.com

  • mangerbien.com

  • superutilisateur.com

  • welt.de

  • spiegel.de

  • journée de la femme.com

  • dix-sept.com

  • hbr.org

  • oprahdaily.com

  • autotrader.com

  • bonappétit.com

  • sueddeutsche.de

  • seriouseats.com

  • liveabout.com

  • seattletimes.com

  • coursera.org

  • livehindustan.com

  • france24.com

  • townandcountrymag.com

  • dotesports.com

  • lieux du monde.me

  • faz.net

  • teenvogue.com

  • motor1.com

  • nj.com

  • glamourmagazine.co.uk

  • okdiario.com

  • mariées.com

  • stylecaster.com

  • alamyimages.fr

  • jagranjosh.com

  • theglobeandmail.com

  • axios.com

  • francebleu.fr

  • tabelog.com

  • thebalancemoney.com

  • nydailynews.com

  • elle sait.com

  • naomedical.com

  • verywellfamily.com

Bloquer CCBot

  • nytimes.com

  • Shutterstock.com

  • Reuters.com

  • goodhousekeeping.com

  • tumblr.com

  • cosmopolitan.com

  • pixabay.com

  • dépôtphotos.com

  • pbs.org

  • elle.com

  • glosbe.com

  • patch.com

  • filaire.com

  • womenshealthmag.com

  • esquire.com

  • indiaaujourd’hui.in

  • menshealth.com

  • countryliving.com

  • zippia.com

  • chron.com

  • harpersbazaar.com

  • tr-ex.moi

  • detik.com

  • theatlantic.com

  • newyorker.com

  • digitalspy.com

  • etymonline.com

  • thepioneerwoman.com

  • caranddriver.com

  • hinative.com

  • enseignantspayteachers.com

  • delish.com

  • masterclass.com

  • archiveofourown.org

  • theathletic.com

  • vogue.com

  • glamour.com

  • alltrails.com

  • gq.com

  • frances.com

  • prévention.com

  • kbb.com

  • popularmechanics.com

  • vanityfair.com

  • maisonbeautiful.com

  • cntraveler.com

  • allure.com

  • espagnoldict.com

  • architecturaldigest.com

  • self.com

  • sfgate.com

  • journée de la femme.com

  • songkick.com

  • dix-sept.com

  • oprahdaily.com

  • autotrader.com

  • bonappétit.com

  • aajtak.in

  • coursera.org

  • townandcountrymag.com

  • faz.net

  • teenvogue.com

  • glamourmagazine.co.uk



#Deux #fois #dentreprises #bloquent #GPTbot #dOpenAI #dautres #robots #dexploration #Web
1695897595

Facebook
Twitter
LinkedIn
Pinterest

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

ADVERTISEMENT