Perplexity este acuzată de extragerea de date de pe site-uri care interzic clar utilizarea AI-ului pentru scraping

0:00

Acuzarea Perplexity de scraping neautorizat

Startup-ul de inteligență artificială Perplexity este acuzat de extragerea de date de pe site-uri care au interzis explicit utilizarea AI-ului pentru scraping, conform unui raport al furnizorului de infrastructură internet Cloudflare.

Comportamentul Perplexity observat de Cloudflare

Cloudflare a publicat luni un studiu în care afirmă că a observat Perplexity ignorând blocările și ascunzându-și activitățile de crawling și scraping. Cercetătorii de la Cloudflare au scris că Perplexity a încercat să își obfusce identitatea pentru a ocoli preferințele site-urilor vizitate.

Metodele de scraping utilizate

Produsele AI, precum cele oferite de Perplexity, depind de extragerea unor cantități mari de date de pe internet. Startup-urile de AI au scris frecvent texte, imagini și videoclipuri de pe internet fără permisiune. În ultima vreme, site-urile au încercat să contracareze aceste acțiuni prin utilizarea fișierului standard Robots.txt, care indică motoarelor de căutare și companiilor AI ce pagini pot fi indexate.

Perplexity pare să ocolească aceste blocări prin modificarea „user agent”-ului botului său, un semnal care identifică vizitatorul unui site prin dispozitiv și versiune, precum și prin schimbarea rețelelor de sisteme autonome (ASN).

Observațiile Cloudflare

Cloudflare a observat această activitate pe zeci de mii de domenii și milioane de cereri pe zi. Compania a reușit să identifice crawlerul folosind o combinație de învățare automată și semnale de rețea.

Un purtător de cuvânt al Perplexity, Jesse Dwyer, a respins raportul Cloudflare ca fiind o „campanie de vânzări”, adăugând că screenshot-urile prezentate arată că „nu a fost accesat niciun conținut”. Dwyer a susținut că botul menționat de Cloudflare „nu este chiar al nostru”.

Reacția Cloudflare la plângerile clienților

Cloudflare a început să observe comportamentul după ce clienții săi s-au plâns că Perplexity le scana și extrăgea datele, chiar și după ce au adăugat reguli în fișierul Robots pentru a bloca boturile cunoscute ale Perplexity. Cloudflare a efectuat teste și a confirmat că Perplexity ocolește aceste blocări.

Implicarea Cloudflare în combaterea boturilor

Cloudflare a declarat că Perplexity folosește nu doar user-agentul declarat, ci și un browser generic menit să imite Google Chrome pe macOS atunci când crawlerul declarat este blocat. Compania a scos boturile Perplexity de pe lista sa verificată și a adăugat tehnici noi pentru a le bloca.

Contextul mai larg al scraping-ului AI

Cloudflare a adoptat o poziție publică împotriva crawlerelor AI. Luna trecută, a anunțat lansarea unei piețe care permite proprietarilor de site-uri și editorilor să taxeze scrapers-urile AI care le vizitează site-urile. CEO-ul Cloudflare, Matthew Prince, a avertizat că AI-ul afectează modelul de afaceri al internetului, în special pentru editori. De asemenea, Cloudflare a lansat un instrument gratuit pentru a împiedica boturile să extragă date de pe site-uri pentru a antrena AI-ul.

Accuze anterioare de scraping neautorizat

Nu este prima dată când Perplexity este acuzată de scraping fără autorizație. Anul trecut, publicații precum Wired au susținut că Perplexity plagiază conținutul lor. La câteva săptămâni după aceste acuzații, CEO-ul Perplexity, Aravind Srinivas, nu a fost capabil să răspundă imediat când a fost întrebat despre definiția companiei pentru plagiat.

Concluzie

Acuzațiile de scraping neautorizat împotriva Perplexity subliniază tensiunile crescânde dintre startup-urile de AI și proprietarii de conținut online, având implicații semnificative pentru modelul de afaceri al internetului și pentru reglementările viitoare în domeniu.

Femeie sub influența alcoolului, fără permis, implicată într-un accident tragic lângă Capitală. Un bărbat a fost găsit mort, lăsat pe marginea drumului

Viktor Orban intră într-o dispută online cu executivul unei națiuni europene, schimburi acide pe platformele sociale

ANAF utilizează inteligența artificială pentru a descoperi fraudele cu TVA. Mii de tranzacții sunt deja investigate

Aeroporturi europene în alertă: haos la înregistrare, zboruri întârziate sau anulate

Rabla Auto își face din nou apariția: până la 18.500 lei pentru achiziția de mașini electrice. Ce trebuie să știi despre înscriere

Perplexity este acuzată de extragerea de date de pe site-uri care interzic clar utilizarea AI-ului pentru scraping

Acuzarea Perplexity de scraping neautorizat

Comportamentul Perplexity observat de Cloudflare

Metodele de scraping utilizate

Observațiile Cloudflare

Reacția Cloudflare la plângerile clienților

Implicarea Cloudflare în combaterea boturilor

Contextul mai larg al scraping-ului AI

Accuze anterioare de scraping neautorizat

Concluzie

Lasă un răspuns Anulează răspunsul

POPULARE

Zodiile care vor experimenta o iubire intensă până la sfârșitul lunii septembrie. Se anunță surprize de amploare pentru acești nativi

Gestul emoționant al Tily Niculae pentru femeia care întreține curățenia în imobilul său: „O lecție de umanitate”

Irina Loghin îmbrățișează legumele la 86 de ani. Descoperă rețeta delicioasă a budincii de conopidă, favorita sa, și află de la nutriționiști cum acest ingredient ajută la prevenirea bolilor cardiace

Fritz își exprimă îngrijorarea față de Bolojan în cazul în care pensiile speciale ale judecătorilor sunt respinse de CCR: continuarea este extrem de dificilă în fața incertitudinii

Social

Acuzarea Perplexity de scraping neautorizat

Comportamentul Perplexity observat de Cloudflare

Metodele de scraping utilizate

Observațiile Cloudflare

Reacția Cloudflare la plângerile clienților

Implicarea Cloudflare în combaterea boturilor

Contextul mai larg al scraping-ului AI

Accuze anterioare de scraping neautorizat

Concluzie

Lasă un răspuns Anulează răspunsul

POPULARE

Social

Abonează-te la Newsletter