Perplexity este acuzată de extragerea de date de pe site-uri care interzic clar utilizarea AI-ului pentru scraping

0:00

Acuzarea Perplexity de scraping neautorizat

Startup-ul de inteligență artificială Perplexity este acuzat de extragerea de date de pe site-uri care au interzis explicit utilizarea AI-ului pentru scraping, conform unui raport al furnizorului de infrastructură internet Cloudflare.

Comportamentul Perplexity observat de Cloudflare

Cloudflare a publicat luni un studiu în care afirmă că a observat Perplexity ignorând blocările și ascunzându-și activitățile de crawling și scraping. Cercetătorii de la Cloudflare au scris că Perplexity a încercat să își obfusce identitatea pentru a ocoli preferințele site-urilor vizitate.

Metodele de scraping utilizate

Produsele AI, precum cele oferite de Perplexity, depind de extragerea unor cantități mari de date de pe internet. Startup-urile de AI au scris frecvent texte, imagini și videoclipuri de pe internet fără permisiune. În ultima vreme, site-urile au încercat să contracareze aceste acțiuni prin utilizarea fișierului standard Robots.txt, care indică motoarelor de căutare și companiilor AI ce pagini pot fi indexate.

Perplexity pare să ocolească aceste blocări prin modificarea „user agent”-ului botului său, un semnal care identifică vizitatorul unui site prin dispozitiv și versiune, precum și prin schimbarea rețelelor de sisteme autonome (ASN).

Observațiile Cloudflare

Cloudflare a observat această activitate pe zeci de mii de domenii și milioane de cereri pe zi. Compania a reușit să identifice crawlerul folosind o combinație de învățare automată și semnale de rețea.

Un purtător de cuvânt al Perplexity, Jesse Dwyer, a respins raportul Cloudflare ca fiind o „campanie de vânzări”, adăugând că screenshot-urile prezentate arată că „nu a fost accesat niciun conținut”. Dwyer a susținut că botul menționat de Cloudflare „nu este chiar al nostru”.

Reacția Cloudflare la plângerile clienților

Cloudflare a început să observe comportamentul după ce clienții săi s-au plâns că Perplexity le scana și extrăgea datele, chiar și după ce au adăugat reguli în fișierul Robots pentru a bloca boturile cunoscute ale Perplexity. Cloudflare a efectuat teste și a confirmat că Perplexity ocolește aceste blocări.

Implicarea Cloudflare în combaterea boturilor

Cloudflare a declarat că Perplexity folosește nu doar user-agentul declarat, ci și un browser generic menit să imite Google Chrome pe macOS atunci când crawlerul declarat este blocat. Compania a scos boturile Perplexity de pe lista sa verificată și a adăugat tehnici noi pentru a le bloca.

Contextul mai larg al scraping-ului AI

Cloudflare a adoptat o poziție publică împotriva crawlerelor AI. Luna trecută, a anunțat lansarea unei piețe care permite proprietarilor de site-uri și editorilor să taxeze scrapers-urile AI care le vizitează site-urile. CEO-ul Cloudflare, Matthew Prince, a avertizat că AI-ul afectează modelul de afaceri al internetului, în special pentru editori. De asemenea, Cloudflare a lansat un instrument gratuit pentru a împiedica boturile să extragă date de pe site-uri pentru a antrena AI-ul.

Accuze anterioare de scraping neautorizat

Nu este prima dată când Perplexity este acuzată de scraping fără autorizație. Anul trecut, publicații precum Wired au susținut că Perplexity plagiază conținutul lor. La câteva săptămâni după aceste acuzații, CEO-ul Perplexity, Aravind Srinivas, nu a fost capabil să răspundă imediat când a fost întrebat despre definiția companiei pentru plagiat.

Concluzie

Acuzațiile de scraping neautorizat împotriva Perplexity subliniază tensiunile crescânde dintre startup-urile de AI și proprietarii de conținut online, având implicații semnificative pentru modelul de afaceri al internetului și pentru reglementările viitoare în domeniu.