Een reeks tests wijst op stealth crawling door Perplexity AI, waarbij de AI-antwoordmachine probeert netwerkblokkades te omzeilen door onder meer hun identiteit te verbergen.
Perplexity AI omzeilt webblokades door hun identiteit te verbergen, zo blijkt uit een onderzoek van Cloudfare. De tests tonen aan dat Perplexity zelfs toegang verkreeg tot testwebsites die uitdrukkelijk geconfigureerd waren om crawlers te weren via robots.txt en specifieke WAF-regels. De AI-antwoorden bevatten informatie van deze afgeschermde sites, ondanks dat ze nooit publiekelijk toegankelijk waren gemaakt of geïndexeerd in zoekmachines. Perplexity AI omschrijft het onderzoek van Cloudflare als een verkooppraatje.
User-agent
AI-modellen zoals Perplexity zijn afhankelijk van informatie op het internet om hun antwoorden te formuleren. Ze crawlen door het web om informatie te ontdekken en indexeren. Websites proberen dit tegen te gaan door gebruik te maken van de webstandaard Robots.txt-bestand. Die vertelt de AI-bedrijven welke pagina’s geïndexeerd mogen worden, en welke niet.

Dat is blijkbaar buiten Perplexity gerekend. Het AI-bedrijf zou dit omzeilen door de ‘user agent’ van zijn bots te veranderen. “We zien voortdurend bewijs dat Perplexity herhaaldelijk hun user-agent en hun bron-ASN’s wijzigt om hun crawlactiviteit te verbergen, en robots.txt bestanden negeert – of soms zelfs niet ophaalt”, aldus Cloudflare. Hierdoor lijkt het alsof het verkeer afkomstig is van willekeurige gebruikers in plaats van een crawler.
“We hebben vastgesteld dat Perplexity niet alleen gebruikmaakt van hun gedeclareerde user-agent, maar ook van een algemene browser die bedoeld is om zich voor te doen als Google Chrome op macOS toen hun gedeclareerde crawler werd geblokkeerd”, aldus Cloudflare.
Transparantie
Perplexity-woordvoerder Jesse Dwyer omschreef de blogpost van Cloudflare als een “verkooppraatje” via een mail aan TechCrunch. “De screenshots in de blog laten zien dat er geen inhoud is geopend”, schrijft hij. In een vervolg-e-mail beweerde Dwyer dat de bot die in de Cloudflare-blog wordt genoemd “niet eens van ons is”.
lees ook
Perplexity lanceert eigen Deep Research-tool
De kritiek op het gedrag van Perplexity sluit aan bij bredere zorgen over transparantie en controle op internet. Websitebeheerders eisen dat crawlers duidelijke identiteiten gebruiken, contactinformatie voorzien en zich niet schuilhouden achter generieke browserprofielen. Ook wordt verwacht dat crawlers hun IP-adressen kenbaar maken en zich houden aan de limieten en regels die door websites zijn ingesteld.
