Tag: web crawler
Tag: web crawler
-

Anubis, lo strumento open source gratuito per contrastare i bot AI
Xe Iaso ha creato Anubis, un tool open source per difendere i siti dai bot AI che fanno scraping sul web. Leggi qui
-

Scraping AI, archivi di biblioteche e collezioni aperte in sovraccarico
Bot di scraping IA stanno causando episodi di disservizi e blocchi all’accesso pubblico ai server di musei e archivi. Leggi qui
-

Come gli sviluppatori combattono ia crawler AI che invadono il web
I crawler AI mettono in difficoltà i progetti open source. Ma gli sviluppatori reagiscono con soluzioni creative. Leggi qui.
-

Lotta ai crawler: protezione dati ma anche minaccia all’accessibilità
I siti web tendono a bloccare i crawler, ma ciò potrebbe limitare l’accesso a dati cruciali per la trasparenza e l’informazione online.
-

Applebot-Extended introduce nuove scelte per bloccare dati all’IA
Quest’estate, Apple ha introdotto Applebot-Extended, un’estensione del proprio web crawler che consente agli editori di scegliere di escludere i propri dati dal training dei modelli di IA dell’azienda. Sono molti i grandi editori e le piattaforme social che hanno scelto di usufruire di quest’estensione per proteggere i propri dati dal processo di addestramento AIdi Apple,…
-

In che modo i blocchi dei siti web influenzano l’addestramento degli LLM?
Uno studio ha recentemente esaminato la percentuale di siti web di notizie principali in dieci paesi che bloccano i crawler dotati di IA, utilizzati da aziende come OpenAI e Google per estrarre dati e addestrare modelli linguistici. Entro la fine del 2023, il 48% dei siti bloccava i crawler di OpenAI, mentre il 24% bloccava…
-

Il bot di OpenAI intrappolato nel labirinto della “fattoria dei contenuti”
Il crawler di addestramento di OpenAI è finito in una sorta di loop esplorando “la più noiosa fattoria di contenuti del mondo” online, creata da John Levine, autore di “Internet for Dummies”. Questo sito, composto da miliardi di pagine con nomi generati casualmente, ha intrappolato il bot di OpenAI che ha navigato sulle pagine più…
