L’evoluzione costante delle tecnologie legate all’intelligenza artificiale ha portato a progressi significativi nei campi dell’elaborazione del linguaggio naturale e del machine learning.
OpenAI ha rilasciato un nuovo bot di web crawling, GPTBot, progettato per esplorare il mondo online al fine di migliorare i modelli di intelligenza artificiale. In questo articolo, esamineremo da vicino il GPTBot, il suo utilizzo e come i proprietari di siti web possono personalizzare l’accesso a questa innovativa piattaforma.
GPTBot è un web crawler sviluppato da OpenAI, creato per analizzare pagine web al fine di arricchire e perfezionare i modelli di linguaggio delle reti neurali artificiali.
L’obiettivo principale di GPTBot è acquisire dati pubblicamente disponibili da siti web, ma in modo responsabile. Eviterà con attenzione contenuti soggetti a paywall, nonché informazioni sensibili o vietate. Similarmente a motori di ricerca famosi come Google, Bing e Yandex, GPTBot è configurato con una mentalità aperta: di default, presumirà che i contenuti accessibili siano idonei per l’uso.
L’accesso a una vasta gamma di pagine web consente ai modelli di intelligenza artificiale di apprendere e acquisire una comprensione più approfondita della lingua, delle culture e delle informazioni generali presenti online. Ciò contribuisce a migliorare le capacità di comprensione, generazione di testo e risposta delle AI, rendendole più accurate e affidabili.
GPTBot è identificabile attraverso il seguente user agent e stringa:
User agent token: GPTBot Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
Un numero crescente di aziende di spicco ha reagito prontamente alla presenza del crawler implementato da ChatGPT, adottando misure per gestire l’interazione con i propri siti web e con i contenuti pubblicati.
Aziende leader come Amazon, il New York Times, Ikea, CNN e molte altre hanno implementato restrizioni nel loro file “robots.txt” per modificare il comportamento del crawler:
Queste azioni riflettono un crescente riconoscimento dell’importanza di mantenere un controllo efficace sull’accesso e sull’utilizzo dei contenuti online.
Il New York Times ha scelto di bloccare l’accesso dei suoi contenuti a ChatGPT per via delle crescenti preoccupazioni che riguardano la sua possibile competizione diretta con il giornale. Secondo quanto riportato da NPR, la principale preoccupazione del New York Times è che ChatGPT possa usare i contenuti, anche quelli esclusivi, creati dal giornale stesso senza dar loro l’attribuzione adeguata.
Nel contesto statunitense, circola la notizia che il New York Times potrebbe avviare un’azione legale contro ChatGPT a fronte di questa situazione.
Questo potrebbe far sì che OpenAI affronti sanzioni significative, che potrebbero arrivare fino a 150.000 dollari per ogni articolo consultato senza autorizzazione e il cui contenuto è stato utilizzato per addestrare gli algoritmi.
Oltre al New York Times, come evidenziato nel paragrafo precedente, anche molte altre aziende hanno subito preso provvedimenti impedendo l’accesso a ChatGPT, sebbene non siano note le precise motivazioni.
Saranno anche queste di carattere economico?
Nel caso in cui i proprietari di siti web desiderino impedire l’accesso del GPTBot alle proprie pagine, è possibile farlo attraverso l’uso del file robots.txt.
Clicca qui sotto per scaricare le istruzioni complete e impedire l’accesso al crawler di OpenAI dal tuo sito web.
Open AI, solo tre settimane dopo aver presentato una richiesta di marchio per “GPT-5”, ha svelato il suo nuovo crawler, aprendo la strada a quello che potrebbe essere il successore del rinomato modello GPT-4.
Il deposito della richiesta di marchio è avvenuto presso l’Ufficio Brevetti e Marchi degli Stati Uniti il 18 luglio, e copre un’ampia gamma di utilizzi per il termine “GPT-5”. Questo include il software basato sull’intelligenza artificiale per il linguaggio umano e il testo, oltre alla conversione audio-testo.
Nel mese di giugno, il fondatore e CEO di OpenAI, Sam Altman, ha condiviso che l’azienda è ancora lontana dall’avvio della formazione di GPT-5. Ha spiegato che una serie di audit di sicurezza deve essere completata prima di intraprendere questo nuovo passo. Quindi, mentre la strada per GPT-5 è ancora in fase di definizione, resta ancora incerto quando avremo il piacere di conoscere questo nuovo e avanzato modello di intelligenza artificiale.
Colossi come Amazon, New York Times e Ikea hanno stoppato il crawler di OpenAI dall’usare i loro contenuti per addestrare l’Intelligenza artificiale. In questo momento è importante sapere essenzialmente due cose: che OpenAI scansiona il tuo sito web col suo bot e che, se questo non ti va bene, puoi interrompere la scansione attraverso le istruzioni del tuo robots.txt. Si tratta di una scelta aziendale da ponderare, ma è in ogni caso un fattore su cui la tua azienda dovrà prendere una decisione.
Se hai bisogno di supporto per modificare il tuo robots.txt, per conoscere più nel dettaglio i meccanismi dell’intelligenza artificiale o per avere aiuto nell’organizzare al meglio la tua strategia SEO, contattaci per una consulenza, saremo felici di lavorare con te.