L’intelligenza artificiale trascorre 7.000 ore per superare la prima palestra di Pokemon Rosso, ma ancora dopo 50.000 ore non riesce a trovare la seconda palestra.

L'intelligenza artificiale sfida la palestra di primo livello di Pokémon Rosso per 7.000 ore, ma dopo 50.000 ore non si avvicina alla seconda palestra.

Un programmatore ha dato a un modello di intelligenza artificiale 50.000 ore di addestramento su come giocare a Pokemon Red, ottenendo un algoritmo in grado di esplorare il gioco e costruire una squadra per sconfiggere il primo leader di palestra, ma non uno in grado di trovare la strada attraverso Mt. Moon o di capire che comprare Magikarp non è la scelta migliore. In generale, questo esercizio è un modo affascinante per capire come funziona davvero l’apprendimento automatico.

Come descritto in un dettagliato video di Peter Whidden, l’intelligenza artificiale è in grado di interagire con il gioco attraverso gli input di controllo usuali su un emulatore. Premendo un pulsante, guarda lo schermo per vedere cosa succede, proprio come farebbe un giocatore umano. Whidden ha impostato sessioni di apprendimento della durata di due ore di gioco, anche se con l’emulazione accelerata queste sessioni potevano essere completate in circa sei minuti in tempo reale. Inoltre, il processo è stato reso ancora più veloce eseguendo contemporaneamente 40 sessioni di test.

Poiché un algoritmo automatico non ha necessariamente l’obiettivo di battere un videogioco, Whidden ha stabilito dei obiettivi specifici per cui l’intelligenza artificiale veniva ricompensata. Per incentivare l’esplorazione curiosa, l’IA riceveva un punto di premio ogni volta che vedeva qualcosa di nuovo, misurato attraverso l’apparizione di pixel visibilmente diversi sullo schermo. Questo ha avuto alcuni effetti collaterali imprevisti, ad esempio l’IA poteva fissare affascinata la lieve animazione dell’acqua, ma in generale ha spinto il computer a muoversi da Pallet Town attraverso Viridian Forest fino a Pewter City, dove si svolge la prima battaglia di palestra contro Brock.

L’IA ha bisogno di ulteriori ricompense e punizioni. Con tutte le ricompense legate alla scoperta di nuove cose, l’IA si preoccupa solo di andare avanti, il che significa che non si preoccupa di combattere o catturare Pokemon, quindi all’inizio scappava da ogni incontro. Quindi Whidden ha aggiunto un sistema in cui l’IA viene premiata in base al livello totale del suo team Pokemon attivo.

Questo ha funzionato per far sì che l’IA combattesse per ottenere punti esperienza e per catturare Pokemon, ma ha avuto anche una conseguenza imprevista. Quando l’IA andava in un Centro Pokemon, interagiva con il computer e depositava alcuni Pokemon. Questo faceva diminuire drammaticamente il livello totale del team, eliminando in una volta sola un gran numero di punti premio. Questo è stato approssimativamente equivalente a un’esperienza traumatica per l’IA, che ha smesso di andare nei Centri Pokemon in generale, rifiutandosi di curare il suo team, finché Whidden non ha modificato nuovamente i sistemi di ricompensa.

Dal momento che l’IA continua a fare cose a caso fino a quando non trova qualcosa che gli conferisce punti premio, la lotta contro Brock si è rivelata un problema particolare, dal momento che è necessario sfruttare le debolezze elementali dei suoi Pokemon di tipo roccia per infliggere loro danni reali. Solo grazie a una particolare iterazione in cui l’Squirtle dell’IA si trovava senza PP per tutti i suoi attacchi tranne Bubblebeam, l’algoritmo è riuscito a capire come sconfiggere la palestra.

Tuttavia, sebbene l’IA abbia difficoltà a capire cose che potrebbero venire naturalmente ai giocatori umani, impara rapidamente altre cose molto più esoteriche. Whidden si è reso conto in un certo punto che l’algoritmo tracciava sempre un percorso specifico e apparentemente insensato da Pallet Town fino al primo incontro con un Pokemon selvatico. Questo sembrava strano finché non è diventato chiaro che questa precisa serie di input garantiva che il Pokemon selvatico potesse essere catturato con un solo lancio di una Pokeball. Sì, l’IA ha imparato spontaneamente l’arte stessa della manipolazione degli RNG che i speedrunners impiegano anni a sviluppare.

Battere Brock era un obiettivo naturale per il progetto, ma Whidden ha lasciato l’IA a svolgere ulteriori sessioni per vedere cosa sarebbe successo e l’IA è riuscita ad arrivare profondamente in Mt. Moon. Tuttavia, i passaggi umidi e monotoni del dungeon erano così scoraggianti per l’IA che non è mai riuscita a trovare la via d’uscita, quindi non è mai stata in grado di trovare la seconda palestra a Cerulean City.

Tuttavia, una cosa che l’IA adorava fare era comprare Magikarp. Il tizio losco che ti vende il peggior Pokemon di tutti i tempi a un prezzo assurdo è ormai una sorta di barzelletta, ma per l’IA, comprare quel Magikarp rappresentava un modo veloce per ottenere cinque livelli di Pokemon in più nel suo team, il miglior affare del gioco! Apparentemente, l’IA ha comprato quel Magikarp oltre 10.000 volte.

A proposito, per concludere, un aneddoto sulla magia di un computer che fa cose casuali: a un certo punto, l’IA ha catturato un Rattata e gli ha dato il nome di ‘AI’. A volte, queste cose funzionano troppo perfettamente.

L’arte e la scrittura generate da intelligenza artificiale sono estremamente controverse, ma alcuni sviluppatori esperti credono che nell’industria dei giochi, “il denaro spingerà assolutamente tutti” ad utilizzare l’apprendimento automatico.