Un passo verso autopiloti sicuri e affidabili per il volo
Le immagini per il download sul sito web dell'ufficio notizie del MIT sono rese disponibili a entità non commerciali, stampa e pubblico in generale sotto una licenza Creative Commons Attribution Non-Commercial No Derivatives. Non è possibile modificare le immagini fornite, se non ritagliandole a misura. Per la riproduzione delle immagini è necessario utilizzare una linea di credito; se non ne viene fornito uno di seguito, accreditare le immagini a "MIT".
Immagine precedente Immagine successiva
Nel film "Top Gun: Maverick", Maverick, interpretato da Tom Cruise, ha il compito di addestrare i giovani piloti a completare una missione apparentemente impossibile: far volare i loro jet in profondità in un canyon roccioso, rimanendo così basso rispetto al suolo da non poter essere individuato. dal radar, quindi uscire rapidamente dal canyon con un'angolazione estrema, evitando le pareti rocciose. Avviso spoiler: con l'aiuto di Maverick, questi piloti umani portano a termine la loro missione.
Una macchina, d’altro canto, farebbe fatica a completare lo stesso compito frenetico. Per un velivolo autonomo, ad esempio, il percorso più diretto verso il bersaglio è in conflitto con ciò che la macchina deve fare per evitare di scontrarsi con le pareti del canyon o di non essere rilevata. Molti metodi di intelligenza artificiale esistenti non sono in grado di superare questo conflitto, noto come problema di stabilizzazione-evitamento, e non sarebbero in grado di raggiungere il loro obiettivo in modo sicuro.
I ricercatori del MIT hanno sviluppato una nuova tecnica in grado di risolvere problemi complessi di stabilizzazione-evitazione meglio di altri metodi. Il loro approccio di apprendimento automatico eguaglia o supera la sicurezza dei metodi esistenti fornendo allo stesso tempo un aumento di dieci volte della stabilità, il che significa che l’agente raggiunge e rimane stabile all’interno della sua regione obiettivo.
In un esperimento che avrebbe reso orgoglioso Maverick, la loro tecnica ha effettivamente pilotato un aereo a reazione simulato attraverso uno stretto corridoio senza schiantarsi al suolo.
“Si tratta di un problema impegnativo e di vecchia data. Molte persone l'hanno guardato ma non sapevano come gestire dinamiche così complesse e ad alta dimensione", afferma Chuchu Fan, professore assistente Wilson di aeronautica e astronautica, membro del Laboratorio per i sistemi di informazione e decisione (LIDS) ) e autore senior di un nuovo articolo su questa tecnica.
Fan è affiancato dall'autore principale Oswin So, uno studente laureato. Il documento sarà presentato alla conferenza Robotics: Science and Systems.
La sfida stabilizzare-evitare
Molti approcci affrontano problemi complessi di stabilizzazione-evitazione semplificando il sistema in modo da poterlo risolvere con calcoli semplici, ma i risultati semplificati spesso non reggono le dinamiche del mondo reale.
Tecniche più efficaci utilizzano l'apprendimento per rinforzo, un metodo di apprendimento automatico in cui un agente impara per tentativi ed errori con una ricompensa per il comportamento che lo avvicina a un obiettivo. Ma gli obiettivi in realtà sono due: restare stabili ed evitare gli ostacoli, e trovare il giusto equilibrio è noioso.
I ricercatori del MIT hanno suddiviso il problema in due fasi. Innanzitutto, riformulano il problema stabilizzare-evitare come un problema di ottimizzazione vincolata. In questa configurazione, la risoluzione dell'ottimizzazione consente all'agente di raggiungere e stabilizzarsi al suo obiettivo, il che significa che rimane all'interno di una determinata regione. Applicando vincoli, assicurano che l'agente eviti gli ostacoli, spiega So.
Quindi, nella seconda fase, riformulano il problema di ottimizzazione vincolata in una rappresentazione matematica nota come forma epigrafe e la risolvono utilizzando un algoritmo di apprendimento per rinforzo profondo. La forma dell'epigrafe consente loro di aggirare le difficoltà che altri metodi affrontano quando utilizzano l'apprendimento per rinforzo.
“Ma l’apprendimento per rinforzo profondo non è progettato per risolvere la forma epigrafica di un problema di ottimizzazione, quindi non potevamo semplicemente inserirlo nel nostro problema. Abbiamo dovuto derivare le espressioni matematiche che funzionano per il nostro sistema. Una volta ottenute queste nuove derivazioni, le abbiamo combinate con alcuni trucchi ingegneristici esistenti utilizzati con altri metodi”, afferma So.