El nou enfocament d'OpenAI per a l'aprenentatge d'una imitació única, una ullada al futur de l'AI

Aprenentatge d'imitació única, Yan Duan, Marcin Andrychowicz, Bradly C. Stadie, Jonathan Ho, Jonas Schneider, Ilya Sutskever, Pieter Abbeel, Wojciech Zaremba

El 16 de maig, els investigadors d'OpenAI van compartir un vídeo d'un dels seus projectes juntament amb dos treballs d'importància que exploraven solucions per a tres colls d'ampolla del desenvolupament actual de l'AI: metaaprenentatge, aprenentatge únic i generació automatitzada de dades. A la meva entrada anterior, vaig prometre un article dedicat al problema fascinant de l’aprenentatge d’un sol cop, així que aquí va. Podeu començar fent una ullada al vídeo que han publicat que explica el seu increïble treball:

En aquest vídeo veieu un robot físic d’un braç que s’amuntega cubs l’un de l’altre. Conèixer les complexes tasques que poden desenvolupar els robots industrials en l’actualitat, si l’investigador no intentava explicar què passa, a molts comptes això seria molt negatiu. En un entorn controlat, la tasca és senzilla, els enfocaments procedimentals (codificats) ja han resolt aquests problemes, el que és prometedor i revolucionari és la quantitat que el marc general que hi ha sota es pot escalar fins a comportaments múltiples, més complexos i adaptatius en entorns més sorolls.

La diferència de ment entre l’home i els animals superiors, per molt gran que sigui, és certament de grau i no d’amable.
- Charles Darwin

Per analogia, aquest article és una forta evidència que les diferències en els sistemes cognitius entre la IA incorporada actual (intel·ligència artificial dels sistemes físics) i els robots del segle 22 seran de gran escala i no de tipus. Des de la competició ImageNet de 2012 *, la investigació d'aprenentatge profund està en auge, no tant per modificar la naturalesa de la computació distribuïda feta per una xarxa neuronal, sinó per trobar noves maneres d'estructurar les xarxes perquè puguin aprendre una tasca específica. Perquè una funció de xarxa neuronal és estructura, aquesta estructura no està codificada (no dissenyada a mà), sinó que són els resultats de les unitats de computació atòmica inicialment connectades entre entrades i sortides, que poden modificar la seva estructura i connexions. Es modifica mitjançant l'estructura general de la xarxa que s'aprèn una funció específica.

En aquest article van construir un marc general capaç de formar un agent per representar les tasques de forma abstracta i aprendre a transferir aquests coneixements a noves tasques no vistes (transferència d’aprenentatge) després d’una única demostració de la tasca nova (un tir d’aprenentatge d’imitació).

Les tasques

Tot i que la implementació arquitectònica exacta difereix, prenen com a exemple dues tasques per mostrar el rendiment de l’enfocament general.

Assoliment de partícules

En el primer exemple, el sistema rep entrades de posicions de destinació acolorides en un pla i una demostració de vídeo única de l’agent simulat que va a l’objectiu especificat.

Figura 2. El robot és una massa puntual controlada amb força bidimensional. La família de tasques és arribar a una fita objectiu. La identitat de la fita és diferent de la tasca a la tasca, i el model ha de descobrir quin objectiu s'ha de basar en la demostració. (esquerra) il·lustració del robot; (mig) la tasca és arribar a la caixa taronja, (a la dreta) la tasca és arribar al triangle verd.

Durant l’entrenament, el sistema ha de reproduir la mateixa tasca (arribar a taronja) però des d’una altra configuració, amb diferents posicions d’inici del robot i els objectius. No està clar si durant la prova l'agent es posa a prova en la tasca a la qual va ser entrenat (arribar a la taronja) o en la tasca que no havia vist mai abans (per exemple, assolir el color verd) o ambdues coses.

La política de formació s’avalua en nous escenaris i està condicionada a noves trajectòries demostratives no vistes durant l’entrenament.

És cert que l’agent ha d’inferir l’objectiu de l’objectiu d’una demostració única i començar de nou des d’una altra configuració. Això implica que la seqüència motora exacta no s’hauria pogut aprendre abans de provar-la i s’ha d’inferir mitjançant l’abstracció (representació estructurada de nivell superior) de la tasca i la planificació del motor.

Apilament en bloc

Al segon exemple, l’agent ha d’aprendre a apilar cubs (identificats per diferents colors) en el mateix ordre que el que es mostra en una única demostració simulada. Aquesta demostració simulada és una sèrie d’imatges en 2D generades per un motor de física 3D en què es modelen les propietats del motor i l’aparell sensorial dels robots.

Política única. Una sola política formada per resoldre moltes tasques. Tasca principal: {abc, def}, tasca inferior: {ab, cd, ef}

En els dos exemples, les posicions inicials dels cubs de la demostració i de la prova real són diferents, cada tasca parteix d’una altra posició inicial. El robot no intenta substituir els cubs perquè coincideixin amb la posició inicial de la demostració, sinó que transfereix la tasca de nivell superior d’apilar el cub qualsevol que sigui l’estat en què s’inicia.

Formació mitjançant randomització de dominis

En ambdós casos, totes les imatges que s’utilitzen durant l’entrenament s’obtenen mitjançant simulació mitjançant l’atzarització de domini en la qual es podran aleatoritzar els aspectes següents de les mostres:

Nombre i forma d'objectes distractors de la taula. Posició i textura de tots els objectes de la taula. Textures de la taula, sòl, caixa de cel i robot Posició, orientació i camp de vista de la càmera. Nombre de llums a l'escena Posició, orientació, i característiques especulars de les llums Tipus i quantitat de soroll aleatori afegit a les imatges

Joc d’entrenament per a l’abast de partícules

Considerem un conjunt cada cop més difícil de famílies de tasques, on el nombre de fites augmenta de 2 a 10. Per a cada família de tasques, recopilem 10000 trajectòries per a l’entrenament, on es posen a l’atzar les posicions de les fites i la posició inicial del robot punt. Utilitzem una política experta amb codis durs per generar demostracions de manera eficient. Afegim soroll a les trajectòries pertorbant les accions computades abans d’aplicar-les a l’entorn, i fem servir clonacions comportamentals simples per entrenar la política de xarxa neuronal.

Conjunt d’entrenament per a l’apilament de blocs

Concretament, recopilem 140 tasques d’entrenament i 43 tasques de prova, cadascuna amb una disposició diferent dels blocs desitjada. El nombre de blocs en cada tasca pot variar entre 2 i 10. Recopilem 1000 trajectòries per tasca per a l’entrenament, i mantenim un conjunt separat de trajectòries i configuracions inicials que s’utilitzaran per a l’avaluació. Similar a la tasca d’arribar a partícules, injectem soroll al procés de recollida de trajectòries. Les trajectòries es recullen mitjançant una política de codis durs.

Es recullen demostracions amb èxit mitjançant una política de codis durs

Tingueu en compte que durant l’aprenentatge de les trajectòries correctes es generen una política procedimental de “codificació dura”, crec que es basa en tècniques clàssiques d’identificació i control del sistema. Així doncs, durant l’entrenament i la prova l’agent té dues entrades: a) una demostració en una configuració A, i b) una configuració inicial B. Durant l’entrenament només, l’algoritme d’aprenentatge també té accés a una resposta ideal: una trajectòria a partir de la configuració B que respon el problema i amb què es compararà la resposta de l’agent durant l’aprenentatge, convertint-lo en un problema d’aprenentatge supervisat.

Per a cada tasca formativa, assumim la disponibilitat d’un conjunt de demostracions d’èxit.

Si no està clar, passaré per sobre de les diferències entre els diferents tipus de paradigmes d’aprenentatge a la següent secció.

Algorisme i funció de pèrdua d’optimització

L’aprenentatge supervisat es refereix a paradigmes d’entrenament en què en cada decisió la xarxa té accés a l’elecció correcta que hauria d’haver fet, i per tant a una noció d’error. Per exemple en una tasca de classificació entre gossos i gats, l’etiqueta d’imatges de gossos i gats durant l’entrenament és coneguda prèviament i es detecten els errors immediatament. En aquest sentit, és diferent de l’aprenentatge no supervisat, quan en general es demana a l’agent que trobe una estructura prèviament desconeguda en les entrades que rep, i sense etiquetes de gats i gossos hauria de descobrir que hi ha dos cúmuls d’objectes diferents només basats en la informació continguda a les dades. També és diferent de l'aprenentatge de reforç que les ofertes s'apliquen a un sistema de temps real en el qual es desconeix la seqüència exacta de decisió que condueix a un objectiu, però només una "recompensa" decidirà si la seqüència era correcta o no. Mitjançant l’aprenentatge d’imitació, transformen un problema d’aprenentatge de reforç clàssic en un problema d’aprenentatge supervisat, en el qual l’error es calcula des d’una distància a una trajectòria observada.

Com és el cas de qualsevol configuració d'entrenament supervisada, la tasca actual es defineix completament amb la funció de pèrdua, que té com a objectiu quantificar fins a quin punt es trobava l'agent del comportament previst. Definir aquesta funció és sovint el pas crític, ja que determina com els algoritmes d’optimització actualitzen els paràmetres del model. Aquests algoritmes tenen una importància en termes de temps de càlcul i sovint requereixen algun retoc per poder convergir, si escau. De fet, les solucions que minimitzaran la funció en una dimensió molt alta resideixen en una closca molt petita de l’espai de paràmetres, amb una petita distància de martell entre elles, tan aviat com s’allunya d’aquest domini petit, la distància entre solucions creix ràpidament. Hi ha una gran quantitat de treballs interessants sobre aquest tema realitzats entre d'altres per la sorprenent Jennifer Chayes, que fa el tema en una entrevista molt interessant sobre el darrer episodi de Talking Machines.

Durant l’entrenament de les xarxes polítiques (tota la xarxa, capaç de decidir d’input quines accions s’ha de fer) primer processen la trajectòria demostrativa amb èxit. Per a aquesta part, compararan dos enfocaments: la clonació comportamental clàssica (no està exactament segura de la implementació que van utilitzar) i els algorismes DAGGER. D’aquesta manera, es permetrà minimitzar iterativament la funció de pèrdua ja sigui mitjançant l2 o la pèrdua d’entropia creuada en funció de si les accions són contínues o discretes (basades en distribucions d’esdeveniments de la seqüència). A través de tots els experiments, van utilitzar l'algorisme d'Adamax per realitzar l'optimització amb una taxa d'aprenentatge de 0,001.

La mida del pas comença petita i es descompon exponencialment.

L’algoritme en si mateix no permet la transferència, és com es crea el conjunt d’entrenament i la funció de pèrdua que permetrà la transferència.

A les tasques existeixen dos tipus de transferència. El primer tipus es coneix com a "frenar la bretxa de realitat", és una generalització en l'aprenentatge que permet transferir entre entrenament amb entrades simulades a proves sobre estímuls naturals. Les dades de simulació solen ser una aproximació empobrida del món real, massa perfecta, sense la complexitat de l'objecte real. Al món real, la càmera pot ser defectuosa i sorollosa, el control del motor serà menys precís, els colors canviaran, les textures seran més riques, etc. Per a aquesta primera transferència, utilitzen un mètode al qual es coneix com a "randomització de domini". : és afegint soroll a les entrades que la xarxa pot aprendre l'estructura rellevant comuna que li permetrà generalitzar-se adequadament al món real. Per exemple, canviaran l’angle de la càmera entre exemples d’entrenament, canviaran les textures o faran que les trajectòries siguin menys perfectes. Si afegim soroll durant l’entrenament, afegim robustesa.

La segona transferència provada aquí és la possibilitat de produir una seqüència de motor rellevant en un conjunt de configuració i objectiu anteriorment no vistos, basat en una demostració única que comença en una altra configuració inicial però amb un objectiu final similar. Un cop més, aquí es farà possible la transferència mitjançant la forma de construir el conjunt d'entrenament i modelar la funció de pèrdua. En presentar demostracions durant l’entrenament que no comencen des de la mateixa condició inicial per assolir un objectiu similar, permetre a la xarxa aprendre a integrar una representació de nivell superior de l’objectiu sense utilitzar posicions absolutes, així com una representació d’ordre superior de la seqüència motora que no és una simple imitació. L’arquitectura inicial ingènua permet entrenar per modificar l’estructura d’una manera rellevant, i aquesta estructura entrenada implica la funció final.

Objectius

Per al paradigma d'apilament de blocs tenien diverses limitacions que volien complir el seu agent d'aprenentatge.

Hauria de ser fàcil d’aplicar a les instàncies de tasques que tenen un nombre variable de blocs.
Naturalment, hauria de generalitzar-se a diferents permutacions de la mateixa tasca. Per exemple, la política ha de funcionar bé a la tasca {dcba}, fins i tot si només s’entrena a la tasca {abcd}.
Hauria de contenir demostracions de longituds variables.

Tenien diverses preguntes que volien respondre per a aquesta tasca.

Com es compara l’entrenament amb la clonació conductual amb DAGGER, atès que es poden recopilar dades suficients fora de línia?
Com es compara el condicionament de tota la demostració amb el condicionament de la configuració final desitjada, fins i tot quan la configuració final té prou informació per especificar completament la tasca?
Com es compara el condicionament de tota la demostració amb el condicionament en una "instantània" de la trajectòria, que és un petit subconjunt de trames més informatives
El nostre marc pot generalitzar-se amb èxit a tipus de tasques que mai ha vist durant la formació? (++)
Quines són les limitacions actuals del mètode?

Arquitectura

Arribada a partícules

Per a aquest primer exemple, van comparar tres arquitectures basades en xarxes neuronals de Long Short Term Memory (LSTM). En una futura publicació es farà una descripció d'aquestes xarxes sobre memòria i atenció, temes absolutament fascinants tant en ciències cognitives com computacionals. En essència, un sistema LSTM alimenta les sortides de xarxa anteriors (a temps) com a part de l’entrada de la xarxa a cada nou punt de temps, permetent que la informació d’estats passats informi el present (d’aquí el seu nom de xarxes de memòria a curt termini). Són l’arrel de moltes tecnologies d’última generació relacionades amb sèries de temps (Alexa, Siri, etc.).

Aquí fan servir aquestes tres condicions específiques:

  1. LSTM simple: aprèn a incorporar la trajectòria i l'estat actual per alimentar-lo a un perceptre multicapa que produirà l'acció motora
  2. LSTM amb atenció: produeix una representació ponderada sobre fites de la trajectòria
  3. Estat final amb atenció: s'utilitza només per entrenar l'estat final per produir una ponderació sobre fites, similar a l'arquitectura anterior

Apilament en bloc

Si bé, en principi, una xarxa neuronal genèrica podia aprendre el mapeig des de la demostració i l’observació actual fins a l’acció adequada, ens ha semblat important utilitzar una arquitectura adequada. Una de les contribucions principals d’aquest treball és la nostra arquitectura per aprendre l’apilament de blocs i creiem que és representativa de les arquitectures per a l’aprenentatge d’una imitació única de tasques més complexes en el futur.

Mòduls d’atenció

L'article continua sent un nivell relativament alt en descriure l'estructura de les xarxes utilitzades per aprendre la tasca. Un ingredient clau de l’arquitectura és el seu mòdul d’atenció, però crec que aquest tema necessita un post específic en detallar el seu paper essencial. En analogia amb el concepte de ciència cognitiva de l’atenció sostinguda, s’utilitzen mòduls d’atenció per mantenir i centrar-se en la informació rellevant continguda en diferents espais d’espai i temps. Produeix una sortida de mida fixa que conté la incrustació d’un contingut d’informació que es va estirar en el temps i l’espai. Per analogia a la topologia, una branca matemàtica que crec que informarà molt com entenem les representacions distribuïdes en el futur, una xarxa d’atenció realitza un isomorfisme topològic d’informació, mateixa curvatura, de forma diferent. Tingueu en compte que aquestes xarxes no juguen un paper de detector de sobres capaç de centrar-se en esdeveniments inesperats o rars, la qual cosa és una funció associada a la noció d’atenció en la neurociència.

Aquí utilitzen dos tipus de xarxa d’atenció: a) una xarxa d’atenció temporal que produeix una suma ponderada sobre el contingut (consulta, context i vectors de memòria) emmagatzemats a la memòria i b) una xarxa d’atenció de barri que és capaç de recuperar informació relativa al bloc. posicions en funció de la consulta actual de l'agent.

Xarxa d’atenció temporal, amb c: vector de context, m: vector memory, q: vector de consulta, v: vector de pes aprés. La sortida és de la mateixa mida que el vector de la memòria. Es tracta d’una combinació lineal d’aquells vector que permet que algun vector de memòria tingui més impacte en la sortida en funció del context i dels vectors de consulta.La mateixa idea aquí, la competència entre informació espacial es manté dinàmicament pel sistema d’atenció.

La xarxa de polítiques

La xarxa completa està formada per tres sub-xarxes diferents: la xarxa de demostració, la xarxa de context i la xarxa de manipulació.

La xarxa de demostració rep una trajectòria de demostració com a entrada i produeix una incrustació de la demostració que la política ha de fer servir. La mida d'aquesta incrustació creix linealment en funció de la longitud de la demostració i del nombre de blocs en l'entorn.

Com es mostra aquí, la xarxa de demostració és capaç d’incorporar demostracions de diversa complexitat i mida en un format comú que utilitzarà la xarxa de context per representar la tasca. Probablement, a aquest nivell ja es produeixi la generalització, l'empremta demostrativa hauria de deixar informació sobre la trajectòria exacta i les posicions absolutes del cub vist durant les demostracions.

Veient l’estructura de la xarxa de context, tot i que des d’un nivell molt alt, veiem la interfície amb la xarxa de demostració alimentant una incrustació de la demostració als mòduls centrals d’atenció temporal. També veiem que les accions anteriors (LSTM) i l’estat actual es nodreixen d’entrada concatenada amb l’encarnació demostrativa per produir un incrustació de context global enviat a la xarxa de motors.

La meva descripció de la funció de les xarxes és, al meu parer, la part més important del treball:

La xarxa de context comença computant un vector de consulta en funció de l'estat actual, que s'utilitza per assistir en els diferents passos del temps en la incrustació de demostració. Els pesos d'atenció sobre diferents blocs en un mateix pas es sumen, per produir un pes únic per pas. El resultat d’aquesta atenció temporal és un vector la mida del qual és proporcional al nombre de blocs que hi ha a l’entorn. A continuació, apliquem l’atenció del barri per a propagar la informació a les incrustacions de cada bloc. Aquest procés es repeteix diverses vegades, on l’estat s’avança mitjançant una cel·la LSTM amb pesos deslligats.
La seqüència anterior d’operacions produeix un enclavament la mida del qual és independent de la longitud de la demostració, però encara depèn del nombre de blocs. A continuació, apliquem una atenció suau estàndard per produir vectors de dimensió fixa, on el contingut de la memòria només consta de posicions de cada bloc, que juntament amb l’estat del robot formen l’entrada transmesa a la xarxa de manipulació.
Intuitivament, tot i que el nombre d'objectes de l'entorn pot variar, a cada etapa de l'operació de manipulació, el nombre d'objectes rellevants és petit i sol fixar-se. Per a l'entorn d'apilament de blocs específicament, el robot només hauria de parar atenció a la posició del bloc que intenta recollir (el bloc d'origen), així com a la posició del bloc que intenta col·locar al damunt ( el bloc de destinació). Per tant, una xarxa adequada amb formació pot aprendre a coincidir amb l’estat actual amb l’etapa corresponent a la demostració i inferir les identitats dels blocs font i objectiu expressats com a pesos d’atenció suaus sobre diferents blocs, que s’utilitzen per extreure les posicions corresponents a passar a la xarxa de manipulació.

La forma en què acaben la seva descripció és un exemple perfecte de la deriva actual de la investigació de l'AI des d'un enfocament del sistema expert en un sistema d'aprenentatge i també fa pensar en la manera de desenvolupar el cervell a continuació.

Tot i que no apliquem aquesta interpretació en formació, la nostra anàlisi d’experiments recolza aquesta interpretació de com funciona la política apresa internament.

No saben com funciona. Construeixen una estructura capaç de realitzar determinats càlculs i emmagatzemar certes informacions que a priori considerem útils, i l’alimenten d’un conjunt d’entrenament esperant que tota l’estructura n’aprèn. Hi ha una mena de vudú d’investigació en intel·ligència artificial en augment, un art, una manera de dirigir la cerca heurística en la direcció correcta. I sembla que molts d'aquests mags ara treballen per a OpenAI.

Amb les seves pròpies paraules, la xarxa de manipulació és l’estructura més senzilla, des del context incrustat alimentat fins al perceptre multicapa, es produeix una acció motora.

Resultats

Els resultats són sovint una part per la qual tinc poc interès, especialment per a aquells tipus de treballs tècnics increïblement brillants. Passaré ràpidament, essent que aquest enfocament funciona, que es realitza amb una precisió similar a les polítiques expertes amb codis durs i, al contrari d’aquest enfocament procedimental específic, es pot generalitzar a un gran ventall de tasques.

Arribada a partícules

Empilament de blocs

En aquests experiments també van provar diferents condicions. Utilitzant DAGGER, van comparar tres condicions d’entrades diferents baixant el mostreig de la trajectòria demostrada: trajectòries completes, captura de pantalla de la trajectòria o només utilitzant l’estat final. També van comparar l'algoritme de clonació comportamental amb la trajectòria completa de la demostració.

Una forta evidència de la capacitat del sistema per generalitzar la identitat del cub

Discussió

Llegint els avenços de ritme ràpid que van fer OpenAI durant els últims mesos, sento un desig creixent de parlar del seu treball i de compartir els meus pensaments sobre el que crec que és el seu treball i els avenços del camp de la IA en general, informen la nostra comprensió de com funcionen els cervells biològics. En particular, aquesta idea creixent que les funcions cognitives aparentment compartides entre els éssers humans no es deu tant a una estructura compartida que innocentment sap realitzar una tasca, sinó que és en canvi un resultat d’estructures ingènues relativament similars que, enfrontades al mateix entorn, aprendre a realitzar tasques similars. La funció és el resultat d’una estructura sense funcionament que només és capaç d’aprendre una tasca específica a causa d’un entorn específic en lloc d’una estructura que és capaç de fer la tasca de forma nativa, simplement ajustant un parell de paràmetres per adaptar-se a l’entorn.

Tasques versus configuracions: una definició aparentment arbitrària

Haig de reconèixer que no entenc per què van triar parlar de tasques diferents de la manera que van fer. Una tasca es defineix a l'experiment d'apilament de blocs com un conjunt de cadenes que representen la posició dels blocs l'una de l'altra, el nombre d'elements del conjunt defineix el nombre de piles i el nombre de caràcters el nombre de blocs que cal organitzar. . Una tasca aleshores és una disposició de blocs en piles independentment de la posició absoluta de la pila.

Alguns blocs poden estar a la taula, però no són part de la tasca

L'elecció de definir la posició relativa i el nombre de piles com a criteris per a tasques separades sembla arbitrària. De fet, també podria tenir sentit parlar de diferents tasques en funció de les posicions inicials absolutes dels blocs (allò que es denominen configuració). Crec que la naturalesa comuna del problema és evident per a ells, però amb finalitats de claredat prefereixen no entrar en detalls. Té més sentit enmarcar l’aprenentatge de polítiques com a dos tipus de generalitzacions, de la manera que ho fan més endavant:

Tingueu en compte que la generalització s'avalua a diversos nivells: la política apresa no només ha de generalitzar-se a noves configuracions i noves demostracions de tasques vistes ja, sinó que també ha de generalitzar-se a noves tasques.

N’hi ha prou de substituir les “tasques” per “comandes de piles”. Aprendre correctament la tasca significa que l’agent aprèn un encastament capaç d’abstrair la posició dels cubs (configuració), però també la seva identitat (tasca), el nombre d’empreses (tasca) i la trajectòria de la demostració (introduïda breument a la cotització) per produir una resposta motriu rellevant.

Aquestes generalitzacions semblen contradictòries, de quina manera la mateixa xarxa pot abstractar la configuració inicial del cub o la seva identitat i, tot i així, recuperar la seva posició absoluta per a la resposta del motor?

Això explica la necessitat de diferents subxarxes cooperatives durant l’aprenentatge, rebent entrades diferents, i explica que a la xarxa de context una representació abstracta de la tasca s’alimenta d’informació d’ordre inferior, com a posicions absolutes en cubs, abans del comandament descendent.

Podríeu pensar que comentar aquesta distinció de tasca i configuració és una tonteria, però és fonamental comprendre que és essencialment el mateix procés d’abstracció en joc sobre objectes diferents (i això s’obre per a la següent secció).

No hi ha aprenentatge sense invariància

L’aprenentatge de transferències potser és el concepte més fascinant de la cognició, ja sigui in-silico o in vivo, és un tema molt intens tant per a investigadors d’AI com per a neurocientífics, i és que és el tema de la meva tesi doctoral. Tingueu en compte que els conceptes estretament relacionats s'han explorat en molts camps abans de l'aprenentatge automàtic, i aquest concepte abstracte i sempre parcialment definit té molts noms. Filòsofs, antropòlegs i sociòlegs poden referir-se a això (post-) estructuralisme (Claude Levi-Strauss, Michel Foucault), el lingüista parlarà sobre les estructures del sintagma i dels nidificats (Noam Chomsky), els matemàtics probablement pensaran en l’homeomorfisme o els invariants i l’educació. investigadors o neurocientífics poden anomenar-ho com a aprenentatge estructural. També podeu veure conceptes relacionats en el camp de l’aprenentatge automàtic com l’aprenentatge de representació i el meta-aprenentatge, que segons l’autor pot referir-se a l’aprenentatge de transferència o al paradigma d’aprenentatge utilitzat per dur a terme l’aprenentatge de transferència. Quan es parla de xarxes neuronals profundes, aquestes diferències es difuminen, ja que, en essència, una xarxa neuronal és aprendre a incrustar un problema determinat (aprenentatge de representació) modificant la seva estructura (metaaprenentatge) normalment en un entorn sorollós que implica una forma d'aprenentatge de transferència.

Els investigadors de l'AI i Cognitive Scientist sovint tenen una definició molt concreta de l'aprenentatge de transferència, és el procés que permet que un sistema utilitzi els coneixements adquirits en una tasca determinada per realitzar una altra tasca compartint una estructura compositiva comuna (com es descriu a l'article). La ciència cognitiva té aquesta noció de transferència propera i llunyana, segons com semblin diferir les dues tasques. Però, des d’una perspectiva més abstracta, en un entorn sorollós i complex, tot aprenentatge és una forma d’aprenentatge de transferència i la diferència entre la transferència molt propera i molt llunyana és només una qüestió d’informació compartida, una altra vegada una qüestió d’escala no de natura.

En un entorn controlat, es fa un esforç previ per construir una discretització codificada de la realitat, però de fet aquesta discretització reprodueix procedimentalment el que fa l’aprenentatge de transferència, uneix un conjunt infinit d’estats trobats en la realitat sota una estructura tancada comuna. En essència, Transfer Learning es refereix directament o per extensió al procés mitjançant el qual els agents d’aprenentatge utilitzen invariants per construir models del món. Es tracta d’un procés que utilitza similituds, repeticions i variacions de les mateixes, per formar una representació cada cop més abstracta i composta que l’estructura ensambla en el rang de variació per l’entrada. En un sentit general, permet crear les operacions bàsiques mitjançant les quals manipulem grups d’informació, de la mateixa manera que en matemàtiques, permet unió i interseccions. Permet identitats, explica la nostra capacitat per categoritzar objectes. Josh Tenembaum dóna un exemple que em va parlar realment: imagineu que esteu ensenyant a un nen de dos anys a reconèixer un cavall per primera vegada, li mostreu un parell de fotografies de diferents cavalls i després li mostreu la foto d’un altre cavall i la foto d’una casa i demana-li que et digui quin és el cavall. Un nen farà aquesta tasca amb molta facilitat, però no deixa de ser un ordinador que pugui fer-ho bé amb poques entrades (aprenentatge únic).

Com ho va fer el nen?

El reconeixement dels animals s’ha estudiat en nens i es relaciona amb la nostra capacitat de desconstruir objectes en parts rellevants, la gamma de colors del pelatge, la mida del coll, la forma general, etc. Aquesta capacitat també és la que us permet obrir una porta. no heu vist mai abans, heu après una seqüència motora que es generalitzi a qualsevol situació (generalització del domini). També és el que utilitzeu per crear models explicatius que simplifiquin el món, potser us sorprendrà inicialment l’aparició sobtada d’un cucut en un famós rellotge suís, però després de la segona aparició, us ho espereu. El fet de trobar invariantia és com aprenen una xarxa neuronal i aquests models es construeixen de manera inconscient. Un exemple és com aprenem de forma intuïtiva sobre física fins i tot abans d’haver sentit a parlar de matemàtiques i números.

Es pot preguntar, per exemple, amb quina velocitat s’adaptaria un nen nascut en microgravitat a la gravetat de la terra i aprendrà intuïtivament que els objectes cauran a terra quan s’abandonen?

Podríem hipotetitzar que els nadons i la majoria d’animals revisaran el seu model de manera inconscient, igual que quan posis mitjons a les potes d’un gos i es triga un temps a adaptar-se a les noves informacions.

Però, per a un nen petit, es farà un interrogatori conscient i una revisió del seu model intuïtiu, des de la curiositat, passant pel llenguatge, els símbols i les creences. La nostra capacitat d'interrogar i canviar conscientment els nostres models és fascinant i, com a sidenota, els humans poden ser les úniques espècies capaces de verbalitzar el procés, però altres espècies poden realitzar revisions conscients similars.

L’invariança és una propietat obligatòria del temps, si tot fos sempre nou i de cap manera previsible, seguiria sent aquest invariant únic que tot és sempre nou i imprevisible. És impossible imaginar un món sense invariància, ja que no hi podria haver un món a què fer referència, sense invariantia la vida seria impossible i el nostre cervell inútil. La vida és una màquina que funciona només mitjançant la repetició previsible d’esdeveniments, la repetició de causes i efectes, de la reintroducció cíclica d’energia a l’organisme. I en la cerca de Life per millorar l'ús d'aquests cicles necessaris, el nostre cervell és l'eina definitiva. És una màquina de predicció, un òrgan adaptatiu capaç de trobar la repetició de forma dinàmica i utilitzar-la per interactuar millor amb el món.

Aquest mètode que va escollir la vida és extremadament robust fins a lleus canvis en l’estructura. El que segueix sent el mateix és el món, les propietats estadístiques del medi, però l'estructura neuronal que la troba pot variar sempre que pugui incorporar la informació rellevant que va evolucionar per tractar-la. Això explica que el nostre cervell pugui ser tan diferent d’individus a individus, fins i tot de còrtex primària, i alhora compartir les mateixes funcions.

Els sistemes nerviosos són adaptatius, no necessiten evolució i les mutacions genètiques lentes per alterar el comportament de maneres rellevants. Un sistema nerviós senzill, com el que es troba a C. Elegans, serveix de coordinador intern innat i sensor extern: sensació d'aliments i desplaçament cap a ell, fugir del dolor, reproduir-se. Aquests sistemes simples eren inicialment rígids i feien una aproximació extrema del nostre món molt sorollós per tal de discretitzar-lo en un petit conjunt d’estats possibles (menjar a l’esquerra, calor per sota, etc.). Les nostres capacitats motrius i sensorials van evolucionar conjuntament amb les nostres capacitats de predicció del sistema nerviós. A mesura que els nostres sensors es feien més precisos, el sistema nerviós lentament es va poder modificar la seva estructura per emmagatzemar informació i aprendre per experiència. Inicialment es va poder aprendre a reconèixer certes categories d’entrades, com ara tipus d’olors o patrons lleugers, i també es va poder aprendre mitjançant proves i errors per controlar el seu sistema motor cada cop més complex. Tingueu en compte que el món és tan complex que el nostre cervell ha evolucionat naturalment cap a un paradigma d’aprenentatge en lloc d’un enfocament procedimental innat. Informàticament això té un sentit perfecte, un simple joc de Go té un espai d’estat molt més gran (2,10¹⁷⁰) que el nombre d’àtoms de l’univers (10⁸⁰), i a mesura que els organismes es tornen més complexos intentant fer aproximacions de codi dur de tot el possible. afirma que podria esdevenir ràpidament intractable a causa d’una explosió combinatòria.

Algunes persones podrien creure que el nostre cervell està construït de manera que representa de forma innata l’espai on evolucionarà, que a l’ADN en algun lloc hi ha un gen pel que constitueix una cara o l’organització temporal de les ones sonores que fan. amunt de les paraules. Podrien creure que aquest coneixement innat està codificat en algun lloc. Uns altres podrien creure, com el meu professor de filosofia quan estava a l’institut, que l’existència precedeix l’essència i que el nostre cervell es defineix completament i únicament per la trobada de l’organisme i el món. La realitat és, per descomptat, més complexa i, per a la majoria dels sistemes telencefàlics que s’han estudiat fins ara, el cervell no codifica de manera innata la funció que realitzarà, sinó que l’aprenent depenent de la informació continguda en els seus inputs. Si l’entrada és massa pobra en informació rellevant, la capacitat d’aprendre en aquesta estructura pot tenir una data de caducitat (per exemple, Ambliopia). Però si l'estructura innata no codifica la funció final, el cervell té una estructura específica. Aquesta estructura es conserva entre els individus i els individus de la mateixa espècie comparteixen funcions i accions comunes. L’ADN estableix una estructura determinada al seu lloc, una estructura que no pot exercir de forma innata la seva funció final, sinó una estructura capaç d’aprendre la complexitat de tasques específiques basades en l’experiència individual. No és d’estranyar que l’evolució portés a l’aparició d’una barrera hematoencefàl·lica altament eficaç que aïllava el cervell de la resta del cos, així com les meninges i la closca d’ossos durs que el protegeixen del món exterior, perquè a diferència d’altres òrgans en els quals l’estructura està codificada en el genoma, l’estructura d’un cervell entrenat no es pot regenerar a partir d’un model emmagatzemat innat. El que és fascinant és que veiem els mateixos mecanismes d’aprenentatge que sorgeixen per analogia a través del desenvolupament de xarxes profundes cada cop més complexes que realitzen tasques cada cop més complexes.

Les estructures compositives són difícils de veure, però a tot arreu

Com a punt de vista, és estrany que fins i tot els autors no reconeguin que la seva primera tasca d’assoliment d’objectius tingui una estructura compositiva.

La tasca d’assolir partícules demostra molt bé els reptes de la generalització en un escenari simplista. Tanmateix, les tasques no comparteixen una estructura compositiva, fent que l’avaluació de la generalització a les noves tasques sigui difícil.

Tot i que l'estructura és realment un nivell inferior a l'apilament de blocs, i no és fàcilment accessible per a la manipulació experimental, la tasca és, efectivament, una estructura compartida. Aproximant el món a un pla, una estructura compositiva és que la identitat del cub (color) es conserva amb traducció, i passant del bloc A -o una posició inicial aleatòria- a la posició (Xa1, Ya1) al bloc B en posició (Xb1, Yb2 ) forma part de la mateixa estructura compositiva d’ordre superior que passar del bloc A en posició (Xa2, Ya2) al bloc B en posició (Xb2, Yb2).

Interfícies entre xarxes

L'agència de xarxes neuronals capaços de tractar els inputs en diferents nivells d'abstracció necessitarà interfícies, un domini que crec que queda molt per descobrir. Aquestes interfícies poden ser de gran naturalesa. Es pot veure, per exemple, com un llenguatge comú entre dues xarxes, com es demostra a l’article, una xarxa de nivell inferior armada amb un sistema d’atenció (xarxa de demostració) pot traduir una demostració en una representació que una altra xarxa (la xarxa de context) pugui utilitzar. per dirigir l'acció, sigui quina sigui la longitud o configuració inicial de la demostració.

La superfície d’aquest llenguatge és aquí un pla, fixat de mida, però es pot imaginar possibles alteracions que puguin millorar les comunicacions entre la xarxa. Per exemple, la mida de la superfície es pot establir per créixer o reduir-se dinàmicament a mesura que les xarxes interactuen durant l’aprenentatge, per tant, comprimint o ampliant la complexitat del llenguatge. També podríem imaginar interaccions més dinàmiques, a través de comentaris, per exemple. Podríem imaginar l’existència de xarxes facilitadores que aprendrien a facilitar la comunicació entre xarxes, existint com una xarxa paral·lela que aprenen a modular l’entrada de la primera xarxa en funció de l’entrada i la sortida de la segona xarxa. Podríem imaginar xarxes de context complexes que actuen com a influx tònic (de variació lenta) a diverses xarxes més especialitzades.

Els casos d’errors indiquen els rols possibles que podrien tenir els nous mòduls

Val la pena assenyalar que sovint els errors es deuen a errors motors i que el nombre d’errors augmenta amb la complexitat de la tasca.

La funció del motor no s’ha de deteriorar només augmentant el nombre d’objectius, això és una forta evidència que la manera en què la xarxa de reproducció aprèn a parlar amb la xarxa de motors és massa abstracta. És estrany perquè diuen que el seu test demostra que la interfície entre la xarxa de context i la xarxa de motors és relativament concreta (posició del robot, posició de l'objectiu).

Una possible solució podria ser, ja que es tracta d’una arquitectura modular, utilitzar diferents funcions de pèrdua o funcions de pèrdua modulars que representen cadascun d’un aspecte específic de la tasca. També es podria ajudar amb un equivalent de les zones pre-motores del cervell per assegurar que la xarxa de demostració i context poden restar abstractes sense deteriorar el comandament motor. Les regions premotores són necessàries per localitzar millor els objectes en funció de l’objectiu (de xarxes abstractes) i les entrades sensorials, per tal de seleccionar el millor comandament del motor. Sembla que la xarxa de context tracta tant de transferir la demostració a una incrustació de nivell superior i de preparar l'acció motriu alhora en un context actual. Un paper pre-motor de la xarxa seria aprendre a comunicar-se amb el sistema motor d’una forma orientada i adaptativa als objectius, combinant tant les funcions del premotor com el cerebel per a l’aprenentatge motor i l’adaptació ràpida.

Hi ha una teoria interessant, la paradoxa de Moravec, que prediu que no serà una cognició de nivell més alt que computarà taxativament sinó el tractament de les entrades sensorials i les sortides dels sistemes motors. De fet, això podria explicar la gran quantitat de neurones presents en el nostre cerebel (més que en la resta del nostre cervell) per controlar de forma adaptativa l’acció motora. Aquesta paradoxa es va formular en un temps (anys 80) quan encara creiem que podríem incorporar els nostres propis coneixements en una màquina per realitzar tasques complexes en entorns sorollosos incontrolats. Per descomptat, aquesta paradoxa té sentit si d’alguna manera la màquina és capaç de representar el món en un conjunt d’estats discretitzats, la construcció d’una funció de nivell més elevat seria més fàcil. Però crec que ambdues seran extremadament impositives, i la representació interna que s'utilitza a la interfície entre xarxes no estarà lluny de res que s'assembli a les nostres pròpies representacions conscients.

Conclusió

Combinant diferents xarxes neuronals cadascuna de les que es fa càrrec d’un tractament específic del problema, aquest article mostra és que mitjançant la creació d’una tasca que necessita de manera inherent la generalització i la creació d’un entorn d’aprenentatge adequat mitjançant l’atzar al domini, una xarxa neuronal amb accés a una memòria i una el sistema d’atenció pot aprendre a generalitzar més enllà de la simple reproducció. Es pot aprendre a descobrir un objectiu d’ordre superior que s’ha demostrat una vegada en un flux visual d’informació i realitza la computació en un espai generalitzat per recuperar les accions adequades capaces de reproduir aquest objectiu en un context diferent.

En el futur, veurem una complexitat creixent d’estructures basades en aquells blocs de construcció atòmics capaços d’aprendre a generalitzar tasques complexes, però més important realitzar diverses d’aquestes tasques, en nous entorns, amb menys confiança en mètodes codificats, com ara el preprocessament d’entrades o emmagatzematge de memòria. L’emmagatzematge de la memòria serà substituït per representacions distribuïdes a través d’una xarxa de memòria, els sistemes atencionals se substituiran per l’activitat cíclica a les xarxes d’atenció en temps real. Es manté la pregunta de com serem capaços d’adaptar una forta tecnologia en sèrie (màquines de Turing) a la nostra confiança més gran en la computació distribuïda en un sistema incorporat.