Una ciència de dades neuronals: com i per què

La guia aproximada per fer ciències de dades sobre neurones

Un cervell que fa ciències de dades. Crèdit: Brain de Matt Wasser del Projecte Noun

Tranquilment, furtivament, s'està prenent forma un nou tipus de neurocientífic. Des de la infinitat de teòrics hi ha hagut equips de neurocientífics que fan ciències amb dades sobre l'activitat neuronal, sobre les escasses splutterings de centenars de neurones. No la creació de mètodes per analitzar dades, tot i que també ho fan. No la recopilació d'aquestes dades, perquè requereix un altre hàbil formidable. Però els neurocientífics utilitzen tota la gamma de tècniques computacionals modernes sobre aquestes dades per respondre a preguntes científiques sobre el cervell. Ha aparegut una ciència de dades neuronals.

Resulta que sóc un d’ells, aquest clan de científics en dades neuronals. Accidentalment. Pel que puc dir, és així com neixen tots els camps científics: de forma accidental. Els investigadors segueixen el nas, comencen a fer coses noves i de sobte troben que hi ha una petita gentada a la cuina a les festes (perquè és on es troben les begudes, a la nevera, els científics són intel·ligents). Aquí teniu un petit manifest per a la ciència de dades neuronals: per què sorgeix i com ens podríem plantejar.

Per què és el mateix que totes les àrees de ciència que han escopit una ciència de dades: la quantitat de dades està desapareixent. Per a la ciència de registre de neurones, aquest diluvio de dades té una raó científica, de tipus. Els cervells funcionen passant missatges entre neurones. La majoria d'aquests missatges tenen la forma de petits pulsos d'electricitat: punxes, els anomenem. Per a molts sembla lògic que si volem entendre com funcionen els cervells (i quan no funcionen) hem de capturar tots els missatges que es passen entre totes les neurones. I això significa registrar tantes espigues de tantes neurones com sigui possible.

Un cervell de peix zebra per a nadons té al voltant de 130.000 neurones i almenys un milió de connexions entre elles; un cervell de borinot té aproximadament un milió de neurones. Podeu veure com això sortiria de les mans molt ràpidament. Ara mateix enregistrem en algun lloc entre desenes i pocs centenars de neurones alhora amb el kit estàndard. En els límits hi ha persones que registren uns quants milers, i fins i tot uns quants en aconsegueixen desenes de milers (encara que aquests enregistraments capturen l’activitat de les neurones a taxes molt més lentes del que les neurones podrien enviar els seus pics).

Això anomenem sistemes de bogeria neurociència: neurociència, per a l’estudi de les neurones; sistemes, per atrevir-se a gravar de més d’una neurona alhora. I les dades són complexes. El que tenim és de desenes a milers de sèries de temps enregistrades simultàniament, cadascun dels fluxos d’esdeveniments d’excursió (picos reals, o alguna mesura indirecta dels mateixos) d’una neurona. Per definició, no són estacionaris, les seves estadístiques canvien amb el pas del temps. Les seves taxes d’activitat es van estendre en molts ordres de magnitud, des de la contemplació tranquil·la com a monjo fins a “kit de tambor en un túnel de vent”. I els seus patrons d'activitat van des de la regularitat semblant al rellotge, a la tartamudesa i al regateig, fins a alternar entre atacs de mania i esgotament.

Ara casar-ho amb el comportament de l’animal del qual heu gravat les neurones. Aquest comportament és centenars de proves d’opcions; o moviments del braç; o rutes realitzades per un entorn. O el moviment d’un òrgan sensorial, o tota la postura de la musculatura. Repetiu diversos animals. Possiblement múltiples regions cerebrals. I de vegades cervells sencers.

No tenim veritat fonamental. No hi ha una resposta correcta; no hi ha etiquetes de formació per a les dades, tret del comportament. No sabem com codifiquen els comportaments del cervell. De manera que podem fer coses amb etiquetes de comportament, però gairebé sempre sabem que aquestes no són la resposta. Només són pistes de la “resposta”.

La neurociència de sistemes és aleshores un ric parc infantil per a aquells que puguin maridar els seus coneixements de neurociència amb el seu saber fer per analitzar dades. Neix una ciència de dades neuronals.

Com es pot fer - o es pot fer -? Aquí teniu una guia. La raó d’estat del científic de dades neuronals és fer preguntes científiques sobre dades de la neurociència de sistemes; per preguntar-nos: com treballen totes aquestes neurones juntes per fer les seves coses?

Hi ha aproximadament tres maneres de respondre a aquesta pregunta. Podem veure aquestes tres maneres examinant la correspondència entre classes establertes de problemes en l'aprenentatge de màquines i reptes computacionals en la neurociència de sistemes. Comencem per mirar amb què hem de treballar.

Tenim algunes dades de n neurones que hem recollit al llarg del temps. Els introduirem en una matriu que anomenarem X: tantes columnes com neurones i tantes files com punts de temps que hem registrat (en què depèn de quant dura un "punt de temps": podríem fes-ho breu i només cal que cada registre d’entrada sigui un 1 per a una punta, i 0 d’una altra manera. O potser ho fem llarg i cada entrada registra el nombre d’espigues durant aquest temps transcorregut). Al llarg d'aquest temps, han passat coses al món, incloses les coses que fa el cos. Comprovem tot això en una matriu que anomenarem S: tantes columnes com hi ha funcions al món que ens preocupa i tantes files com punts de temps que hem enregistrat per a aquestes funcions.

Tradicionalment, l’aprenentatge automàtic consisteix en construir tres classes de models sobre l’estat del món i les dades disponibles: generatives, discriminatòries i de densitat. Com a guia aproximada, aquesta taula mostra com a cada classe es correspon una pregunta fonamental en la neurociència de sistemes:

1 / Models de densitat P (X): hi ha estructura a les puntes? Sona avorrit. Però, en realitat, aquesta és la clau de grans mostres d’investigació en neurociències, en què volem conèixer l’efecte d’una cosa (una droga, un comportament, un son) sobre el cervell; en què ens preguntem: com ha canviat l’estructura de l’activitat neuronal?

Amb una gravació d'un munt de neurones, podem respondre-ho de tres maneres.

Primer, podem quantificar el tren-espiga de cada neurona, mesurant les estadístiques de cada columna de X, com la velocitat d’expiració. I després, pregunta: quin és el model P (X) d’aquestes estadístiques? Podem agrupar aquestes estadístiques per trobar “tipus” de neurones; o simplement adaptar models a tota la seva distribució conjunta. De qualsevol forma, tenim algun model de l’estructura de dades a la granularitat de les neurones simples.

En segon lloc, podem crear models generatius de l’activitat de la població sencera, utilitzant les files de X: els vectors de l’activitat instantània de tota la població. Aquests models solen tenir com a objectiu comprendre quina part de l'estructura de X es pot recrear a partir d'algunes restriccions, tant si es tracta de la distribució de quants vectors tenen quants pics; o les correlacions parelles entre neurones; o combinacions d’aquests. Aquests són especialment útils per treballar si hi ha alguna salsa especial en l'activitat de la població, si no és altra cosa que l'activitat col·lectiva d'un conjunt de neurones independents o avorrides simples.

En tercer lloc, podem prendre la posició que l’activitat neuronal en X és alguna realització d’alta dimensió d’un espai dimensional baix, on el nombre de dimensions D << n. Ens referim normalment a això: algunes neurones de X estan correlacionades, de manera que no cal que utilitzem tota la X per entendre la població, sinó que les podem substituir per una representació molt més senzilla. Podríem agrupar directament les sèries horàries, de manera que descomposar X en un conjunt de N de matrius més petites X_1 a X_N, cadascuna de les quals té correlacions (relativament) fortes, i es pot tractar de manera independent. O bé podríem utilitzar algun tipus d’enfocament de reducció de dimensió com l’anàlisi dels components principals, per obtenir un petit conjunt de sèries de temps que descriuen una forma dominant de variació en l’activitat de la població en el temps.

Podem fer més que això. L'esmentat anteriorment suposa que volem utilitzar la reducció de la dimensió per reduir les neurones, que apliquem reducció a les columnes de X. Però podríem tan fàcilment reduir el temps, aplicant la reducció de dimensió a les files de X. En lloc de preguntar-se si l'activitat neuronal és redundant. , això es pregunta si diferents moments en el temps tenen patrons similars d’activitat neuronal. Si només hi ha un grapat, la dinàmica de les neurones registrades és molt senzilla.

També podem fer aproximacions de sistemes dinàmics aquí. Aquí intentem adaptar models senzills als canvis de X amb el pas del temps (és a dir, mapar d’una fila a l’altra) i utilitzar aquests models per quantificar els tipus de dinàmiques X que conté, mitjançant termes com “atractor”, “separatrix”, “ node de sella ”,“ bifurcació de pit ”i“ col·lapse de l’arsenal ”(només un d’aquests no és una cosa real). Es podria argumentar clarament que els models dinàmics tan equipats són tots els models de densitat P (X), ja que descriuen l'estructura de les dades.

Infern, fins i tot podríem intentar encaixar un model dinàmic sencer d’un circuit neuronal, un munt d’equacions diferencials que descriuen cada neurona, a X, de manera que el model P (X) es mostreja cada vegada que executem el model des de diferents condicions inicials .

Amb aquests models de densitat, podem adaptar-los per separat a l’activitat neuronal que vam registrar en un munt d’estats diferents (S1, S2,…, Sm) i respondre preguntes com: com canvia l’estructura d’una població de neurones entre dormir i despertar? O durant el desenvolupament de l’animal? O en el curs d'aprenentatge d'una tasca (on S1 podria ser prova 1, i S2 prova 2; o S1 és sessió 1 i S2 sessió 2; o moltes combinacions). També ens podem preguntar: quantes dimensions té l’activitat de les neurones? Es diferencien les dimensions entre diferents regions del còrtex? I algú ha vist les meves claus?

2 / Models generatius P (X | S): què causa una espiga? Ara estem parlant. Coses com ara models no lineals o models lineals generalitzats. Aquests models s’apliquen normalment a les neurones simples, a cada columna de X. Amb elles, s’està adaptant un model que utilitza l’estat del món S com a entrada, i escull una sèrie d’activitats neuronals que coincideix amb l’activitat de la neurona el més a prop possible. A continuació, inspeccionant la ponderació donada a cada característica de S en la reproducció de l’activitat de la neurona, podem esbrinar què sembla que aquesta neurona dona una maleïda.

Potser voldríem triar un model que tingués una certa flexibilitat en el que compta com “l’estat del món”. Podem incloure l’activitat passada de la neurona com a característica i veure si li importa el que va fer en el passat. Per a alguns tipus de neurones, la resposta és que sí. L’esclat pot treure molt de la neurona i és necessari que s’estigui descansant abans de tornar-hi a sortir. També podem pensar més àmpliament, i incloure la resta de la població -la resta de X- com a part de l’estat del món S mentre la neurona es dispara. Al cap i a la fi, de vegades, les neurones influeixen en el tret dels altres, o així em deixo creure. Així doncs, hi ha una petita possibilitat que la resposta d’una neurona en el còrtex visual no sigui només impulsada per l’orientació d’un límit en el món exterior, sinó que també pot dependre del que també facin les 10000 neurones corticals que s’hi connecten. El que després aprenem són les neurones aproximadament més influents de la població.

No hem d'aplicar aquests models generatius a neurones simples. Igualment els podem aplicar als nostres models de densitat; podem preguntar-nos què codifica cada clúster o dimensió sobre el món. O, com van fer algunes persones aquí, podem utilitzar el model de densitat com a estat del món i preguntar-nos quines característiques d'aquest model de neurones aigües avall donen una maleïda.

Els tipus de preguntes que podem respondre amb aquests models generatius són força evidents: quina combinació de característiques prediuen millor la resposta d’una neurona? Hi ha neurones selectives per a una sola cosa? Com s’influencien les neurones?

3 / Models discriminatoris P (S | X): quina informació porten els pics? Aquesta és una qüestió bàsica en la neurociència dels sistemes, ja que és el repte per a totes les neurones que estan aigües avall de la nostra població registrada, totes les neurones que reben els inputs de les neurones que vam registrar i que vam omplir a la nostra matriu X. necessiten conèixer el món extern basat únicament en espigues.

Aquí podem utilitzar classificadors estàndards, que fan entrades de mapes a les sortides etiquetades. Podem utilitzar les files de X com a entrada, cadascuna instantània de l’activitat de la població i intentar predir una, alguna o totes les funcions de les files corresponents de S. Possiblement amb algun retard de temps, de manera que utilitzem la fila X_t per prediu l'estat S_t-n que hi havia n passos en el passat si ens interessa com els estats de codi de poblacions que s'introdueixen al cervell; o podem utilitzar la fila X_t per predir l'estat S_t + n que és a n passos en el futur si ens interessa com el codi de poblacions té algun efecte del cervell sobre el món. Com l’activitat en l’escorça motriu que s’està passant abans d’escriure cada carta ara mateix.

Sigui com sigui, agafem algunes (però no totes, perquè no ens superin) les files de X i entrenem el classificador per trobar el millor mapeig possible de X amb el troç corresponent de S. A continuació, posem a prova el classificador de com es pot. prediu la resta de S del restant corresponent de X. Si teniu una sort extraordinària, les vostres X i S podrien ser tan llargues que pugueu dividir-les en trens, provar i validar conjunts. Guardeu l’últim en un quadre bloquejat.

Per descomptat, podríem utilitzar un classificador tan potent com vulguem. Des de la regressió logística, passant per enfocaments bayesians, fins a utilitzar una xarxa neuronal de 23 capes. Més aviat depèn del que vulgueu fora de la resposta i la diferència entre la interpretabilitat i el poder amb què us sentiu còmodes. Els meus escrits en altres llocs han deixat clar quin costat d'aquest compromís acostumo a afavorir. Però estic content d’haver-me demostrat equivocat.

Els models de codificació de neurones són perspicaces, però toquen alguns vells i profunds dilemes filosòfics. La prova de la codificació mitjançant un model discriminatori suposa que alguna cosa aigües avall intenta descodificar S d’activitat neuronal. Hi ha dos problemes amb això. Les neurones no descodifiquen; les neurones prenen les punxes com a entrada i surten les seves pròpies punxes. Més aviat, tornen a codificar, d’un conjunt d’espigues a un altre conjunt d’espigues: potser menys, o més lents; potser més, o més ràpid; potser des d'un corrent constant cap a una oscil·lació. De manera que els models discriminatoris demanen amb més precisió quina informació estan codificant les nostres neurones. Però, fins i tot si considerem aquesta idea, hi ha un problema més profund.

Amb poques excepcions, no hi ha una cosa com una neurona “aigües avall”. Les neurones que vam registrar a X formen part del cervell intrínsecament cablejat, ple de bucles interminables; la seva producció afecta la seva pròpia entrada. Pitjor, algunes de les neurones de X estan aigües avall de les altres: algunes d’elles entren directament a les altres. Perquè, com s’ha apuntat anteriorment, les neurones s’influeixen entre elles.

Un manifest aproximat, potser útil, per a una ciència de dades neuronals. Està incomplet; sens dubte, alguna cosa de dalt està malament (respostes en una postal a l’adreça habitual). L'esmentat anteriorment és un intent de síntesi del treball d'un grup de laboratoris amb interessos molt dispars, però un impuls comú per utilitzar aquest tipus de models en grans conjunts de dades neurals per respondre a preguntes profundes sobre com funcionen els cervells. Molts d’aquests són laboratoris de dades, equips que analitzen dades experimentals per respondre a les seves pròpies preguntes; per citar alguns - Johnathan Pillow; Machens cristians; Konrad Kording; Kanaka Rajan; John Cunningham; Adrienne Fairhall; Philip Berens; Cian O'Donnell; Il Memming Park; Jakob Macke; Gasper Tkacik; Oliver Marre. Um, jo. Altres són laboratoris experimentals amb fortes inclinacions en ciències de dades: Anne Churchland; Mark Churchland; Nicole Rust; Krishna Shenoy; Carlos Brody; moltes altres disculpes per no haver-hi nom.

Hi ha conferències on aquest tipus de treballs són ben rebuts, fins i tot encara no ho animem. Una revista de ciències de dades neuronals està en marxa. Alguna cosa està construint. Entrem, les dades són precioses *.

* Sí, vaig haver de referir-me a les dades com a singular per aconseguir que funcionés la broma de merda. El fet d’escriure aquesta nota a peu de pàgina per explicar-vos us donarà alguna idea de l’atenció ràpida als detalls de dades neuronals que esperen els científics.

Volen més? Segueix-nos a The Spike

Twitter: @markdhumphries