L’articolo del Prof. T. Arecchi è tratto dal libro “…e la coscienza? Fenomenologia, psicopatologia, neuroscienze”, a cura di A. Ales Bello e P. Manganaro (Laterza, Bari 2012)
F. Tito Arecchi
Università di Firenze e
CNR-INO, Largo E.Fermi,6-50125, Firenze
e-mail: tito.arecchi@ino.it
homepage: www.ino.it/home/arecchi
Sommario
Si analizzano due momenti distinti della cognizione umana, e cioè apprensione (A), in cui una percezione coerente emerge dal reclutamento di gruppi neuronali, e giudizio (B), in cui la memoria richiama precedenti unità (A) codificate in un linguaggio conveniente, queste vengono confrontate e dal confronto consegue la formulazione di un giudizio.
Il primo momento (A) ha una durata attorno a 1 sec; esso appare come un presente atemporale e ad esso è associato un correlato neuronale sotto la forma di sincronizzazione della banda gamma dei segnali elettro-encefalo-grafici (EEG) provenienti da aree corticali distanti.
Esso può essere descritto come una interpretazione degli stimoli sensoriali sulla base di algoritmi già disponibili, mediante una procedura di Bayes. Il secondo momento (B) implica il confronto di due apprensioni acquisite a tempi diversi, codificate in un dato linguaggio e richiamate dalla memoria. (B) dura circa 3 sec e richiede la auto-coscienza, in quanto l’agente che esprime il
giudizio deve essere consapevole che al suo scrutinio sono sottoposte le due apprensioni e che a lui tocca estrarne una mutua relazione. A differenza di (A), (B) non presuppone un algoritmo, ma piuttosto ne costruisce uno nuovo attraverso una procedura di Bayes inversa. Questa costruzione di un nuovo algoritmo è intimamente legata con la creatività e la libertà decisionale.
Parole chiave
Sincronizzazione neuronale, apprensione, giudizio, inferenza di Bayes, Bayes inverso
Nel volume ”Rapporto cervello -coscienza” a cura di A.Ales Bello, Laterza 2011
LA COGNIZIONE: INTRODUZIONE
Dobbiamo distinguere fra due tipi di processi cognitivi. Nel primo, uno stimolo esterno dà luogo a una percezione coerente, da cui consegue una definita reazione motoria, lo chiameremo apprensione (A); esso corrisponde al reclutamento di gruppi di neuroni corticali che rispondono in sincronismo. Nel secondo, una unità (A) codificata in qualche linguaggio viene richiamata
dalla memoria e confrontata con una (A) più recente; il confronto porta alla formulazione di un giudizio (B). Ho usato i termini apprensione e giudizio per i due atti cognitivi che caratterizzano l’intelletto umano (Lonergan, 1957)
Il primo ha luogo su un intervallo di tempi attorno a 1 sec (da alcune centinaia di millisecondi fino a un massimo di 3 sec). Esso risulta dalla sincronizzazione collettiva delle oscillazioni registrate dall’elettro-encefalo-gramma (EEG) nella banda gamma (cioè attorno ai 50 Hertz), sincronizzazione che coinvolge aree corticali estese. Il risultato è una percezione coerente, in base a cui l’agente cognitivo acquista consapevolezza di un aspetto dell’ambiente che lo circonda (Rodriguez &al.,1999; Singer,2007; Womelsdorf & Fries,2007). La durata di (A) può essere allungata fino a 150 sec mediante tecniche di meditazione (Lutz & al.,2004).
Il meccanismo di sincronizzazione neuronale non presenta differenze rilevanti fra un soggetto umano e una animale superiore (scimmia o gatto). In effetti (A) può essere studiato con vari metodi di laboratorio,e qualora esso sia identificato con la Coscienza (impropriamente, come vedremo) si parlerà di correlati neuronali della coscienza (NCC).
I vari (A) possono essere richiamati dalla memoria e utilizzati per decisioni motorie; ciò accade nella vita quotidiana di qualunque agente cognitivo. Anche un allungamento della scala di tempi non altera quanto detto e parleremo sempre di processi (A).
Ned Block (2005, 2009) ha distinto fra coscienza fenomenica (phenomenal consciousness = P-C), cioè il soggettivo stabilire i dettagli della cosa (“what is to be like”) e coscienza disponibile ( access consciousness = A-C), cioè, i contenuti di P-C resi disponibili per ulteriori azioni. Questa distinzione non implica scale di tempi diverse; in effetti, alcuni autori mettono in discussione la stessa distinzione fra P-C e A-C (Kriegel, 2006).
Negli esseri umani (e – per quanto ne sappiamo – solo in essi) l’informazione di (A) viene codificata in un linguaggio conveniente e conservata non come una capacità motoria ma come una unità con un significato preciso. I vari blocchi linguistici possono essere confrontati per estrarre una tendenza globale nella sequenza. Questo accade su scale di tempi oltre i 3 sec; chiamiamo (B) questa operazione che presuppone la codifica degli (A) nello stesso linguaggio.
La frontiera temporale fra (A) e (B) è stata esplorata da E. Pöppel in vari lavori (Pöppel,1997,2004,2009). (B) non è più un singolo processo di sincronizzazione, in quanto il confronto implica la presenza di differenze fra le varie (A) confrontate. Affinché (B) sia efficace, occorre che il soggetto cognitivo sia conscio della propria unità che persiste nell’esplorazione di differenti pacchetti linguistici; pertanto (B) non è mera consapevolezza percettiva, ma auto-coscienza.
Spiegheremo (B) mediante quello che abbiamo chiamato “inferenza di Bayes inversa”. Come vedremo in dettaglio, è stato già mostrato che la procedura diretta di Bayes (Bayes,1763) gioca un ruolo cruciale nelle decisioni rapide (Wolpert & al.,1995; Kording & Wolpert,2006; Ma,Beck & Pouget,2008; Baratgin & Politzer,2006). Essa è equivalente alla sincronizzazione neuronale collettiva che genera (A). L’Appendice illustra come un processo dinamico (e tale è la sincronizzazione collettiva) possa essere visto come una inferenza di Bayes. Il Bayes inverso che verrà qui spiegato permette di formulare un giudizio (B) (Arecchi,2010) , mentre (A) con la sua sincronizzazione neuronale si limita all’apprensione.
La Fig. 1 mostra la sequenza temporale delle operazioni che hanno luogo nella neocorteccia cerebrale in una percezione visiva. Ci rendiamo conto che abbiamo avuto una percezione coerente o apprensione quando uno stimolo sensoriale suscita una risposta adeguata (o una reazione motoria o una formulazione linguistica). Riferendoci alla percezione visiva, e esponendo il soggetto a una immagine a partire dal tempo t=0, lo stimolo visivo viene codificato in un treno di impulsi elettrici (spikes), ciascuno di durata 1 millisecondo e con mutua separazione (detta interspike interval = ISI ) che codifica gli aspetti del segnale.
Le spikes viaggiano inalterate dalla retina alla corteccia visiva primaria V1 con una velocità attorno a 1 m/sec, e pertanto arrivano a V1 dopo 100 msec.(*)
Ricordiamo che ogni cellula cerebrale, o neurone, è costituita da un soma dove avviene il metabolismo e dove vengono elaborati i segnali chimici ricevuti agli ingressi (dendriti) da altri neuroni; ad elaborazione finita, il risultato è codificato in un treno si impulsi elettrici e trasmesso su lunghe distanze attraverso una linea di ritardo (assone) che parte dal soma e all’altra estremità finisce su una sinapsi, dove i segnali elettrici sono ri -codificati in segnali chimici – i neurotrasmettitori – e trasferiti all’ingresso di un altro neurone. La codifica chimico –elettrico – chimico permette al segnale elettrico di percorrere i 10 cm fra retina e V1 in 100 msec; invece, una molecola diffonde lentamente nei liquidi intra- ed extra-cellulari, impiegando meno di 1
msec per attraversare la separazione sub-micrometrica fra due neuroni adiacenti (detta gap sinaptico) mentre avrebbe bisogno di 10 giorni per diffondere su 1 cm!]
Da V1 i segnali sono elaborati in due canali, il WHAT = CHE COSA (elaborazione di forme e colori) e il WHERE = DOVE (elaborazione di relazioni spaziali e temporali). Nella elaborazione, i segnali di partenza (detti bottom-up = dal basso verso l’alto) sono modificati da segnali top-down (= dall’alto verso il basso) che provengono dalle memorie semantiche (percezioni precedenti categorizzate, emozioni,attenzione, ecc). La modifica è una ri- codifica che mantiene l’informazione di ingresso ma la presenta sotto altra forma dopo averla arricchita con valutazioni soggettive. I due flussi separati convergono verso la corteccia pre-frontale ( PFC = pre-frontal cortex), dove ha luogo una lunga elaborazione.
Dopo un ulteriore mezzo secondo, una decisione viene trasmessa alle aree motorie o del linguaggio, e quindi possiamo essere edotti di una percezione coerente del soggetto attraverso le sue reazioni.
Ho delineato la sequenza temporale come registrata in laboratorio su soggetti normali (Rodriguez et al., 1999). La lunga elaborazione nella PFC corrisponde a una ricerca per tentativi con successive presentazioni top-down di interpretazioni alternative, scegliendo alla fine quella che meglio si adatta agli aspetti dello stimolo di ingresso. Questa procedura è stata elaborata in svariati modelli computazionale. In particolare, io trovo utile la teoria della risonanza adattiva ( ART=adaptive resonance theory) di Grossberg (Grossberg,1987; Carpenter & Grossberg, 2003).
Se si richiede una reazione rapida (per esempio, frenare l’auto ad una emergenza o rispondere a un servizio a tennis), gli 800 msec sarebbero un tempo troppo lungo, e allora riduciamo la durata della elaborazione evitando una ricerca prolungata e ricorrendo a procedure già codificate attraverso una strategia Bayesiana che verrà illustrata qui di seguito.
Fig.1 -Percezione visiva: percorsi e tempi. La sottile linea di contorno è una rappresentazione schematica della neo-corteccia (spessore circa 2 mm). Presentiamo la sequenza temporale degli eventi a partire dall’arrivo sulla retina di uno stimolo visivo al tempo t=0. Dopo 100 msec, il segnale codificato come un treno di impulsi elettrici raggiunge V1. Dopo V1, il segnale è elaborato in due aree distinte, V4 o WHAT, e V5 o WHERE. Le informazioni separate sono ricombinate in PFC, insieme con i segnali top-down che vengono dal cervello interno (emozioni, memoria). Questo mescolamento richiede circa mezzo secondo partendo da 200 msec; ad 800 msec dopo l’applicazione alla retina, emerge una decisione che attiva le aree motorie e del linguaggio.
IL CERVELLO CAOTICO
Per circa 800 msec ( ma arrotondiamo a 1 sec, visto che ci sono forti fluttuazioni da una percezione all’altra) abbiamo dovuto mantenere intatta l’informazione di partenza; altrimenti, i nostri resoconti sul mondo sarebbero tutti carenti. Si sa però che un singolo neurone isolato è affetto da caso deterministico, e dovrebbe perdere l’informazione iscritta nelle propria dinamica entro qualche millisecondo (Arecchi, 2004).
E’ questa la correzione al determinismo di Newton- Laplace –che cioè, note le forze, le condizioni iniziali determinano tutto il futuro – dovuta a Henri Poincaré e che oggi appunto chiamiamo caos deterministico, indicando con un ossimoro che il caos, o perdita di informazione, non è un fatto statistico che riguardi grandi folle, ma interviene già in problemi apparentemente semplici perché retti da poche variabili dinamiche; per l’esattezza, basta averne più di 2, da 3 in su. La ragione consiste in una esagerata sensibilità alle condizioni iniziali. Le condizioni iniziali sono gruppi di numeri (uno per ogni variabile del problema) , ma di ogni numero reale possediamo solo una versione troncata, la cui rappresentazione geometrica è un segmento e non un punto. Si pone allora il problema: traiettorie che partono da punti diversi del segmento si mantengono vicine o piuttosto si divaricano nel corso del tempo, sì che una trascurabile incertezza iniziale dia luogo a vistose differenze al passare del tempo? Per esplorare le conseguenze di una incertezza iniziale, applichiamo piccole perturbazioni trasversalmente alla traiettoria ideale calcolata a partire da un punto.
Se il sistema è trasversalmente stabile, al passare del tempo ritornerà alla traiettoria ideale; se instabile, la nuova traiettoria dopo la perturbazione si allontanerà sempre di più da quella ideale, il cui contenuto d’informazione verrà perso. Questo accade nei modelli meteorologici, per cui bisogna aggiornare i dati ogni giorno. Nel caso di un neurone isolato, il tempo di perdita dell’informazione è di qualche millisecondo (Arecchi,2004): troppo poco rispetto alle centinaia di millisecondi necessarie per decidere.
Il caos deterministico può essere controllato aggiungendo un segnale che modifichi la stabilità trasversa senza disturbare la traiettoria longitudinale (Ott, Grebogi & Yorke,1990). Il controllo equivale a una ri-codifica del problema, che così passa –diciamo- da N variabili a N+m variabili (le m variabili aggiunte sono quelle che aumentano la stabilità traversa).
Pittorescamente, visualizziamo un problema dinamico a N variabili come il moto di un punto in uno spazio a N dimensioni. Il controllo del caos equivale dunque all’immersione in uno spazio a N+m dimensioni.
Applichiamo questa strategia del controllo alla dinamica dei neuroni. Per attuare la ricodifica, dobbiamo modificare gli stimoli bottom-up con le interpretazioni top-down. Una percezione è ben lungi dall’essere una registrazione passiva di dati esterni, come invece avviene sul dorso foto-sensibile di una video-camera. Il processo è schematizzato in Fig.2 ,dove global workspace (GWS) è il nome dato (Baars, 1989) all’unità corticale di elaborazione da cui emergono le decisioni motorie.
Nel caso visivo (Fig.1) GWS si identifica con PFC.
Fig.2 Ruolo del global workspace (GWS). La combinazione degli stimoli esterni bottom-up e delle ipotesi interpretative top down, elaborata dal GWS, diviene un apprensione che determina una decisione motoria. Come fa GWS a scegliere fra segnali diversi che gli arrivano? L’ipotesi di feature binding (Singer, 2007) dice che tutti i neuroni coinvolti nell’elaborare i segnali che corrispondono alla stesso aspetto (feature) emettono treni sincronizzati di impulsi. La sincronizzazione collettiva è un comportamento robusto che può durare abbastanza a lungo da suscitare una decisione GWS. Essa va considerata come il risultato di stimoli individuali a neuroni più un mutuo accoppiamento con altri neuroni; il tutto insieme si configura come un controllo del caos che allunga la durata di una informazione rilevante per un tempo sufficiente ad allertare il GWS.
E’ stato ipotizzato (Baars,1989,Dehaene & Naccache, 2001) che, in presenza di uno stesso stimolo esterno (bottom-up), differenti aree neuronali sono sottoposte a sincronizzazione collettiva, ciascuna con differenti contributi top-down che corrispondono a differenti interpretazioni del segnale di ingresso. Le differenti aree sincronizzate entrano in competizione fra di loro. Se il GWS opera come un sistema a soglia che si attiva al di sopra di un certo livello, allora fra i differenti gruppi neuronali in competizione, il vincitore dovrebbe essere quello che ha attivato il più grosso dominio sincronizzato più grosso. La sua interpretazione, cioè il suo modo di leggere il segnale, dominerà e orienterà il GWS ad una adeguata reazione motoria.
L’evidenza sperimentale di sincronizzazione in animali di laboratorio risulta correlando i segnali catturati da microelettrodi ciascuno posizionato su un singolo assone (Singer,2007). In soggetti umani i microelettrodi sarebbero troppo invasivi; d’altronde un comune EEG non dà risoluzione sufficiente per evidenziare l’effetto. Se però si filtra dallo EEG una quasi-sinusoide entro la banda gamma (intervallo di frequenze fra 40 e 70 Hertz, caratteristico delle computazioni corticali) si può evidenziare un accordo di fase di segnali filtrati estratti da aree corticali distanti, ad esempio V1 e PFC. Questo accordo evidenziale sincronizzazione dei neuroni che appartengono a quelle aree ( Rodriguez et al., 1999).
L’APPRENSIONE COME INFERENZA DI BAYES
Fin qui, abbiamo trattato la sincronizzazione come il comportamento collettivo di una folla di neuroni, ciascuno rappresentato da un sistema dinamico caotico. In effetti, nel cervello “bagnato”, cioè aperto a disturbi ambientali per effetto dei collegamenti fisiologici con tutto l’organismo, un modello dinamico per cui un risultato d discende in modo univoco da un’ipotesi h che rappresenta uno stato iniziale attraverso una precisa relazione funzionale del tipo d=F(h) appare una idealizzazione poco consona alla realtà.
Per sottrarsi al semplicismo del modello dinamico, lo rimpiazziamo con un approccio statistico basato sull’inferenza di Bayes (1763).
Esso consiste nella procedura seguente:
i) Partendo da una situazione iniziale, formuliamo un ventaglio di ipotesi h ,a ciascuna delle quali assegniamo una probabilità a-priori P(h), essendo P un numero positivo compreso fra 1 (certezza assoluta) e 0 (accadimento escluso);
ii) Ogni h,inserita in un modello di evoluzione, genera dati d con la probabilità condizionata P(d |h ) che d risulti da h (la nozione di probabilità condizionata si esprime con una barretta verticale fra condizionato e condizionante,e- come prima- si attribuisce alla probabilità un valore 0<P<1;
iii) Effettuando una misura, si registra un particolare dato d da un insieme cui spetta una
probabilità P(d);
iv) La combinazione di iii)+ii) seleziona una particolare ipotesi h*, cui spetta la più alta probabilità a-posteriori P(h*)= P(h|d) . La procedura si riassume nella formula: P(h*)= P(h|d) = P(h). P(d | h) / P(d). Dunque, h* è l’ipotesi più plausibile, essendo quella cui spetta la probabilità più alta. Nel corso di una indagine (pensiamo a Sherlock Holmes) abbiamo fatto un passo avanti in quanto abbiamo ristretto il ventaglio di ipotesi da P(h ) a P(h*) .Ripetiamo ricorsivamente la procedura, utilizzando lo stesso algoritmo che corrisponde al modello P(d | h ) scelto.
Per utilizzare una rappresentazione didascalica, riduciamo a 2 il numero di variabili del problema, in modo da muoverci su un piano, e indichiamo le probabilità con le altezze verticali.
Successive applicazioni di Bayes equivalgono alla scalata di un monte di probabilità,a partire da valori bassi; il picco del monte rappresenta la massima plausibilità (Fig.3) (Arecchi,2007 a,b) N
L’evoluzione darwiniana è bayesiana, con la mutazione che corrisponde alla formulazione di un ventaglio di ipotesi h; fra queste -inserite in un modello P(d | h ) di sviluppo- prevale (viene selezionata) quella mutazione h* che meglio si adatta ai vincoli ambientali d.
Fig.3– Costruzione di ipotesi vieppiù adeguate agli esperimenti, per applicazione successiva del teorema di Bayes. La procedura è una scalata del monte della probabilità guidati dal modello, o algoritmo. Le stellette indicano le posizioni successive. Ad ogni punto sulla curva che porta al picco corrisponde un valore di probabilità. Si noti che la strategia darwiniana è una implementazione di Bayes.
Il modello P(d | h ) è l’algoritmo con cui istruiamo un computer, facendone un sistema esperto (expert system) che seleziona le ipotesi confrontandosi con i dati. Interpretiamo l’apprensione come una inferenza di Bayes (Arecchi,2007 a,b) descrivendo quel che accade entro un intervallo di sincronizzazione (attorno a 1 sec) come segue (Fig.4)..L’agente cognitivo deve scegliere l’ipotesi h* più plausibile fra un gran numero di h.
La memoria è equipaggiata con un modello procedurale P(d | h) che genera un dato d per ogni ipotesi h; d’altra parte, l’ingresso sensoriale è un dato preciso d; dunque la procedura di Bayes seleziona a-posteriori l’ h* che meglio si adatta al dato d (Fig3).
Il cambiare modello è una operazione di ri-codifica che ha luogo durante l’elaborazione di mezzo secondo che intercorre fra l’arrivo degli stimoli bottom-up e l’espressione di una reazione in termini di decisioni motorie. La ri-codifica top-down utilizza un insieme di modelli P(d | h ) richiamati dalla memoria, scegliendo quello che i meccanismi interni (emozioni, attenzione, valori) suggeriscono come il più appropriato.
Negli animali, questo insieme di modelli è costruito in precedenti fasi di addestramento, nei robot viene inserito come istruzioni; in ogni caso, l’insieme è limitato sia per gli animali sia per i robot.
Vedremo invece che un soggetto umano è capace di costruire nuovi algoritmi attraverso il confronto di brani linguistici correlati, e chiameremo creatività questa capacità.
Fig.4- Apprensione come inferenza bayesiana (h=ipotesi apriori, d= dati)
Selezione dell’ipotesi aposteriori h* in base a cui agire, a partire da un ventaglio di h, per azione congiunta di uno stimolo sensorio d (bottom-up) e di un modello interpretativo o algoritmo (top-down).
LA COMPLESSITA’- IL TEOREMA DI GÖDEL
Un problema è complesso quando non è risolvibile nell’ambito di un singolo algoritmo (o di un numero piccolo e prefissato di algoritmi). La Fig.3 visualizza l’implementazione di un processo ecologico, in cui un agente cognitivo, equipaggiato con un modello P(d | h ) del mondo,interagisce in modo ricorsivo con l’ambiente, aggiornando ad ogni passo il punto di partenza. Questa strategia non funziona più in una situazione complessa. Sintetizzando tre decenni di intensi dibattiti,possiamo definire complessa una situazione che non è esaurita da un singolo modello. Lo scambio di algoritmo è una procedura non-algoritmica; un sistema complesso è visualizzabile come un paesaggio con molti monti di probabilità (Fig.5).
L’arrampicarsi su un singolo versante può essere automatizzato da un programma di massimo gradiente (che cioè segue una linea ottimale di massima pendenza). Si tratta di una procedura non-semiotica (che cioè non richiede l’esplorazione dei significati) e il corrispondente algoritmo è caratterizzato da una complessità algoritmica (Chaitin,1987), definita come il numero di bit del
programma più corto che risolve il problema.
Al contrario il saltare su altri versanti, e continuare la strategia di Bayes scalando altri colli, è un atto di creatività che richiede una comprensione globale dell’ambiente circostante (semiosi) e non già una collezione ridotta di dati(riduzione del mondo a una collezione finita di simboli). Denotiamo il paesaggio con molti colli come “complesso semanticamente“.
Ad ogni colle va attribuito un significato diverso, in quanto si deve operare su di esso con un algoritmo diverso.
E’ stato ipotizzato (Sebeok,1992) che la semiosi è la proprietà che distingue un vivente da una macchina universale di calcolo di Turing. Più avanti identificheremo la creatività con il salto da un modello bayesiano a un altro. Semiosi dunque equivale a creatività come illustrato in Fig.5.
Nel campo della ricerca scientifica, la differenza fra una singola strategia bayesiana e un salto creativo è quella che è stata storicizzata come differenza fra scienza normale e spostamento di paradigma (Kuhn, 1962).
Fig.5- – La complessità semantica come molteplicità di algoritmi per affrontare la stessa situazione –
Il primo teorema di incompletezza di Gödel (1931) può essere considerato come unsalto creativo in un paesaggio complesso, come illustrato in Fig 6. Il teorema stabilisce che, per ogni teoria formalmente consistente e computazionalmente numerabile, che dimostra le verità aritmetiche, si può costruire un enunciato aritmetico vero, ma non dimostrabile nella teoria. “Dimostrabile nella teoria” significa “derivabile dagli assiomi e dalle nozioni primitive della teoria,usando la logica standard del prim’ordine”. C’è un equivalente di questo teorema nella scienza dei computer; precisamente Turing (1936) ha dimostrato che un computer universale, per un generico input, non può decidere di fermarsi ( indecidibilità dello halting problem).
LA NASCITA DEI LINGUAGGI E LA COSCIENZA
Il salto da un modello a un altro sotto la guida della semiosi è un’operazione non algoritmica peculiare di un essere vivente in interazione con l’ambiente. Ci si pone la domanda: possiamo aspettarci una evoluzione delle macchine di calcolo, fino al punto cambino algoritmo con una procedura adattiva? La risposta è sì all’interno di uno scenario con repertorio limitato. Il cambio finora attuato è basato su una procedura variazionale, in base a cui il modello seguente è una versione con piccole modifiche rispetto al precedente, il quale pertanto deve essere strutturalmente stabile, cioè sopportare delle piccole varianti senza subire catastrofi. Tale è l’algoritmo genetico di Holland (Holland,1992).
Invece l’applicazione di variazioni a un generico algoritmo di Bayes in una situazione complessa può dar luogo a instabilità, nel senso che una piccola variazione può indurre un salto discontinuo. Ciò richiede il ricorso a un algoritmo del tutto differente, violando la gradualità postulata sopra. Un tale salto non algoritmico permette al matematico creativo di catturare la verità di proposizioni compatibili con gli assiomi ma non raggiungibili con il formalismo deduttivo: è questo il nucleo del teorema 1931 di Gödel. Non si vede come una macchina possa violare il piano sul quale è stata progettata,andando oltre i graduali cambiamenti variazionali permessi dalla strategia dell’algoritmo genetico La nascita di un linguaggio offre una soluzione al problema su esposto. Negli umani,l’apprensione può essere codificato in un linguaggio opportuno (letterario, o musicale, o plastico).
Il messaggio codificato è successivamente ripreso dalla memoria e confrontato con le formulazioni linguistiche di altri apprendimenti, modificando il modello P(d | h ) in modo guidato dalla presentazione successiva di ipotesi h diverse. Ciò equivale a rivisitare la stessa situazione, ma da prospettive diverse. Nella Sezione seguente descriviamo i dettagli di questa procedura linguistica Per ora anticipiamo che la strategia non è confinata su un insieme limitato,infatti il linguaggio umano è caratterizzato dal fatto che “ fa un uso infinito di un insieme finito di risorse” (frase attribuita a Wilhelm von Humboldt, 1836, vedi Nowak & Krakauer,1999), dunque,questa ri-presentazione dello stesso evento cognitivo da punti di vista diversi va considerata come un passaggio non algoritmico.
Quanto detto suggerisce di definire la coscienza (C) come l’esplorazione delle varie strategie P(d | h ), scegliendo quella che meglio si adattala flusso dei dati come si presentano nelle sessioni linguistiche C non va confusa con la consapevolezza percettiva (perceptual awareness) per la quale sono stati esplorati indicatori convenienti ,detti impropriamente NCC(neural correlates of consciousness) (Koch,2004).
In effetti,C.non sembra avere uno specifico NCC, in quanto coinvolge varie sessioni di apprensione ciascuna caratterizzata dalla propria NCC (Arecchi,2010). Questo argomento verrà approfondito nella Sezione seguente.
IL GIUDIZIO COME PROCEDURA DI BAYES INVERSA
Abbiamo considerato un scala di tempi attorno a 1 sec in cui si realizza l’apprensione (A).
(A) risulta dalla competizione in GWS di differenti gruppi sincronizzati, e va considerato come un presente a-temporale, perché una percezione coerente implica un ri-aggiutamento delle scale temporali dei diversi canali sensori (uditivo, visivo, ecc) che singolarmente evolvono di una strategia dinamica, ilcontrollo del caos; tuttavia (A) è deterministico solo in parte, perché in un cervello vivo l’evoluzione deterministica va rimpiazzata con una procedura di Bayes. (A) è comune a tutti gli animali superiori ed infatti viene esplorato in laboratorio su scimmie o gatti (Singer,2007). La durata di questo evento a-temporaledi sincronizzazione può essere estesa da un conveniente feedback top-down fino a 150 sec, come riportato nel caso di soggetti alllenati alla meditazione senza oggetto (Lutz &al., 2004).
Una seconda scala di tempi è associata con il confronto fra l’apprensione presente e uno passato richiamato dalla memoria, entrambi codificati nello stesso linguaggio. E’ ragionevole arguire che il confronto richiede tre volte il tempo richiesto da unsingolo apprensione (A); precisamente,1 sec è richiesto per acquistare consapevolezza dell’ ultima presntazione (che chiameremo d in vista di una procedura di Bayes), un’altro intervallo di 1 sec serve per richiamare una presentazione precedente (h *), e 1 sec serve a rendere d e h* co-presenti, cioè a congiungerli in una sincronizzazione (feature binding) comune. Chiameremo giudizio (B) questo confronto che avviene su 3 sec. Entro (B) si procede sfruttando una procedura di Bayes inversa (Arecchi, 2010).
Illustriamo i dettagli della procedura. L’apprensione (A) si costruisce per Bayes diretto; l’incognita è l’ipotesi più plausibile h*, che risulta combinando l’algoritmo top-down P(d |h) con la conoscenza della probabilità P(d) dei dati bottom-up, come segue P(h*)= P(h|d) = P(h) x P(d|h) / P(d).
Al contrario, quando confrontiamo un brano d di un testo con un brano precedente h* richiamato dalla menoria (si pensi a due versi successivi di una poesia o a due misure successive di una melodia), l’icognita è ora l’algoritmo più appropriato per armonizzare d e h*. Esso risulta come soluzione della relazione di Bayes inversa, cioè,
P(d |h) = P(d) x P(h*)/P(h) .
Questa procedura , che è escusiva degli umaniperchérichiede la codificadegli apprendimenti in un linguaggio simbolico, è rappresentata in Fig.7.
In tal modo, recuperiamo un punto cruciale della filosofia cognitiva. La formulazione cognitiva di Tommaso d’Aquino (1269) implicava il potere di cogliere le cose. Invece la formulazione di Galilei (1612) rigetta la nozione di cosa come priva di significato e la rimpiazza con la nozione di oggetto come collezione di “affezioni quantitative” cioè di aspetti misurati da apparati affidabili e pertanto validi per qualunque osservatore.
Dal 1612, la scienza moderna è stata costruita come un insieme di relazioni matematiche fra i numeri che codificano le misurazioni.
Oggi, l’oggetto come una collezione di numeri è diventato la familiare nozione di codice a barre che classifica un prodotto in un negozio. Tuttavia non mi risulta che qualcuno provi piacere nel contemplare il codice a barre di una mela piuttosto che afferrare una mela reale.
L’esplorazione della complessità ha mostrato le limitazioni della nozione di oggetto; la procedura inversa di Bayes recupera la cosa i cui aspetti d sono condizionati dal punto di osservazione h attraverso P(d | h).
Una scienza basata su oggetti può essere delegata a un computer, nel senso che un programma di computer può ricostruire le relazioni fra i vari aspetti quantitativi. Questa era l’affermazione di Herbert Simon, supportata dal Programma Bacon, che ricava le leggi di Keplero partendo dai dati astronomici disponibili all’inizio del XVII Sec. (Langley&al.,1987).
In effetti, il problema kepleriano è del tutto privo di complessità; per contro, se affrontiamo problemi complessi, non ci aspettiamo che un computer possa rimpiazzare la creatività scientifica (Arecchi,2007 b).
Il ri-aggiustamento dei nostri codici mentali alla cosa è infatti la definizione tecnica di verità in Tommaso d’Aquino (1269): La verità è la conformità dell’intelletto alle cose (Veritas est adaequatio intellectus et rei).
Fra l’altro, il ri-aggustamento del punto di osservazione in una sequenza di Bayes inversi provvede una soluzione alla paradossale affermazione di Platone, che i nostri sensi ci ingannano perché siamo come prigionieri in una caverna, costretti a vedere solo le ombre della realtà proiettate sul fondo della caverna. In effetti, se continuiamo ad osservare le ombre sotto diverse angolazioni, confrontando le osservazioni raccolte ad ore diverse del giorno ( il confronto fra i diversi punti di vista che facciamo in (B)), finiamo con il costruire una immagine adeguata della realtà.
I due compiti cognitivi, apprensione e giudizio, richiedono un ulteriore confronto. La Fig.8 è una sinossi di quanto già discusso alle Fig. 3 e 7.
Fig. 8- a) APPRENSIONE.
E’ una selezione di h* da un largo ventaglio di h, per azione congiunta di uno stimolo bottom –up d e di un modello interpretativo P( d | h), assegnato a priori. Questo compito richiede circa 1 sec e la dinamica cerebrale dà luogo a eventi misurabili (correlati neuronali della consapevolezza = NCC). b) GIUDIZIO. Consiste in un confronto di due apprendimenti d ed h* codificati nello stesso linguaggio; dal confronto emerge a-posteriori il legame più adeguato P( d | h). Siccome il giudizio implica eventi neuronali distinti, non gli si può associare un NCC specifico
La ricerca sperimentale esplora con varie tecniche i correlati neuronali della consapevolezza (NCC) (Koch,2004). Gli NCC possono visualizzare il reclutamento di gruppi neuronali per compiti legati all’apprensione (intervalli di 1 sec). Nel caso del giudizio, abbiamo tre unità separate di apprensione (quella relativa alla codifica di d, quella corrispondente al richiamo di h* e quella in cui le due apprensioni codificate sono messe a confronto per formulare un modello interpretativo (Fig.8). Come discusso da Koch (2004), dobbiamo aspettarci NCC diversi per le tre unità da 1 sec, pertanto è impossibile avere un NCC comprensivo per l’intero giudizio. La coscienza, come intesa in NCC, significa consapevolezza di una specifica apprensione. Quando decidiamo un’azione motoria, questa consapevolezza può manifestarsi con un ritardorispetto alla comparsa dei potenziali di azione che stimolano i muscoli (Libet,2004). Questo fatto è stato considerato come evidenza sperimentale della non esistenza di una volontà libera, in quanto diveniamo consapevoli di una decisione che si è già attuata senza aspettare il nostro consenso.
Invece della precedente definizione, definiamo la coscienza, o meglio la auto-coscienza come la consapevolezza di un agente di essere lo stesso giudice che sottopone a scrutinio sia l’ultimo brano d di discorso sia il brano richiamato h* per costruire a posteriori una connessione P( d | h).
Questa connessione a posteriori provvede una guida per scoprire le relazioni profonde fra i brani di un testo linguistico (poesia, musica, pittura ,ecc) o di una situazione vissuta che richiede decisioni etiche da parte nostra.
Queste decisioni, essendo il risultato di un giudizio, sono libere nel senso che dipendono da un impegno personale e nonerano incluse (né esplicitamente né implicitamente) nella situazione stessa. Da queste considerazioni emerge che una decisione etica richiede un tempo ben più lungo dei tempi di Libet, e pertanto sfugge a quella inversione di ordine riportata prima.
MODELLI BAYESIANI DI COGNIZIONE – LA CREATIVITA’
Sui problemi considerati in questo lavoro sono stati scritti molti contributi. Per essere più specifici, nella psicofisica molti aspetti della percezione umana o del comportamento motorio sono modellati con la statistica bayesiana (Kording & Wolpert, 2008);nella codifica neuronale, molti studi teorici cercano di prospettare come il sistema nervoso possa implementare algoritmi bayesiani (Doya, Ishii & Pouget, 2007); per quanto riguarda i modelli della cognizione, si veda ad esempio Griffiths, Kemp & Tenenbaum (2008) e le homepages di questi Autori.
Dal mio punto di vista di fisico attivo sui sistemi dinamici e sui fenomeni complessi, due aspetti chiave sono stati finora trascurati e cioè, i) le connessioni logiche fra l’inferenza di Bayes e la dinamica non lineare e ii) i vincoli temporali di ogni atto di giudizio, in quanto il tempo rappresenta la cornice ecologica entro cui nascono i giudizi scientifici, estetici ed etici.
i) inferenza di Bayes e dinamica non lineare
Le teorie deterministiche del cervello partono dalle equazioni dinamiche che regolano il singolo neurone (approccio microscopico). I vari modelli prospettati per il neutrone hanno in comune un paesaggio dinamico che include un fuoco di sella come singolarità principale; il ritorno omoclinico alla sella spiega i treni di spikes con intervalli caotici fra due spikes contigue (Arecchi, 2004) in accordo qualitativo con le osservazioni raccolte da microelettrodi che sondano il singolo assone neuronale (Singer, 2007).
Il passaggio a una descrizione macroscopica si costruisce connettendo un gran numero di neuroni in rete con vari gradi di mutua connessione. Si può realizzare un approccio macroscopico diretto adattandola teoria quantistica di campo delle transizioni di fase nella materia condensata, e cercando analogie con i dati EEG (Freeman & Vitiello,2006).
L’approccio bayesiano può essere collegato ai modelli dinamici suddetticome segue. Nell’Appendice mostreremo come il termine centrale della formula di Bayes, cioè la probabilità condizionata P(d | h) di trovare un dato d a partire da un’ipotesi h, sia in effetti una versione smussata della soluzione di un ‘equazione deterministica. Ciò suggerisce una connessione fra i due approcci. Invece di postulare un P(d | h) appropriato a svolgere un certo compito, possiamo teorizzare un caso dinamico ideale, incluso il passaggio dal livello microscopico a quello macroscopico, e quindi spalmare la soluzione deterministica risultante per tener conto dei disturbi ambientali; il P(d | h) così risultante non sarà più un artificio
empirico, ma avrà un ragionevole fondamento logico.
ii) vincoli temporali nella formulazione dei giudizi.
Come discusso con riferimento alle Fig.7 e 8b), il giudizio consiste nell’estrazione a posteriori dello stesso strumento inferenziale P(d | h) che in i) era stato assegnato a priori.
Qui, d e h* sono blocchi di dati raccolti a tempi differenti, ad esempio, due versi consecutivi di una poesia, o due misure consecutive di una melodia, o due aree distinte di un dipinto messe a fuoco in due fissazioni oculari consecutive. I due blocchi a confronto devono essere codificati nello stesso linguaggio. Inoltre devono essere adiacenti, da cui il vincolo dei 3 sec.
Se allunghiamo l’intervallo cognitivo a più di 3 sec, non approfondiamo il confronto, ma piuttosto introduciamo altri blocchi di dati (Poeppel, 2004). Se dobbiamo aumentare il dettaglio di P(d | h) ,dobbiamo ripetere la sessione con gli stessi d e h*, finché si abbia un risultato soddisfacente.
Per quanto mi risulta, questo tipo di indagine sui vincoli temporali è stato affrontato solo da Poeppel (1997 a 2009). Ne mio gruppo di ricercastiamo esplorando questo argomento con vari approcci sperimentali (lavoro non pubblicato).
Concludiamo con alcune considerazioni sulla creatività. Se identifichiamo la creatività con la scoperta di una nuova connessione P(d | h) , allora il tempo richiesto per il confronto dei due blocchi ne rappresenta un aspetto cruciale. Finora abbiamo inteso la creatività come la più appropriata interpretazione della relazione fra due blocchi entrambi dati. Ciò corrisponde alla lettura sensata di un testo già disponibile. Gli stessi passaggi creativi sono anche il cuore di una nuova produzione; in altre parole, un nuovo P(d | h) ha un ruolo fondamentale non solo nel costruire un ponte fra il verso n-mo e il verso (n+1)-mo di una poesia data, ma anche nell’ispirare il verso (n+1)-mo una volta che il senso profondo del verso n-mo sia stato afferrato attraverso la sua relazione col verso (n-1)-mo.
Il ponte verso un brano ancora non esistente può essere esteso a ogni produzione artistica (musica, pittura) ed è anche la forza trainante della creatività scientifica e delle decisioni etiche. Dunque, la creatività come qui considerata suggerisce una rivisitazione dell’autonomia nella scoperta scientifica e della libertà nelle decisioni etiche.
13 commenti
Ma scusate, l’apprensione non e’ quella che ti prende 5 minuti prima di fare l’esame? 😉
Almeno, per me e’ sempre stato cosi’
Per tutti i comuni mortali si..per i filosofi è invece ,in buona sostanza, quella capacità con cui l’intelletto arriva concepire,quindi averla nella coscienza, una idea senza però il bisogno di affermare o negare nulla quindi senza effettuare alcun giudizio nè ragionamento.
In questo vi è il confronto successivo fra apprensione condivisa dagli animali e giudizio(e ragionemento) unicamente proprio dell’uomo..nonchè è legato al filosofo Bayes e in relazione ad esso si analizza Darwin..se non erro..
Esempio brutale da due lire..anzi 2 centesimi(per chi leggerà quando saremo tornati al baratto erano due unità di vecchie monete che non valevano praticamente nulla nel momento in cui è stato scritto ciò)
“Gatto” è un’apprensione
“Il Gatto è un animale” è un giudizio
“Il Gatto è un animale allora non è un uomo” è un ragionamento
Questi filosofi…
È formidabile! Dopo “l’abisso cognitivo tra noi e le scimmie […], accaduto in un unico evento e non gradualmente”, ammesso dall’antropologo Ian Tattersall come riferito da CS in un recente articolo; dopo le dichiarazioni del computer scientist Federico Faggin per cui “il cervello umano è un grosso mistero […], qualcosa di magico. Tutta la nostra information technology è una stupidaggine in confronto” e l’auto-coscienza umana è l’«elefante nella stanza», come si dice in inglese, cioè qualcosa che è impossibile non notare, ma che nessuno vuole riconoscere”, come riferito in un altro articolo di CS; ora anche le neuroscienze confermano lo specifico antropico. È rimarchevole che antropologia, computer science e neuroscienze all’unisono identifichino nel linguaggio simbolico umano il punto di discontinuità biologica.
La scoperta scientifica della specificità antropica del simbolo conferma una lezione di Pavel Florenskij, in cui l’eroico sacerdote e scienziato (fucilato 75 anni fa in un gulag sovietico) negava il dualismo cartesiano e allo stesso tempo invitava a dare il giusto peso allo spirito e alla carne: “La dissoluzione del simbolo si verifica nell’idealismo come nel naturalismo: se dal simbolo si elimina l’involucro sensibile, si dissolve anche il suo contenuto spirituale ed il simbolo perde visibilità; al contrario, se si condensa l’involucro in un ordine sensibile al punto che quello spirituale diventi invisibile, l’involucro è impenetrabile allo spirito” (da “La concezione cristiana del mondo. Lezioni all’Accademia Teologica di Mosca, 1921”).
Sarei tanto curioso di sapere cosa replicherebbe a questo fantastico (e davvero complesso) articolo una nostra comune conoscenza che frequenta il sito UCCR, il Sig. Pendesini……
Chissa’, forse, prima o poi, leggendo argomentazioni del genere, riuscira’ a capire quanta ideologia e’ presente nelle posizioni riduzionistiche di tanti neuroscienziati.
Questo articolo del prof. Arecchi è complesso, denso, bellissimo. Non è di immediata comprensione, ma è certamente qualcosa su cui vale la pena di soffermarsi e riflettere approfonditamente. Ciò che mi ha colpito di più è stata l’osservazione – assolutamente fondamentale – che il controllo del caos per un sistema dinamico a N variabili richiede “l’immersione in uno spazio a N+m dimensioni”. Insomma, l’attività di giudizio e la creatività, che corrispondono a processi bayesiani inversi di controllo di un sistema complesso, devono necessariamente “uscire dal sistema” algoritmico per creare nuovi algoritmi: il che equivale a dire che una mente autocosciente NON può essere algoritmica.
M’imbarazza commentare un articolo così denso di informazioni e così ricco di spiegazioni esatte.
Penso però che quest’articolo neghi (correggetemi se così non fosse) la classica spiegazione informatica hardware-software e l’istantaneo collegamento telematico rispetto al farraginoso processo umano di elaborazione.
Vorrei far notare come anche il cervello di uno scimpanzé sia molto sviluppato dal punto di vista encefalico: http://upload.wikimedia.org/wikipedia/commons/1/14/Chimp_Brain_in_a_jar.jpg
C’è un professore di nome Jared Diamond che vorrebbe ricatalogare questa specie e inserirla negli homo, poiché sostiene che lo loro esclusione sia arbitraria e artificiosa.
Si potrebbe da chiedere al prof. Diamond se per questo catalogamento degli scimpanzé egli ha ottenuto la loro approvazione, ed in ogni caso quali consigli ne ha raccolto.
Fuori dagli scherzi, è la computer scienze stessa che nega il parallelismo tra corpo-mente e hw-sw. Però i filosofi riduzionisti non lo sanno e non sanno più che cosa inventarsi.
Ci ho messo un po’ ad elaborare un intervento su questo articolo del prof. Arecchi.
Ci sono tante cose da poter dire, ma la più importante mi sembra quella che ha sottolineato Giorgio: la discontinuità tra Homo sapiens e qualunque altra specie.
Quell’ “elefante nella stanza” che già A.R. Wallace aveva additato solo 10 anni dopo l’Origine delle specie è ancora lì, per 150 anni ci si è voltati dall’altra parte sperando che ignorandolo finisse in qualche modo per sparire da solo.
Ma questo studio, quelli di Tattersall, Faggin e altri mostrano che l’elefante è ancora lì.
Adesso la scelta è tra il continuare a voltargli le spalle sperando che quanto non è accaduto per 150 anni accada adesso, cioè che si tolga di torno, o voltarsi, prendere atto della sua esistenza, e fare i conti con lui.
Non vorrei fare un polpettone di cose che magari non c’entrano nulla fra loro, ma il processo di elaborazione di un giudizio descritto dal prof. Arecchi può avere qualcosa a che fare coi lavori di Stapp?
Se ho detto una castroneria chiedo venia…
Dovrebbe rispondere Arecchi, ma direi di no, Marco. Arecchi, fuori dal suo campo principale di fisico (l’ottica ed i laser), si è occupato di epistemologia e più recentemente di neuroscienze nei termini sperimentali ed interdisciplinari in cui questa nuova disciplina si muove, per studiare il rapporti tra cervello e coscienza. Fuori dal campo fisico, Stapp invece si è occupato di sviluppare l’interpretazione di Copenaghen della funzione d’onda in rapporto alla mente dell’osservatore. In questo campo, ha proposto – in una visione che non esiterei a definire cartesiana, dualistica di mente e materia – che la MQ comporti un’influenza delle scelte consapevoli della mente dell’osservatore direttamente sull’attività del cervello…, ma con una speculazione filosofica che non ha mai utilizzato gli strumenti osservativi propri delle neuroscienze, ma piuttosto quelli ermeneutici della filosofia (oltre che una perfetta conoscenza della matematica della MQ).
Se Arecchi e Stapp hanno qualcosa in comune, certamente questa è la convinzione dell’esistenza del libero arbitrio e della peculiarità di Homo sapiens sapiens.
Diciamo che la mia era una domanda parecchio fantasiosa nata dalla lettura dei due lavori…immaginavo che alla base del controllo del caos ci potesse essere un qualcosa di simile alle ipotesi di Stapp, ma in effetti non so nemmeno di che parlino 😀
In ogni caso, la ringrazio nuovamente per la disponibilità.
@Marco P.
Mi permetto di interloquire, perché recentemente mi sono interessato all’interpretazione di Stapp della MQ. Concordo in pieno con quanto dice Giorgio. In base a quanto mi risulta, comunque, una concezione della natura quantistica del cervello che Arecchi potrebbe sostenere non sarebbe incompatibile con quella di Stapp.
A proposito: mi fa molto piacere che qualcun altro in Italia conosca i lavori di Stapp! Come è facile capire, è stato ampiamente osteggiato nell’ambiente dei fisici quantistici per le sue idee, tanto palesemente in contrasto con il conformismo riduzionista. In ogni caso, le raccomando (se non l’avesse già fatto, naturalmente) la lettura dell’articolo “Quantum physics in neuroscience and psychology: a neurophysical model of mind–brain interaction” (http://www-physics.lbl.gov/~stapp/PTRS.pdf),in cui Stapp propone una spiegazione di alcuni specifici fenomeni neuro-psicologici mediante la sua interpretazione della MQ.
Un cordiale saluto
Purtroppo, ed è un vero peccato, non studio nulla che riguardi questi argomenti (e penso che lo si veda). Mi sono avvicinato alle discussioni sul rapporto mente-cervello per puro caso, dopo aver letto alcune interviste a neurologi e scienziati riduzionisti che mi hanno “scosso”. Allo stesso modo Stapp lo conosco solo da poco e solo per mezzo di articoli divulgativi riguardanti i tentativi di spiegazione della coscienza tramite la MQ (come ad esempio l’ipotesi di Penrose)…ed ovviamente non mi è sfuggito nemmeno il suo articolo su uccr 😉
Ora proverò sicuramente a leggere il testo che mi ha suggerito!