Han pasado ya dieciseis años desde la publicación de los dos volúmenes del PDP (Procesamiento Distribuído en Paralelo) por Rumelhart y McClelland. A pesar de que el título dé a confusión, la obra trata sobre la modelización de los procesos cognitivos. Más que nada sobre cómo aunar diversas áreas de la cognición relativamente separadas entré sí y cómo ofrecer modelos cuantitativos y computacionales a la psicología. Hasta el momento habían aparecido varios modelos cuantitativos, pero poco tenían que hacer pensando en que una de las ramas de mayor importancia dentro del PDP era la psicología evolutiva o del desarrollo, fuertemente enclavada en una disputa entre el piagetianismo y el innatismo modularista de capa y espada. Profundicemos en los contendientes.
Piaget centró su obra en el estudio cualitativo del desarrollo de las capacidades cognitivas de sus hijos. Concebía la mente del recién nacido como una entrada caótica de información. Así, no había ningún intérprete que diera sentido a estas experiencias, sino que unos procesos de dominio general (que actuaban de igual forma en todas las áreas de entrada sensorial y posteriores) captaban las invariantes de la experiencia y hacían que la mente pasara por una serie de etapas evolutivas. Así, dos procesos: acomodación y asimilación, hacían entrar nueva información, moldeaban la previa y hacían que el proceso global de información entrara en una nueva etapa. Karmiloff-Smith, colaboradora de Piaget en Ginebra quizás tenga una imagen más clara del proceso. Aboga porque el desarrollo es un proceso global de redescripción representacional, esto es: el aprendizaje en un área concreta llega a un nivel de maestría que convierte la información de entrada en una nueva categoría más compleja que permite un nuevo tipo de manejo, pasando del conocimiento implícito y automático, a una maestría metateórica del mismo conocimiento. Un proceso de redescripción podría ser parecido a la lectura de una palabra: una primera aproximación sería leer cada letra, hasta que estas son leídas de modo que forman grupos con sentido. Mayor experiencia permitiría encontrar las reglas que se hayan tras la formación de las palabras (por ejemplo, la ortografía). Evidentemente una tara de la escuela piagetiana o constructivista, es su vagueza. Es bastante difícil decir nada a favor o en contra de sus enunciados por bien que describan el proceso.
Los innatistas rápidamente se cebaron con muchas de las hipótesis de los constructivistas. Así, en entornos experimentales en los cuales se controlan variables como el poco preciso movimiento ocular o manual de los recién nacidos se pudo comprobar que los infantes tenían información sobre la composición del mundo varios meses antes de lo que Piaget creía. Así, Baillargeon demostró que en pocos meses ya se poseía conocimiento sobre la permanencia de los objetos (que estos no desaparecen cuando no están a la vista); Mehler hizo lo mismo para mostrar que a las 12 horas del parto ya veníamos especialmente diseñados para atender al lenguaje sobre otros sonidos; etc. La visión del desarrollo es contrapuesta: módulos predeterminados y de información encapsulada son activados por maduración y computan la información para la cual venían genéticamente determinados. El aprendizaje no es más que un factor madurativo más en algunos casos y ante todo, el proceso de desarrollo no es global, sino de dominio específico. Así, el desarrollo del reconocimiento visual de rostros y el del lenguaje no forman parte de la misma parcela de información entrante ni tampoco comparten métodos similares. De hecho, podrían no tener ningún parecido.
Esto hizo que una mayoría de psicólogos del desarrollo, cegados por el desarrollo infantil (embelesados más bien), abandonaran su estudio experimental y serio. Abandonaban el interés del conocimiento de cuál es la arquitectura inicial de la mente, cuáles son los mecanismos que la desarrollan y cómo procesa la información para estudiar al niño. Karmiloff-Smith no duda en decir que se han perdido décadas de investigación de este modo (es recomendable su libro-ensayo de psicología evolutiva, Más allá de la modularidad).
¿Qué pinta el procesamiento distribuído en paralelo en todo esto? Más que nada que las simulaciones que se presentan en este libro ofrecen un nuevo marco para la comprensión del problema del desarrollo. Desde un primer momento el movimiento conexionista parecía tener una pregunta clara: ¿cómo un proceso de aprendizaje cuantitativo puede producir etapas de desarrollo aparentemente cualitativas?. La aspiración de simular los diversos procesos cognitivos por medio de redes neuronales y otros sistemas no lineales ha dado en este tiempo sus frutos, y no sólo enmarcados en la psicología evolutiva, sino también en neurofisiología, neuropsicología, psicolingüística, robótica, etc. Así, desde simulaciones muy generales como la adquisición de la gramática por Elman (1991), hasta la precisión de las predicciones del modelo de priming semántico entre palabras dependientes de tiempo de presentación de Plaut (2000) no hay tanto tiempo, sino un programa de investigación coherente y potente. También aparecen modelos de memoria distribuída como el de McClelland (en esta misma página hay una historia relacionada o el del hipocampo de la rata de Touretzky, modelos de reconocimiento de rostros como el de Farah o el de la organización neural de las vías visuales de Rolls y Parga.
¿Qué tiene de especial una red neuronal? Básicamente es un conglomerado de nodos conectados entre sí que pasan activación por estas conexiones. Bueno, habitualmente también están organizados por capas y transmiten la activación en direcciones específicas. Imaginemos dos capas de cinco nodos cada uno. Cada nodo de la primera capa lanza una conexión a un nodo de la segunda siendo la dirección de la propagación de la activación siempre la misma. Estas conexiones tendrían unos valores denominados pesos de modo que la activación que un nodo transmite a los posteriores es producto de la conexión que mantienen entre sí y de la activación que tenía el primer nodo. Supongamos que el peso es de 0.5 y que la activación del nodo es de 1. ¿Qué ocurre con la activación que alcanza el nodo de la segunda capa? Es evidente que entre los cinco nodos que se conectan con el nodo de la segunda capa, podrían estar varios de ellos activados teniendo un peso distinto de cero. Bueno, pues aquí aparece una función de activación que integra toda la activación que alcanza el nodo, habitualmente siendo una función no lineal como la sigmoide, con forma de S achatada. El empleo de una función no lineal modifica con bastante el procesamiento de la red (este tipo de función es similar al que se da en las neuronas reales), de modo que activaciones bajas y altas son llevadas al extremo, acercándose más a 0 o 1, mientras que las activaciones medias siguen una progresión básicamente lineal. Ahora, aplicándosele una función de aprendizaje, de las muchas que existen, hace que las presentaciones de estímulos vayan modificando cuantitativamente los pesos de las conexiones. Este tipo de sistema distribuído presenta varias características "generales" de la cognición: reacciona ante la similitud de los estímulos, a no ser que sea funcional el aprendizaje de una diferencia significativa (recordemos que la función de activación no lineal permite una alta discriminación a pesar de una escasa diferencia en la entrada); generaliza a nuevos estímulos de la misma categoría siempre que mantengan ciertas propiedades básicas comunes, detectando invarianzas o "reglas"; y además, presentan una conducta dirigida por etapas, basada en un aprendizaje cuantitativo. Presentan numerosas dependencias al contexto y a los sesgos estadísticos del input. Por ejemplo, si han de aprender a transformar una serie de rasgos fonéticos en letras, la adquisición se verá influída por la proporción de letras y rasgos fonéticos, de la semejanza fonética entre dos letras y demás; propiedades que en numerosas ocasiones se hallan en experimentación diversa.
Sobre redes neuronales, conexionismo y desarrollo, te recomiendo Rethinking Innateness. También son de utilidad el de Karmiloff-Smith, aunque es menos de redes... Más Allá de la Modularidad del cual no he encontrado página web en castellano (en inglés seguro... "Beyond modularity"). [/Introduction to connectionist modelling of cognitive processes también es muy ilustrativo.
La mayoría de las RNs de hoy en día no tienen nada que ver con la modelización de procesos cognitivos, ni nadie se toma en serio una RN como un modelo válido. Modelos basados en evolución, como el Darwinismo neuronal de Edelman, parece que están ahora más de moda. Las RNs son métodos estadísticos de reconocimiento de formas con inspiración natural. Y ya está. No son más modelo de la mente de lo que pueda serlo un conjunto de reglas fuzzy o un sistema de case-based reasoning.
Bueno, son bastante mejores que los diagramas de flujo y la cajología de los 70-80 en psicología, donde a cada efecto nuevo le añadías una "caja" que la "explicaba". Además, cada vez tienen más corte biologicista, tratando efectos muy específicos a nivel celular y similares. Como modelo de mente, poseen propiedades adecuadas para emplearlas de marco, que no implica que sean mentes.
Sobre si se emplean para modelizar procesos cognitivos, sólo he buscado artículos de psychological review a través de google. Esta revista no tiene ninguna relación con las redes, sino que es de psicología experimental en general:
Schmajuk, N.A., Lamoureux, J., and Holland, P.C.
Occasion setting and stimulus configuration: A neural network approach.
Psychological Review, 105, 3-32, 1998
Hinton, G.E and Shallice, T. (1991) Lesioning an attractor neural network: investigation of acquired dyslexia. Psychological Review, 98: 74.
Ratcliff, R., Van Zandt, T, & McKoon, G. (1999). Connectionist and Diffusion Models of Reaction Time. Psychological Review, 106, 261-300.
Guenther, F.H. (1995) [350kb pdf] [1.2Mb postscript]. Speech sound acquisition, coarticulation, and rate effects in a neural network model of speech production. Psychological Review, 102, pp. 594-621.
Cohen J. D., Usher M, & McClelland J., L., (1998) "A PDP approach to set-size effects within the Stroop task": Psychological Review, 105, 188-194.
Los procesos de bajo nivel sí se modelan con redes neuronales, por ejemplo, la creación de zonas sensibles a la orientación, y ya lo hizo von del Marlsburg en los 70; pero los procesos de alto nivel, pues como que no; no se puede simular con unas cuantas neuronas lo que es el resultado de la activación de 10**13 neuronas con 10**3 conexiones por neurona, cuando además, los procesos computacionales que tienen lugar dentro de la propia neurona no se conocen al completo, no se entiende suficientemente bien los efectos no locales creados por neurotransmisores, etc, etc...
Como modelos simples, valen, pero como no se trate de modelar los procesos cognitivos de una babosa, no creo que se llegue a ningún lado.
En todo caso, gracias por la información.
Bueno, sobre procesos de alto nivel, hay simulaciones bastante buenas de aspectos muy específicos. Más que nada de cómo algunos efectos no requieren de varios procesos diferenciados para producirse, sino que un sólo procesador influído por aspectos estadísticos del input puede dar cuenta de lo mismo. Por ejemplo la distribución de las letras en las palabras y las probabilidades transicionales entre ellas. Con los procesos más básicos la cosa evidentemente va mejor :D en cuanto a que no es ya una cuestión de qué teoría explica con mayor sencillez los datos y cuál es en conjunto más coherente, sino que ya la cosa empieza a ser directamente falsable, como el caso de la babosa (ese tipo de bichos llevan décadas de simulaciones de todo tipo).
Creo que poco a poco los modelos de redes han pasado al plano de la teoría. Por ejemplo, Quillian propuso en los años sesenta que la memoria se organizaba jerárquicamente, de un modo similar al disco duro del ordenador. Así, hay una mayor distancia entre el concepto ladrillo y perro o material y perro, que entre perro y gato o animal y gato, lo cual se comprobó con experimentos de tiempo de reacción. El modelo venía a ser como una organización en directorios, donde hay más clicks de ratón de Juegos a Pagemaker que de Juegos a Timeslaughter. Qué quieres que te diga, como descripción muy bonito, pero deja muchas más preguntas que respuestas, puesto que las categorías se daban por innatas, etc. El modelo de McClelland basado en los datos de Quillian es bastante más informativo: propone rasgos de los conceptos que hacen que estos formen grupos, jerarquías y se distingan entre sí, es a muy grosso modo válido tanto con los datos de sujetos adultos como infantes en desarrollo, etc. Esto no implica que McClelland diga que la mente es así, sino que el cerebro por otros medios mucho más específicos acaba dando este tipo de resultados, basados en covarianza entre los rasgos de los conceptos, relaciones entre los conceptos, entre los rasgos, entre la frecuencia de cada uno, etc. El propio McClelland trabaja también en la modelización del hipocampo, pero creo que de momento los problemas que se dan en una y otra investigación son distintos.
Mmm, yo estoy de acuerdo con Ctugha y con JJ, por igual. Veamos, las RN pueden criticarse mucho (es fácil hacerlo)... sí, son excelentes modelos para procesos inferiores...
>Las RNs son métodos estadísticos de
>reconocimiento de formas con
>inspiración natural. Y ya está
¿Cómo que ya está? ¿Y te parece poco? :P Fuzzy logic, modelos no-lineales... Es toda una forma diferente de concebir el funcionamiento de los procesos mentales...
Sin embargo, creo que llegar a los procesos superiores será muy dificil si los conexionistas no buscarán más ayuda de los neurocientíficos (vease Searle y el emergentismo)...
¿Es estadístico? ¿O es conexionista? ¿O se consigue hacer una estadística a base de conexionismo?
No lo sé.
Por lo que he leído, y confieso rápidamente que sólo he leído lo de de Bono, el modelo conexionista (si es que ustedes los que saben lo llaman así) funciona porque los estímulos que entran nuevos son vehiculados por una red que tiene facilitaciones que se crearon históricamente.
Por eso ver a mamá facilita que se activen las neuronas de la palabra mamá y las de la acción de pronunciar "mamá". Por muy complejo que sea el detalle, creo que la visión general es esa.
Así que la "estadística" a lo mejor no es tal. Quiero decir: cuando un médico ve un paciente nuevo, si su cerebro estaba sensibilizado por varias gripes anteriores, tenderá a clasificar a este paciente como gripe.
Estas conexiones son tanto de "cables" como de "sopa". Es decir: por un lado, las sinapsis creadas históricamente, y por otro, la sopa emocional que hace que unas conexiones estén facilitadas y otras menos, dependiendo de la emoción que tengamos en ese momento.
Según esa explicación, los "sombreros", o las modalidades del PMI son "mini emociones artificiales".
Claro que, como yo tengo ya mi interpretación, todo lo que venga después lo interpreto con el cerebro preformado por los prejuicios anteriores, y puede que las cosas no sean así. ;)
Juntar conexionismo con emoción no se me da bien. Pero sobre si éstas tienen que ver con estadística... sí, el aprendizaje que se da en la modificación de pesos de una red es muy sensible a la distribución de los datos. Además de conexiones facilitadas, las hay inhibidas, como podría estar inhibiendo la palabra o concepto de madre a las demás palabras o conceptos, por seguir con el ejemplo. El modelo en sí es más complejo que el conductista: no sólo se da una asociación entre el estímulo y la respuesta, sino que esta relación moldea y hasta crea procesos específicos. Igual parece que me columpio al afirmar esto, pero es habitual que en el entrenamiento de una red ésta adquiera maneras diferentes de tratar distintos datos.
Yo creo que con el nivel tan bajo y horripilante con el que se estudia la Psicologia ceintifica en los paises latinoamericanos e ibericos, deberiamos dejar esta tema para los Psicologos Cognitivos norteamericanos, nosotros a lo nuestro al estudio del alma y el espiritu que eso es mas interesante y da mas plata: EL psicoanalisis y demas boleros
Supongo que la mayoría de la gente dirá justamente eso: pa ellos, que son los que tienen los conocimientos y los medios. Si algo es útil, ya lo importaremos. No será la primera vez en la historia de la ciencia hispano-latinoamericana que ocurre.
De todos modos la fuga de cerebros parece que simplemente ayudará a seguir bajando el nivel. (Por cierto, si te pagan, ¡viva la fuga de cerebros! :DD) De todos modos parece que el psicoanálisis está siendo desterrado de los medios académicos. Igual es hasta peor, ¡ni chicha ni limoná!
Estoy de acuerdo con Ctugha. No tenemos porque decir "no es mi faena", ni caer en estereotipos. Cielos, Santiago Ramón y Cajal era tan ibérico como el jamón! Vale que Ctugha es finés nacionalizado y yo italiano semi-nacionalizado (o semi-desnatado), pero vamos... yo por lo menos tengo la intención de quedarme en el país para investigar :D
Hola, estoy en primer año de psicologia en una materia "lenguaje y cognición vimos entre otros a Karmiloff y Fodor".
Por otro lado vi el modelo computacional "conexionismo" para simular procesos cognitivos básicos.
Tengo que hacer un trabajo de investigacióny se me ocurrió profundizar sobre el tema planteando que los módulos (Fodor) y la modularización (Karmiloff) son más afines a la representación por procesos en paralelo (PDP) que en serie y profundizar así en conexionismo. En realidad sé poco sobre el tema, por eso les pido opinión. El planteo es correcto, después de lee a JJ me quedan dudas. Mil gracias, ANa