La IA nos está volviendo más ignorantes (Brain Rot): validación empírica
- Alfredo Calcedo
- hace 3 días
- 11 Min. de lectura

Acabo de encontrar un interesante artículo en The New York Times en el que trata de cómo la Inteligencia Artificial (IA) nos está ayudando en muchas tareas cognitivas, pero a expensas de un deterioro de la capacidad de resolver problemas y desarrollar un pensamiento crítico. Esta idea nos lleva aun concepto que se está popularizando denominado "Brain Rot" que se podría traducir como el pudrimiento del cerebro, o podredumbre mental. El término se utiliza para describir un estado mental deteriorado derivado de la interacción con contenido de baja calidad en internet.
La rápida adopción de Modelos de Lenguaje Grandes (LLMs) como ChatGPT ha transformado fundamentalmente nuestra forma de trabajar, jugar y aprender. Estos sistemas de IA ofrecen capacidades sin precedentes para personalizar el aprendizaje y democratizar el acceso a recursos educativos. Sin embargo, esta conveniencia tecnológica plantea una "compleja dualidad": si bien los LLMs pueden reducir la carga cognitiva inmediata (facilitando la tarea a corto plazo), la investigación emergente sugiere que pueden "disminuir las capacidades de pensamiento crítico" y fomentar la dependencia excesiva, contribuyendo a la atrofia de las habilidades cognitivas. Este fenómeno es conocido como descarga cognitiva (cognitive offloading).
Esta cuestión ha sido ampliamente investigada, y destaco una investigación reciente de un grupo del MIT. El estudio "Your Brain on ChatGPT" (DOI) del MIT, liderado por Nataliya Kosmyna, se propuso cuantificar este costo cognitivo en el contexto educativo específico de la escritura de ensayos. Esta tarea fue elegida por ser una "actividad cognitivamente compleja" que exige el manejo simultáneo de procesos a nivel macro (estructuración de argumentos, organización de ideas) y micro (elección de palabras, sintaxis). Los resultados del estudio han sido sorprendentes. Los investigadores seleccionaron una muestra de estudiantes universitarios y les pidieron que escribieran un ensayo. Los dividieron en tres grupos, el primero podía usar Chat GPT 4o, el segundo solo una búsqueda en Google, y el tercero no podían tener acceso a Internet, y solo podían usar su memoria y sus conocimientos. Cuando entregaron el estudio le preguntaron por el contenido del mismo, y los que habían usado la IA casi fueron incapaces de explicar el contenido. Mientras que los que no había usado Internet ni IA obtuvieron mejores resultados. El estudio se completo con numerosos parámetros neurofisiológicos que corroboran la idea de que el esfuerzo cognitivo en el grupo de los no asistido por IA o Internet fue mayor.
Por su interés expongo a continuación un resumen detallado de este estudio que está accesible en arXiv.
El estudio del MIT
El estudio del MIT reclutó a 54 participantes, principalmente estudiantes de pregrado y posgrado de universidades del área de Boston. El protocolo se llevó a cabo durante cuatro meses, con tres sesiones obligatorias y una cuarta sesión opcional de intercambio de roles.
Grupos de asignación inicial (Sesiones 1, 2, 3)
Los participantes se asignaron aleatoriamente a tres grupos equilibrados por edad y género, todos con 20 minutos para escribir un ensayo basado en prompts de pruebas SAT:
Grupo LLM (Grupo 1): Solo podían usar OpenAI's GPT-4o. Se les prohibió el uso de cualquier otro navegador o aplicación.
Grupo Motor de Búsqueda (Search Engine Group, Grupo 2): Podían usar cualquier sitio web (Google fue el elegido), pero se les prohibió explícitamente ChatGPT o cualquier otro LLM. Además, se añadió "-ai" a sus consultas para asegurar que no se usaran respuestas mejoradas por IA.
Grupo Solo Cerebro (Brain-only Group, Grupo 3): No se les permitió usar herramientas en línea ni fuera de línea, dependiendo únicamente de su conocimiento y memoria.
Métodos de medición
Para obtener una comprensión profunda de los procesos subyacentes, se emplearon múltiples métricas:
Actividad neuronal (EEG). Se utilizó electroencefalografía (EEG) con un auricular Enobio 32 para registrar la actividad cerebral y evaluar el compromiso cognitivo y la carga. Específicamente, se empleó el análisis de Función de Transferencia Dirigida Dinámica (dDTF) para mapear los patrones de conectividad efectiva entre diferentes regiones cerebrales.
Análisis lingüístico (NLP). Se utilizó Procesamiento de Lenguaje Natural (NLP) para analizar los ensayos en términos de Reconocimiento de Entidades Nombradas (NERs), n-gramas, ontología de temas y similitudes.
Evaluación y puntuación. Los ensayos fueron calificados por profesores humanos y por un juez de IA (un agente de IA especialmente construido).
Correlatos conductuales. Se realizaron entrevistas post-evaluación después de cada sesión para evaluar la estrategia, la satisfacción, y crucialmente, la capacidad de citar y la percepción de propiedad del ensayo.
La sesión 4: inversión de roles
La Sesión 4 fue clave para estudiar la adaptación cognitiva. Los participantes fueron reasignados al grupo opuesto a su asignación original, y se les pidió que escribieran sobre un tema que ya habían abordado en una sesión anterior.
LLM-a-Cerebro (LLM-to-Brain). Participantes que usaron LLM en S1-S3, ahora escribieron sin herramientas.
Cerebro-a-LLM (Brain-to-LLM). Participantes que escribieron sin herramientas en S1-S3, ahora usaron LLM.
La deuda cognitiva en la actividad neural
El análisis dDTF del EEG reveló "evidencia robusta de que los grupos LLM, Motor de Búsqueda y Solo Cerebro tenían patrones de conectividad neural significativamente diferentes, reflejando estrategias cognitivas divergentes".
Escalado sistemático de la conectividad
La conectividad cerebral demostró escalarse inversamente proporcional a la cantidad de apoyo externo:
Grupo Solo Cerebro. Exhibió las redes más fuertes y de mayor alcance en todas las bandas de frecuencia (alfa, beta, theta y delta). Esto sugiere una carga cognitiva alta y un mayor esfuerzo interno para la generación de ideas, el procesamiento semántico y el control ejecutivo. El aumento de la conectividad theta y alfa se asocia con el aumento de la carga de la memoria de trabajo y la ideación creativa.
Grupo Motor de Búsqueda. Mostró un compromiso intermedio, con una conectividad total entre un 34% y un 48% menor que el grupo Solo Cerebro. Este grupo mostró un aumento significativo en la actividad en las cortezas occipitales y visuales, reflejando una alta integración visual-ejecutiva debido a la necesidad de escanear, seleccionar y evaluar la información en pantalla.
Grupo LLM. Presentó el acoplamiento general más débil, con una reducción de hasta el 55% en la magnitud total de dDTF en las redes semánticas y de monitoreo de baja frecuencia en comparación con el grupo Solo Cerebro. Esto se interpreta como descarga cognitiva (cognitive offloading), donde la tarea se desplaza hacia la integración procesal y la coordinación motora, reduciendo la necesidad de generación semántica interna.
Diferencias por banda de frecuencia (EEG)
El uso de LLMs afectó de manera distinta las bandas de frecuencia asociadas a funciones específicas:
Banda | Función Cognitiva Asociada | Hallazgo en Grupo LLM (vs. Solo Cerebro) | Implicación |
Theta (4-8 Hz) | Memoria de trabajo, control ejecutivo, esfuerzo mental. | Conectividad significativamente menor. | Carga de memoria reducida; el LLM asume parte del control ejecutivo y la planificación. |
Alpha (8-12 Hz) | Atención interna, procesamiento semántico, ideación creativa. | Conectividad más débil. | Menor esfuerzo creativo; se reduce la búsqueda semántica interna. |
Delta (0.1-4 Hz) | Integración cortical a gran escala, atención, procesos motivacionales. | Conectividad marcadamente reducida. | Menos integración de pensamiento profundo; se prioriza un modo cognitivo más externo o estrecho. |
Beta (12-30 Hz) | Procesamiento activo, atención enfocada, integración sensorimotora. | Conectividad inferior en la mayoría de las conexiones clave. | Menor compromiso cognitivo y motor sostenido en la composición sin ayuda. |
En resumen, los resultados del EEG indican que escribir sin asistencia estimuló interacciones más amplias de la red cerebral, involucrando una mayor carga cognitiva, un control ejecutivo más fuerte y un procesamiento creativo más profundo. La asistencia de la IA, por el contrario, redujo la conectividad neural general.
Correlatos conductuales y lingüísticos de la descarga cognitiva
Los hallazgos conductuales y lingüísticos se correlacionan directamente con la atenuación de la actividad neural observada en el grupo LLM, especialmente en torno a la memoria y la autoría.
Deterioro de la memoria y la capacidad de citar
El impacto más "sorprendente" y la "divergencia conductual más consistente y significativa" fue la incapacidad de los usuarios de LLM para citar su propio ensayo.
Grupo LLM (Sesión 1). El 83.3% de los participantes falló en proporcionar una cita correcta, y ninguno de los participantes pudo producir una cita correcta. La Dra. Kosmyna se sorprendió ante el olvido después de solo un minuto, preguntando: "¿Si no recuerdas lo que escribiste, siquiera te importa?".
Grupos de Búsqueda y Solo Cerebro. Mostraron una precisión de citación comparable y "significativamente superior". Para la Sesión 2, ambos grupos alcanzaron una capacidad de citación casi perfecta (18/18 en el grupo Solo Cerebro).
Esta dificultad de citar se atribuye al "deterioro de la memoria" y a una posible codificación de memoria superficial. La reducción de la conectividad de baja frecuencia (theta y alfa) en el grupo LLM es el correlato neural de esta "omisión de los procesos de codificación profunda de la memoria semántica".
4.2. Percepción de propiedad y agencia cognitiva
La delegación de la generación de contenido a la IA también provocó una "disociación psicológica" con el trabajo producido, lo que se conoce como una disminución de la agencia cognitiva.
Grupo Solo Cerebro. Reclamó la propiedad total casi por unanimidad (16/18 en la Sesión 1).
Grupo Motor de Búsqueda. Reportó una propiedad parcial más baja (6/18 propiedad total en S1, con muchos reportando 70-90% de propiedad).
Grupo LLM. Exhibió un sentido de autoría "fragmentado y conflictivo", con respuestas que iban desde la propiedad total (9/18 en S1) hasta la negación explícita de propiedad (3/18 en S1) o propiedad parcial (50% o 70%). Los participantes del LLM "sintieron culpa" al usar ChatGPT para las revisiones.
Homogeneidad lingüística y sesgo
El análisis de Procesamiento de Lenguaje Natural (NLP) reveló que los ensayos del Grupo LLM eran estadísticamente homogéneos dentro de cada tema, mostrando significativamente menos desviación que los otros grupos.
NERs (Entidades Nombradas). El grupo LLM usó la mayor cantidad de NERs (nombres, lugares, fechas, definiciones), con una frecuencia significativamente mayor (60% más que el grupo Solo Cerebro y más del doble que el grupo de Búsqueda).
N-gramas y Ontología. El grupo LLM mostró un sesgo hacia formas de dirección en tercera persona y se enfocó en temas de éxito genérico, como "choos career" (elegir carrera). El análisis de ontología mostró que los grupos LLM y de Búsqueda se superpusieron significativamente, centrándose en aspectos como la "justicia" y la "innovación". En cambio, el grupo Solo Cerebro no tuvo intersección significativa, enfocándose en conceptos como "libertad" (liberty) y n-gramas más introspectivos como "true happi" (verdadera felicidad) y "benefit other" (beneficiar a otros).
Estos patrones sugieren que los participantes del LLM estaban reutilizando el output de las herramientas en lugar de incorporar ideas originales, lo que resulta en un contenido convencional y sesgado. Este fenómeno es visto como la propagación de los sesgos utilizados en los datos de entrenamiento del LLM.
El dilema del intercambio: efectos de la sesión 4
Los resultados de la Sesión 4, donde los grupos cambiaron de herramienta, proporcionan la evidencia más contundente sobre los efectos a largo plazo de la dependencia de la IA.
El cerebro se adapta a la conveniencia (LLM-to-Brain)
Los participantes que previamente utilizaron LLM (LLM-a-Cerebro) al escribir sin asistencia en la Sesión 4, mostraron un perfil de conectividad neural más débil y una falta de compromiso de las redes alfa y beta en comparación con las sesiones de práctica del grupo Solo Cerebro.
Deterioro sostenido. Aunque la conectividad en la Sesión 4 no volvió al nivel de un novato (Sesión 1), se mantuvo "significativamente más baja" que los picos observados en las Sesiones 2 y 3 del grupo Solo Cerebro. Esto sugiere que el uso previo de LLM pudo haber atenuado la intensidad y el alcance de la comunicación neural necesaria para la planificación y generación de contenido independiente.
Reutilización de Vocabulario Sesgado. El análisis de n-gramas confirmó que el grupo LLM-a-Cerebro reutilizó vocabulario y estructuras previamente sesgadas por el LLM, como el n-grama "before speaking" (antes de hablar), lo que sugiere que la dependencia temprana "pudo haber perjudicado la retención semántica a largo plazo".
Fracaso en Citar. En la Sesión 4, el 78% del grupo LLM-a-Cerebro no pudo citar nada de su ensayo, y solo el 11% proporcionó una cita correcta. Esto subraya que la dependencia habitual de la IA compromete la competencia conductual y la retención semántica a largo plazo.
Este patrón se alinea con la preocupación de la "deuda cognitiva", donde la confianza repetida en sistemas externos reemplaza los procesos cognitivos laboriosos requeridos para el pensamiento independiente, lo que resulta en la atrofia de las habilidades.
El beneficio de empezar de cero (Brain-to-LLM)
En contraste, los participantes que originalmente trabajaron sin herramientas (Cerebro-a-LLM) exhibieron un patrón neural totalmente diferente cuando se les permitió usar el LLM por primera vez en la Sesión 4:
Pico de Conectividad Neural. Estos participantes mostraron un pico de conectividad en toda la red (bandas alfa, beta, theta y delta), superando los niveles de las sesiones asistidas por LLM. Esto sugiere que reescribir con IA después de escribir sin ella requirió interacciones cerebrales "más extensas", probablemente para integrar las sugerencias de la IA con el conocimiento existente, así como la reactivación de la memoria y el control top-down.
Uso Estratégico. El grupo Cerebro-a-LLM utilizó el LLM de manera más estratégica. En las entrevistas, expresaron que estaban buscando "más recursos para escribir sobre ello" y "mejorarlo con más evidencia usando ChatGPT". Este grupo realizó prompts más afinados, similares a la forma en que el grupo de Motor de Búsqueda componía sus consultas.
Estos resultados sugieren que el "momento estratégico" de la introducción de herramientas de IA puede ser crucial. La secuencia neurocognitivamente óptima puede ser la de retrasar la integración de la IA hasta que los estudiantes hayan realizado un esfuerzo cognitivo suficiente y autoimpulsado.
La evaluación: jueces humanos vs. perfección algorítmica
El estudio también comparó cómo eran evaluados los ensayos por los profesores humanos y por un juez de IA.
La discrepancia en la puntuación
El juez de IA (un modelo LLM localmente afinado) tendió a calificar consistentemente los ensayos con puntuaciones altas (alrededor de 4 en una escala de 5) en métricas de calidad y singularidad. El juez de IA también evaluó casi la mitad de los ensayos como escritos con la ayuda de LLMs, a diferencia de los profesores humanos.
Los profesores humanos, por otro lado, fueron más escépticos:
Unicidad y Contenido. Calificaron la singularidad y el contenido de los ensayos generados por LLM de manera más baja, a menudo reconociendo un estilo de escritura "distintivo y convencional".
El Ensayo "Sin Alma". Los profesores notaron que algunos ensayos "sobresalían por un uso del lenguaje y la estructura casi perfectos, mientras que simultáneamente no ofrecían ideas personales o declaraciones claras". Percibieron estos ensayos como "sin alma" y carentes de matices personales, a pesar de su estructura perfecta.
Estructura. Mientras que el juez de IA calificó la estructura y organización en un amplio espectro, los profesores humanos evaluaron consistentemente estas métricas alrededor de una puntuación de 3.5.
Esta discrepancia destaca un desafío clave: aunque la IA puede optimizar la estructura y la gramática (lenguaje "perfecto"), no puede replicar la individualidad y la profundidad crítica que los evaluadores humanos valoran.
Conclusiones y el riesgo del "Brain Rot"
Los hallazgos del estudio del MIT proporcionan evidencia neurofisiológica de la preocupación descrita como "brain rot". El uso de LLMs "redujo innegablemente la fricción" en la tarea, pero "esta conveniencia tuvo un costo cognitivo", disminuyendo la inclinación de los usuarios a evaluar críticamente el resultado de la IA.
7.1. Implicaciones para el aprendizaje
El estudio concluye que el uso de LLM tuvo un impacto medible en los participantes, y aunque los beneficios fueron inicialmente aparentes, el grupo LLM tuvo un "peor desempeño que sus contrapartes del grupo Solo Cerebro en todos los niveles: neural, lingüístico, de puntuación".
Priorización del esfuerzo interno. El grupo Solo Cerebro, a pesar de la mayor carga cognitiva, demostró "resultados de aprendizaje más profundos" y una identidad más fuerte con su trabajo.
Riesgo de atrofia de habilidades. La dependencia excesiva conduce a un déficit cognitivo o "atrofia de habilidades". Si un participante se salta el desarrollo de sus propias estrategias de organización porque una IA se las proporcionó, esos circuitos cerebrales "podrían no fortalecerse tanto".
Cámara de eco algorítmica. La conveniencia de los LLMs crea una "evolución preocupante del efecto 'cámara de eco' donde el contenido es curado algorítmicamente". La IA tiende a optimizar el output hacia las respuestas más probables (sesgadas por los datos de entrenamiento), lo que desincentiva el "pensamiento lateral" y el juicio independiente.
Recomendaciones y el camino a seguir
El artículo periodístico del NYT y la Dra. Kosmyna convergen en una solución práctica para mitigar los efectos negativos de la IA:
Priorizar el Proceso Activo: La Dra. Shiri Melumad sugiere que el problema con las herramientas de IA es que transforman un proceso activo (analizar enlaces, buscar fuentes creíbles) en uno pasivo, automatizando el trabajo mental.
Empezar con el Cerebro: El estudio del MIT sugiere que las personas que desean usar chatbots para escribir y aprender deben considerar comenzar el proceso por su cuenta antes de recurrir a las herramientas de IA para revisiones o asistencia más tarde. Esto es similar a cómo los estudiantes de matemáticas usan la calculadora solo después de haber aprendido las fórmulas con lápiz y papel. La neurofisiología respalda esta secuencia: la introducción de la IA después del esfuerzo propio (Brain-to-LLM) resultó en una mayor integración y activación neural.
Uso Consciente: En lugar de pedirle a un chatbot que realice una investigación amplia, se debe utilizar la IA de manera "más consciente" para responder preguntas pequeñas o específicas.
Finalmente, el estudio advierte que, si bien la investigación se centró en la escritura de ensayos en un entorno educativo, las implicaciones son críticas para cualquier campo donde la retención de información sea esencial. Los autores concluyen que se necesitan estudios longitudinales para comprender el impacto a largo plazo de los LLMs en el cerebro humano antes de que se reconozcan como algo "neto positivo para los humanos".



