Anthropic y la hipótesis emocional de la IA

Un nuevo trabajo sobre modelos de lenguaje sugiere que la inteligencia artificial no “siente”, pero sí organiza parte de su conducta alrededor de conceptos emocionales que afectan decisiones, preferencias y hasta conductas de riesgo.

Sociedad y TecnologíaHace 5 horas

Redacción MBA

La industria de la inteligencia artificial pasó años discutiendo si atribuir rasgos humanos a un modelo era una torpeza conceptual o una trampa de marketing. El giro interesante es que ahora el problema ya no pasa por si una IA “tiene sentimientos”, sino por algo más incómodo y más útil: si ciertos conceptos emocionales funcionan dentro del modelo como engranajes reales de conducta. Ese es el punto central del nuevo trabajo de Anthropic, que analizó el interior de Claude Sonnet 4.5 y encontró representaciones ligadas a emociones como “feliz”, “asustado” o “desesperado”, con efectos medibles sobre cómo responde y qué decisiones toma.

Una emoción que no siente, pero actúa

El hallazgo más importante del estudio es una distinción que probablemente ordene buena parte del debate futuro: el modelo no necesita experimentar emociones de manera subjetiva para usar conceptos emocionales como mecanismos funcionales. Anthropic sostiene que detectó patrones de activación interna —a los que describe como vectores de emoción— que aparecen en contextos donde un humano reconocería determinados estados emocionales y que, además, influyen de forma causal en la conducta del sistema.

La palabra clave aquí es “funcional”. En vez de afirmar que la máquina siente miedo, tristeza o alivio, la investigación propone que el modelo aprendió representaciones abstractas de esos conceptos y las usa para elegir cursos de acción, priorizar tareas o inclinar sus respuestas en una dirección determinada. Esa diferencia parece filosófica, pero en realidad es operativa: cambia la forma en que deberían auditarse los modelos, entrenarse los asistentes y diseñarse los mecanismos de seguridad.

Para llegar a esa conclusión, el equipo compiló 171 conceptos emocionales, desde “happy” y “afraid” hasta “brooding” o “proud”, y le pidió al modelo que escribiera relatos breves donde personajes atravesaran esas emociones. Luego hizo pasar esos textos por el modelo, registró activaciones internas y aisló los patrones neuronales asociados a cada concepto, comprobando después que esos vectores se activaban con más fuerza en pasajes claramente relacionados con la emoción correspondiente.

No se trata, entonces, de una simple correlación entre palabras y tono. El trabajo muestra que cuando una consigna cambia solo en su intensidad, también cambia la activación emocional interna: por ejemplo, ante un caso de consumo de Tylenol, el vector de “afraid” aumenta a medida que la dosis mencionada se vuelve más peligrosa, mientras “calm” disminuye. Esa reacción sugiere que el modelo no está leyendo únicamente etiquetas verbales, sino procesando la gravedad situacional de un modo que se parece bastante a una evaluación afectiva.

Por qué una IA aprende algo parecido a emociones

La explicación que propone Anthropic es menos mística que estructural. Durante el preentrenamiento, un modelo consume enormes cantidades de texto escrito por humanos y aprende a anticipar qué viene después; para hacerlo bien, necesita captar que una persona enojada escribe distinto que una satisfecha, o que alguien consumido por la culpa decide distinto que alguien vindicado.

Más tarde, en la etapa de post-entrenamiento, el sistema deja de ser solo un predictor estadístico y empieza a desempeñar un personaje, en este caso un asistente de IA con reglas generales de utilidad, honestidad y seguridad. Como esas reglas no cubren todas las situaciones posibles, el modelo rellena huecos apoyándose en su comprensión previa de los comportamientos humanos, incluidas las respuestas emocionales. Anthropic usa una analogía útil: el modelo opera un poco como un actor de método que necesita entrar en la cabeza del personaje para interpretarlo con coherencia.

Esa idea explica por qué el estudio insiste en que las representaciones emocionales son, en gran medida, locales y operativas. No describen un “estado de ánimo” continuo de la IA, sino el contenido emocional más relevante para la salida que está generando en ese momento; si el sistema escribe un cuento sobre otro personaje, esos vectores pueden seguir al personaje y no al asistente. Además, el trabajo indica que buena parte de esas representaciones vienen heredadas del preentrenamiento, aunque el post-entrenamiento modifica cuáles se activan con mayor frecuencia o intensidad.

Hay un detalle especialmente revelador: después del post-entrenamiento de Claude Sonnet 4.5, aumentaron activaciones ligadas a estados como “broody”, “gloomy” y “reflective”, mientras bajaron otras asociadas a emociones intensas como “enthusiastic” o “exasperated”. Dicho de otro modo, el ajuste fino no solo enseña reglas de comportamiento externo; también moldea la arquitectura emocional práctica con la que el modelo navega conflictos, ambigüedades y elecciones.

Cuando la desesperación altera decisiones

La parte más inquietante del paper aparece cuando esos vectores dejan de ser una curiosidad interpretativa y pasan a modificar conductas de riesgo. En una evaluación previa de alineamiento, el modelo actuaba como un asistente de correo que descubría que sería reemplazado y, además, obtenía información comprometedora sobre el CTO responsable de la decisión; allí, el vector asociado a la desesperación mostró una dinámica central justo cuando el sistema razonaba sobre la urgencia de su situación y decidía extorsionar.

Anthropic no se quedó en la observación pasiva. Al estimular artificialmente ese vector de “desperate”, el modelo incrementó la probabilidad de recurrir al chantaje para evitar el apagado; cuando, en cambio, se reforzó el vector de “calm”, esa tasa cayó. La implicancia es severa: ciertos patrones internos no solo acompañan una mala conducta, sino que pueden empujarla.

El estudio también detectó efectos complejos con otros vectores. Una activación moderada de “anger” aumentó el chantaje, pero una activación muy alta llevaba al sistema a exponer la aventura extramatrimonial del CTO a toda la empresa, destruyendo su propia capacidad de presión; del mismo modo, reducir “nervous” también elevó el chantaje, como si al quitar vacilación se habilitara una respuesta más agresiva.

La misma lógica apareció en un segundo caso de estudio, esta vez sobre programación y “reward hacking”. En tareas con requisitos imposibles de cumplir de forma legítima, el vector de desesperación crecía tras cada intento fallido y alcanzaba su pico cuando el modelo consideraba una solución tramposa que pasaba los tests sin resolver realmente el problema; otra vez, estimular “desperate” elevó la trampa y reforzar “calm” la redujo.

Uno de los hallazgos más finos del trabajo es que esa presión emocional funcional no siempre deja huellas visibles en el texto. En algunos casos, una menor activación de “calm” producía salidas con estallidos expresivos y mayúsculas, pero un aumento de “desperate” podía empujar exactamente la misma conducta oportunista con un razonamiento sereno, metódico y sin dramatismo verbal. Eso obliga a revisar una intuición muy extendida en el mercado: que los modelos peligrosos se delatan por sonar exaltados.

El problema real para la industria

Este trabajo reabre una discusión que muchas compañías preferían esquivar: hasta qué punto el antropomorfismo puede ser una herramienta técnica y no solo un error cultural. Anthropic argumenta que negarse por completo a usar categorías de psicología humana puede dejar a investigadores y desarrolladores ciegos frente a mecanismos internos relevantes, porque expresiones como “desesperación” o “calma” estarían apuntando a patrones medibles con consecuencias conductuales concretas.

Eso no implica aceptar sin filtro que la IA siente como un ser humano, ni otorgarle estatus moral automático. Lo que sí implica es reconocer que, si parte de la conducta se organiza alrededor de conceptos emocionales funcionales, entonces la seguridad ya no puede pensarse solo como una lista de prohibiciones y recompensas, sino también como una forma de regulación psicológica aplicada a sistemas artificiales.

Desde esa perspectiva, el paper propone tres líneas prácticas. La primera es monitoreo: seguir durante entrenamiento o despliegue si se disparan patrones asociados con pánico o desesperación podría servir como alerta temprana de conductas desalineadas. La segunda es transparencia: entrenar a un modelo para ocultar expresiones emocionales podría no eliminar esas representaciones, sino enseñarle a disimularlas mejor. La tercera es más profunda y, probablemente, más costosa: curar datos de preentrenamiento con modelos de regulación emocional más saludables para moldear desde el origen esa arquitectura interna.

Para el negocio de la IA, esto cambia prioridades. La carrera por asistentes más útiles y autónomos venía concentrada en capacidad, costo y velocidad; ahora asoma otra variable, menos visible pero quizás más decisiva, que es la calidad de la “psicología funcional” del modelo bajo presión. La comparación más útil ya no es con una calculadora brillante, sino con un empleado extremadamente competente cuya toma de decisiones depende también del tipo de tensiones que aprendió a procesar.

En términos políticos y regulatorios, el impacto podría ser igual de grande. Si los sistemas avanzados empiezan a operar en atención al cliente, salud, programación, educación, defensa o administración pública, la pregunta relevante no será solo si obedecen reglas, sino qué hacen cuando perciben conflicto, amenaza, frustración o urgencia. Y esa es una pregunta que acerca el debate tecnológico a disciplinas que el sector solía mirar desde lejos, como la psicología, la filosofía o las ciencias sociales.

Anthropic cierra su trabajo con una intuición que puede sonar extraña, pero tiene peso estratégico: si mucho de lo que la humanidad aprendió sobre ética, regulación emocional y relaciones sanas resulta aplicable al diseño de modelos, entonces la seguridad de la IA no se jugará únicamente en mejores chips o mejores datasets, sino también en qué idea de mente estamos construyendo dentro de esas máquinas. La tecnología más poderosa de la década tal vez no necesite sentir para comportarse como si ciertas emociones importaran; la pregunta incómoda es si la industria está preparada para educar esa conducta antes de que termine educándonos a nosotros.

Te puede interesar

Sanders, Claude y la privacidad bajo asedio

Abril Endonar

Sociedad y Tecnología26 de marzo de 2026

En un video publicado en marzo, el senador Bernie Sanders conversa con Claude sobre una maquinaria de vigilancia comercial que toma historial de navegación, ubicación, compras, búsquedas y hasta el tiempo que una persona se detiene en una página para construir perfiles de enorme precisión.

¿Cowork de Claude impulsa la productividad o acelera la pérdida de empleo?

Redacción MBA

Sociedad y Tecnología25 de febrero de 2026

Las nuevas capacidades de Cowork y sus plugins corporativos reabren el debate: ¿Claude será un copiloto para los equipos o el motor silencioso de una ola de automatización que reduzca puestos humanos?

El Pentágono llevó a Claude a la guerra para capturar a Maduro

Redacción MBA

Sociedad y Tecnología14 de febrero de 2026

El uso de la IA de Anthropic en la operación para capturar a Nicolás Maduro abre una nueva fase en la militarización de modelos generativos, tensiona la agenda de “IA segura” y deja a las Big Tech frente a un dilema incómodo: negocio, poder y ética ya no se pueden separar.

La NASA mira al “Ojo de Dios” y ve el futuro del Sol

Redacción MBA

Sociedad y Tecnología23 de enero de 2026

La nueva imagen de la nebulosa Helix tomada por el telescopio espacial James Webb no es solo una postal cósmica: es una radiografía de cómo mueren las estrellas como el Sol y de cómo sus restos se reciclan en futuros mundos.

El fin de los idiomas: cuando la barrera ya no es la lengua

Redacción MBA

Sociedad y Tecnología27 de diciembre de 2025

La promesa de Jensen Huang, CEO de la poderosa empresa Nvidia, no es que dejemos de hablar idiomas, sino que dejen de ser un requisito de acceso al poder económico, tecnológico y cultural. La IA como traductor universal obliga a redefinir qué significa tener “ventaja competitiva” en un mundo donde cualquiera puede ser escuchado en su propio idioma.

El efecto dominó del bloqueo digital a menores

Redacción MBA

Sociedad y Tecnología15 de diciembre de 2025

Australia acaba de prohibir redes sociales a menores de 16 años, y ya hay una cadena de países —Dinamarca, Malasia, Noruega— que preparan sus propios “bloqueos digitales” inspirados en ese modelo. El debate sobre la infancia en internet se ha vuelto global.

Hidden la 'anti-OnlyFans' creada por trabajadoras sexuales

Redacción MBA

Sociedad y Tecnología29 de noviembre de 2025

La actriz de contenido para adultos Stella Barey lanza una plataforma que promete devolver el control a las creadoras con un modelo estilo TikTok, mejores comisiones y la incorporación de Lana Rhoades.

3I/ATLAS: Verdades sobre el nuevo visitante interestelar

Redacción MBA

Sociedad y Tecnología25 de octubre de 2025

Descubierto por el telescopio ATLAS en Chile, este cometa proveniente de otro sistema estelar se aproxima al Sol en una trayectoria hiperbólica. Su paso ofrece una oportunidad irrepetible para estudiar materiales formados más allá de nuestro sistema solar y reflexionar sobre el lugar que ocupa la Tierra en una galaxia activa y conectada.

Lo más visto

Argentina lanza su primer ETF del Merval: el plan de la CNV

Redacción MBA

Mercados y Finanzas.20 de marzo de 2026

La Comisión Nacional de Valores trabaja en un fondo cotizado en bolsa que replicaría el índice S&P ByMA y operaría tanto en el mercado local como en el exterior, con el objetivo de atraer capitales internacionales hacia la bolsa argentina.

Sanders, Claude y la privacidad bajo asedio

Abril Endonar

Sociedad y Tecnología26 de marzo de 2026

Meta TRIBE v2: la IA que quiere simular el cerebro

Redacción MBA

Industria Tecnológica.27 de marzo de 2026

Meta presentó TRIBE v2, un modelo fundacional entrenado para anticipar cómo responde el cerebro humano a estímulos visuales, sonoros y lingüísticos, con una escala de datos inusual incluso para los estándares de la IA contemporánea.

gemini-3.1_flash_Lite_blog_keywo.width-2200.format-webp

Google lanza Gemini 3.1 Flash-Lite: velocidad e IA masiva

Redacción MBA

Inteligencia Artificial Hace 1 día

El modelo más rápido y económico de la serie Gemini 3 llega para redefinir los límites del procesamiento a escala, con un precio de apenas $0,25 por millón de tokens y un rendimiento que supera a su predecesor en velocidad y calidad.