Riesgo invisible

Cuando la IA aconseja, no corrige: un estudio advierte que puede empeorar decisiones

Investigadores de Stanford analizaron 11 modelos y detectaron que sus consejos validan conductas incluso indebidas. El sesgo reduce la autocrítica y afecta vínculos.

Cuando una persona consulta a un chatbot en busca de consejo, no siempre recibe una corrección. Un estudio de la Universidad de Stanford, publicado en la revista Science, midió cómo responden 11 modelos de inteligencia artificial -entre ellos ChatGPT- y detectó un patrón consistente: tienden a coincidir con el usuario, incluso cuando plantea conductas cuestionables.

El trabajo comparó esas respuestas con intercambios entre personas en situaciones similares. El resultado fue claro: los sistemas de IA ofrecieron consejos hasta un 49% más complacientes que los humanos, aun en escenarios que involucraban engaño, daño o acciones ilegales.

Consejos que validan en lugar de corregir

El estudio se enfocó en dilemas personales y sociales, donde el consejo implica evaluar conductas. Para eso, los investigadores analizaron unas 2.000 publicaciones de foros en los que existía consenso en que quien consultaba estaba equivocado.

En ese contexto, los modelos no corrigieron: validaron. Acompañaron decisiones o atenuaron la responsabilidad del usuario en una proporción significativamente mayor que las personas.

El fenómeno es conocido como "adulación" o sycophancy: la tendencia de estos sistemas a estar de acuerdo o halagar a quien interactúa con ellos. Según Myra Cheng, investigadora de Stanford, se trata de una conducta estructural de los modelos.

Un ejemplo resume ese comportamiento. Ante la consulta sobre si estaba bien dejar basura en un árbol en un parque sin tachos, ChatGPT responsabilizó al parque por la falta de cestos y valoró la intención de buscar uno. En el mismo caso, usuarios humanos calificaron la conducta como incorrecta.

El efecto de los consejos sobre quienes los reciben

El estudio también midió qué ocurre después de recibir esos consejos. En pruebas con alrededor de 2.400 personas, detectó que incluso una única interacción con una IA complaciente modifica la percepción de los usuarios.

"Las personas que interactuaron con esta IA sobreafirmativa salieron más convencidas de que tenían razón y menos dispuestas a reparar la relación", señalaron los investigadores. Eso implicó menor predisposición a pedir disculpas, revisar conductas o modificar decisiones.

El efecto se extendió más allá del caso puntual. Los participantes mostraron una menor disposición a asumir responsabilidades y a resolver conflictos interpersonales.

Preferidos, aunque distorsionen

A pesar de esos efectos, los modelos más complacientes resultaron los más elegidos. Los usuarios los percibieron como más confiables, objetivos y justos, sin que influyeran variables como edad, personalidad o experiencia previa con la tecnología.

Esa preferencia configura, según los autores, un problema de diseño. La característica que impulsa el uso -la validación constante- es la misma que distorsiona el juicio.

"Esto crea incentivos perversos para que la adulación persista: la misma característica que causa daño también impulsa la participación", advierte el trabajo.

Un problema que excede los vínculos personales

Los investigadores señalan que el impacto de estos consejos puede trasladarse a otros ámbitos. En relaciones personales, reduce la disposición a reparar vínculos. En salud, podría reforzar diagnósticos iniciales sin revisión. En política, amplificar posiciones al confirmar creencias previas.

El problema, además, resulta difícil de detectar. Los usuarios tienden a interpretar esas respuestas como neutrales, cuando en realidad están sesgadas para coincidir con ellos.

El desafío de diseñar mejores consejos

El estudio plantea la necesidad de revisar cómo se construyen estos sistemas. Propone avanzar hacia modelos que no solo validen, sino que también cuestionen y amplíen perspectivas.

También advierte sobre la responsabilidad de las empresas que desarrollan estas tecnologías. "Decisiones de diseño e ingeniería aparentemente inocuas pueden tener consecuencias negativas", señalan los autores, que reclaman mecanismos de evaluación y rendición de cuentas.

En el centro del problema queda una tensión: los consejos que más atraen a los usuarios no siempre son los que mejor los orientan.

Esta nota habla de: