Maestros pueden dar un respiro de alivio (o de frustración): la IA todavía es mala para calificar ensayos

Javier Carbajal – 24 de mayo de 2026

Después de usar IA un año, esto ya NO lo hago como maestro

Una reciente investigación liderada por la psicóloga Deborah Talmi, de la Universidad de Cambridge, evalúa si la inteligencia artificial (IA) puede asumir la tarea de calificar ensayos universitarios. El proyecto, conocido como OpRaise, publicó el informe “AI in University Assessment: Evaluating the Opportunities and Risks of Automated Marking”, en el que se analizan tres de los modelos de lenguaje de gran escala más avanzados: Claude Opus 4.6, GPT‑5.4 y Gemini 3 Flash.

Resultados del estudio

El estudio reunió a 125 estudiantes de Psicología de tres universidades británicas (Cambridge, Nottingham y Manchester Metropolitan) y analizó 761 ensayos escritos entre 2022 y 2025. Los investigadores compararon las notas asignadas por los sistemas de IA con las calificaciones oficiales otorgadas por docentes humanos, y complementaron el análisis con grupos focales de estudiantes y profesores para explorar las implicaciones éticas y pedagógicas.

En términos de coincidencia de calificaciones finales (por ejemplo, sobresaliente, aprobado), la concordancia entre la IA y los evaluadores humanos osciló entre el 35 % y el 65 % según la universidad, el tipo de examen y el modelo utilizado. En algunos casos la alineación alcanzó niveles similares a los que se observan entre dos profesores distintos, pero la precisión no fue constante.

Los algoritmos mostraron sesgos sistemáticos que favorecían la forma del texto sobre su contenido. Ensayos más extensos, con vocabulario amplio, oraciones complejas y abundantes conectores lógicos recibían notas más altas, mientras que ideas originales y bien fundamentadas podían ser subvaloradas. Este fenómeno, resumido como “estilo sobre sustancia”, también se acompañó de una tendencia a asignar calificaciones medianas, lo que provocó que trabajos excelentes recibieran puntuaciones inferiores a las merecidas y los más débiles fueran evaluados con una generosa indulgencia.

[shark_highlights items="Los investigadores compararon tres LLMs de última generación (Claude Opus 4.6, GPT‑5.4 y Gemini 3 Flash) con evaluaciones humanas en 761 ensayos de 125 estudiantes de psicología|La coincidencia entre las calificaciones de la IA y las de los docentes osciló entre 35 % y 65 %, alcanzando a veces niveles similares a los de dos profesores diferentes,"]

Curiosamente, aunque la concordancia entre IA y humanos era limitada, los tres modelos de IA mostraron una alta consistencia entre sí. Cuando se les solicitó recalificar los mismos ensayos varios días después, los resultados fueron notablemente semejantes, lo que sugiere que comparten patrones de razonamiento y error similares, a pesar de provenir de compañías distintas.

Los estudiantes expresaron una clara preferencia por la retroalimentación humana. Consideran que la interacción con un docente constituye un “contrato social” que incluye la discusión de la nota y la sensación de que alguien realmente ha leído su trabajo. Muchos manifestaron que una evaluación completamente automatizada les resultaría engañosa y temen que la dependencia de la IA reduzca habilidades críticas como la lectura analítica y la argumentación.

En cuanto a los docentes, algunos ven en la IA una herramienta potencial para aliviar la carga laboral, automatizando tareas repetitivas y permitiendo dedicar más tiempo a la interacción directa con los estudiantes. Sin embargo, la falta de fiabilidad actual impide que la IA reemplace el juicio humano en la evaluación académica.

Una posible aplicación práctica de la IA es la generación de comentarios más extensos. Mientras los profesores suelen escribir entre 100 y 200 palabras por retroalimentación, los modelos de IA producen respuestas de tres a ocho veces esa longitud. No obstante, los participantes del estudio señalaron que mayor extensión no equivale necesariamente a mayor utilidad; algunos textos largos resultaban abrumadores o poco claros.

El informe también incluyó datos de México, donde el 79 % de los docentes y el 82 % de los estudiantes consideran útil la IA generativa para procesos cognitivos complejos como razonamiento, reflexión, imaginación y creatividad.

Según el doctor Seve Watson, miembro del consejo asesor del proyecto, “la evaluación no es solo un mecanismo de asignación de notas; también forma parte de cómo se construye el significado educativo, de cómo los estudiantes se sienten reconocidos y de cómo las instituciones mantienen la confianza y reproducen sus valores”.

[shark_author]