Por qué la IA simplemente no puede hacer el trabajo de un fact-checker

En un contexto donde la generación automática de texto se ha convertido en una herramienta cotidiana, la pregunta que muchos periodistas y verificadores de datos se hacen es si la inteligencia artificial (IA) puede sustituir el trabajo de un fact‑checker. La respuesta, según la experiencia de la verificación de datos en WIRED, sigue siendo negativa.

Índice

Los límites actuales de la IA en la verificación de hechos

Los límites actuales de la IA en la verificación de hechos

El proceso de fact‑checking tradicional combina una revisión línea por línea, la consulta de fuentes primarias, entrevistas directas y una evaluación ética y legal exhaustiva. Este método, que se ha ido perfeccionando durante años, todavía no tiene un equivalente fiable en los modelos de lenguaje actuales.

En la práctica, la IA se utiliza mayormente para “resúmenes de IA” o “overviews” de búsquedas en Google, que a menudo sirven como punto de partida para los verificadores. Sin embargo, según la autora, esos resúmenes resultan inutilizables aproximadamente un tercio de las veces por contener información errónea o imprecisa.

Estudios recientes confirman esta percepción. Un informe del Tow Center for Digital Journalism publicado en marzo de 2025 encontró que más del 60 % de las respuestas de los motores de búsqueda con IA eran inexactas. Otro estudio de la BBC situó la tasa de error de los chatbots en torno al 45 %.

En conjunto, estos datos indican que la IA se equivoca “aproximadamente la mitad de las veces”, lo que la hace poco confiable para la labor de verificación que requiere precisión casi total.

Evaluaciones de los principales modelos

Por qué la IA simplemente no puede hacer el trabajo de un fact-checker

Claude (Anthropic): obtuvo un 73 % de precisión en el benchmark RealFactBench, una prueba diseñada específicamente para la verificación de hechos. Sin embargo, esta cifra sigue por debajo del umbral necesario para sustituir al verificador humano.
Gemini 2.5 Pro (Google): en la versión actualizada del benchmark SimpleQA, alcanzó una precisión del 55.6 %.
ChatGPT (OpenAI): mostró un desempeño inconsistente; aunque afirmó altas tasas de precisión en pruebas médicas, sus referencias no siempre eran verificables y, en pruebas prácticas de fact‑checking, no logró corroborar datos reales.
Grok (xAI): aunque se autoproclama “consciente” de la verificación de hechos, su enfoque se centra excesivamente en la recopilación de datos y en la detección de sesgos, sin demostrar capacidad para validar afirmaciones concretas.

En pruebas internas, los cuatro modelos recibieron la misma tarea de verificación de un artículo simulado. Ninguno completó la verificación de manera autónoma: todos ofrecieron planes de acción, pero se detuvieron antes de ejecutar los pasos necesarios para confirmar la información.

[shark_highlights items="La IA aún no puede sustituir al fact‑checker porque el proceso tradicional requiere revisión línea por línea, consulta de fuentes primarias, entrevistas y evaluación ética y legal que los modelos actuales no replican|Los “resúmenes de IA” o “overviews” que se usan como punto de partida son inutilizables en aproximadamente un tercio de los casos por contener información errónea o imprecisa|Estudios recientes revelan que más del"]

El hecho de que los modelos puedan generar planes razonables pero no los lleven a cabo evidencia una brecha fundamental entre la capacidad de razonamiento superficial y la ejecución práctica requerida en el periodismo de investigación.

Lo que la IA no puede reemplazar

La interacción humana directa, como entrevistas telefónicas o conversaciones cara a cara, que permite obtener matices y contextos que una máquina no puede captar.
La detección de disputas entre fuentes y la valoración de la objetividad de cada una, habilidades que dependen de la experiencia y el juicio crítico.
El acceso a fuentes físicas o a datos que no están digitalizados, como documentos archivados, señales en lugares remotos o registros históricos que aún no han sido digitalizados.
La capacidad de reconocer sutilezas del lenguaje, como frases aparentemente neutrales que pueden contener hostilidad pasiva o intención engañosa.

Según Angie Holan, directora de la Red Internacional de Verificación de Datos de Poynter, la IA puede ser útil cuando lleva al verificador a fuentes fiables que él mismo puede consultar, pero no puede reemplazar el proceso de corroboración humana.

La autora también señala que, aunque la IA sigue evolucionando, la mayoría de los investigadores en inteligencia artificial creen que el problema de la “veracidad” de los modelos no se resolverá pronto. Un informe de la Asociación para el Avance de la Inteligencia Artificial de 2025 indica que el 60 % de los expertos duda de que la IA alcance una fiabilidad suficiente en el corto plazo.

En conclusión, mientras la IA continúa mejorando su capacidad para generar texto coherente y organizar información, el trabajo del verificador de datos sigue siendo una tarea esencialmente humana, basada en el escepticismo, la investigación profunda y el contacto directo con las fuentes.

[shark_author]