La IA china que piensa en imágenes, no en palabras, desafía a EE UU
SenseTime, la compañía china especializada en inteligencia artificial y conocida por sus soluciones de reconocimiento facial, ha puesto en marcha un nuevo modelo de código abierto llamado SenseNova U1. Según la empresa, este modelo es capaz de generar e interpretar imágenes mucho más rápido que los mejores sistemas desarrollados por sus rivales estadounidenses, lo que podría ayudar a la firma a recuperar terreno después de haber perdido la posición de liderazgo en la carrera china por la IA.

La diferencia clave de SenseNova U1 radica en su capacidad para “leer” imágenes directamente, sin necesidad de convertirlas a texto primero. Este enfoque acelera el proceso y disminuye la potencia de cálculo requerida. “El razonamiento del modelo ya no se limita al texto; también puede razonar con imágenes”, explicó Dahua Lin, cofundadora y directora científica de SenseTime, en una entrevista con WIRED.
Ventajas técnicas y estratégicas
Lin, que además es profesora de Ingeniería de la Información en la Universidad China de Hong Kong, sostiene que los modelos que procesan imágenes de forma nativa permitirán que los robots comprendan mejor el mundo físico en el futuro. Además, al igual que el último modelo insignia de DeepSeek, SenseNova U1 está optimizado para funcionar con chips fabricados en China. “Varios fabricantes de chips chinos ya han optimizado la compatibilidad con nuestro nuevo modelo”, afirmó Lin. En el día del lanzamiento, diez diseñadores de chips, entre ellos Cambricon y Biren Technology, anunciaron la compatibilidad de su hardware con el U1.
Esta flexibilidad resulta crucial ante los controles de exportación estadounidenses, que limitan el acceso de las empresas chinas a los chips de IA más avanzados, especialmente aquellos destinados al entrenamiento y que provienen mayoritariamente de fabricantes occidentales como Nvidia. “Continuaremos impulsando el entrenamiento con chips más diversos”, subrayó Lin, aunque admitió que en algunos casos será necesario recurrir a los chips más potentes para garantizar la velocidad de iteración.
SenseTime ha puesto a disposición de forma gratuita el modelo U1 en las plataformas Hugging Face y GitHub, lo que subraya la creciente participación de las empresas chinas en la comunidad de IA de código abierto.
Historia reciente de SenseTime
- Fundada en 2014, la compañía se consolidó como líder mundial en visión por computadora, aplicando su tecnología al reconocimiento facial y a la conducción autónoma.
- Con la explosión de los modelos de lenguaje natural como ChatGPT, SenseTime quedó rezagada frente a nuevas startups chinas, entre ellas DeepSeek y MiniMax.
- En 2023 la empresa decidió enfocarse en el código abierto, motivada por los valiosos comentarios de la comunidad investigadora que le permiten iterar más rápidamente.
- El gobierno de EE. UU. ha impuesto sanciones a SenseTime bajo la acusación de que su tecnología de reconocimiento facial alimenta sistemas de vigilancia en Xinjiang; la compañía rechaza esas afirmaciones.
En un informe técnico conjunto, SenseTime asegura que SenseNova U1 produce imágenes de mayor calidad que cualquier otro modelo de código abierto disponible en el mercado. Su desempeño se compara favorablemente con los principales modelos chinos de código cerrado, como Qwen de Alibaba y Seedream de ByteDance, aunque todavía está por detrás de líderes globales como GPT‑Image‑2.0, lanzado hace apenas una semana.
La verdadera ventaja competitiva del U1 es su velocidad de generación de imágenes. El modelo se basa en una arquitectura innovadora denominada NEO‑Unify, presentada por la empresa a principios de este año. Según Yakefu, investigadora de IA en Hugging Face, “es un enfoque ambicioso que aún enfrenta desafíos prácticos, pero es positivo que hayan liberado el código fuente para que la comunidad lo explore y pruebe”. Además, la ligereza del modelo permite su ejecución en ordenadores y smartphones, ampliando su rango de aplicaciones.
Lin destaca que la tecnología será particularmente útil en robótica. Cuando un robot procesa un entorno visual, debe organizar una enorme cantidad de información para tomar decisiones rápidas. “Tiene que pensar: ‘¿Cómo debo lidiar con todo el desorden en esta habitación? Si hay una máquina compleja frente a mí, ¿qué botón debo presionar?’. Todas esas son formas de información que deben integrarse en el juicio interno del modelo”, explicó. Al comprender imágenes de forma nativa, los robots podrán actuar con mayor rapidez y cometer menos errores en entornos complejos.
China está viviendo un auge en el desarrollo de robots humanoides. Aunque SenseTime no fabrica sus propios robots, colabora estrechamente con ACE Robotics, una startup fundada por otro cofundador de la compañía, y está desarrollando modelos especializados en comprensión geoespacial, capaces de crear simulaciones realistas del mundo físico.
Mira tambien:
IA en las Elecciones Colombia 2026: herramientas para un voto informado
El creciente negocio de enseñar a hacer deepfakes de IA usando fotos de mujeres reales
Descubre el truco para que Google siempre te muestre WIRED

Deja una respuesta