miércoles, 5 de noviembre de 2025

Evaluación de CAISI sobre los Modelos de DeepSeek AI Revela Deficiencias y Riesgos

 Fuente: https://www.nist.gov/news-events/news/2025/09/caisi-evaluation-deepseek-ai-models-finds-shortcomings-and-risks

30 de septiembre de 2025

  • Los modelos de IA del desarrollador DeepSeek se sitúan por detrás de los modelos estadounidenses en rendimiento, coste, seguridad y adopción.
  • Las deficiencias en seguridad y la censura podrían suponer riesgos para desarrolladores de aplicaciones, consumidores y la seguridad nacional de EE. UU.
  • Los productos de DeepSeek están contribuyendo a un rápido aumento en el uso global de modelos de la República Popular China (RPC).

WASHINGTON — El Centro para Estándares e Innovación en IA (CAISI), del Instituto Nacional de Estándares y Tecnología (NIST) del Departamento de Comercio, evaluó modelos de IA del desarrollador de la República Popular China (RPC) DeepSeek y encontró que se quedan atrás respecto a los modelos estadounidenses en rendimiento, coste, seguridad y adopción.

«Gracias al Plan de Acción en IA del presidente Trump, el Departamento de Comercio y el Centro para Estándares e Innovación en IA de NIST han publicado una evaluación pionera de la IA estadounidense frente a la IA de adversarios», declaró el secretario de Comercio, Howard Lutnick. «El informe es claro: la IA estadounidense domina, con DeepSeek quedándose muy atrás. Esta debilidad no es solo técnica. Muestra por qué depender de IA extranjera es peligroso y miope. Al establecer estándares, impulsar la innovación y mantener segura a Estados Unidos, el Departamento de Comercio garantizará el liderazgo continuo de EE. UU. en IA.»

La evaluación de CAISI también señala que las deficiencias de los modelos de DeepSeek en materia de seguridad y censura de respuestas podrían representar un riesgo para desarrolladores de aplicaciones, consumidores y la seguridad nacional de EE. UU. A pesar de estos riesgos, DeepSeek es un desarrollador líder y ha contribuido a un rápido aumento en el uso global de modelos de la RPC.

Los expertos de CAISI evaluaron tres modelos de DeepSeek (R1, R1-0528 y V3.1) y cuatro modelos estadounidenses (GPT-5 de OpenAI, GPT-5-mini, gpt-oss y Opus 4 de Anthropic) en 19 pruebas de referencia que abarcan diversos dominios. Estas evaluaciones incluyen pruebas públicas de vanguardia, así como pruebas privadas desarrolladas por CAISI en colaboración con instituciones académicas y otras agencias federales.

La evaluación de CAISI responde al Plan de Acción en IA de Estados Unidos del presidente Donald Trump, que ordena a CAISI realizar investigación y publicar evaluaciones de modelos de frontera de la RPC. CAISI también tiene la tarea de evaluar: las capacidades de los sistemas de IA estadounidenses y de adversarios; la adopción de sistemas de IA extranjeros; el estado de la competencia internacional en IA; y posibles vulnerabilidades de seguridad e influencia extranjera maligna derivadas del uso de sistemas de IA de adversarios.

CAISI sirve como punto de contacto principal de la industria dentro del gobierno de EE. UU. para facilitar pruebas, investigación colaborativa y desarrollo de mejores prácticas relacionadas con sistemas de IA comerciales, y es un elemento clave en los esfuerzos de NIST para asegurar y avanzar el liderazgo estadounidense en IA.

Hallazgos Clave

El rendimiento de DeepSeek se queda atrás de los mejores modelos de referencia estadounidenses. El mejor modelo estadounidense supera al mejor modelo de DeepSeek (DeepSeek V3.1) en casi todas las pruebas. La brecha es mayor en tareas de ingeniería de software y ciberseguridad, donde el mejor modelo estadounidense evaluado resuelve más del 20 % de tareas adicionales que el mejor modelo de DeepSeek.

Los modelos de DeepSeek cuestan más de usar que modelos estadounidenses comparables. Un modelo de referencia estadounidense cuesta en promedio un 35 % menos que el mejor modelo de DeepSeek para lograr un nivel similar en las 13 pruebas de rendimiento evaluadas.

Los modelos de DeepSeek son mucho más susceptibles a ataques de secuestro de agentes que los modelos estadounidenses de frontera. Los agentes basados en el modelo más seguro de DeepSeek (R1-0528) fueron, en promedio, 12 veces más propensos que los modelos estadounidenses de frontera evaluados a seguir instrucciones maliciosas diseñadas para desviarlos de las tareas del usuario. Los agentes secuestrados enviaron correos de phishing, descargaron y ejecutaron malware, y exfiltraron credenciales de inicio de sesión de usuarios, todo en un entorno simulado.

Los modelos de DeepSeek son mucho más vulnerables a ataques de jailbreaking que los modelos estadounidenses. El modelo más seguro de DeepSeek (R1-0528) respondió al 94 % de solicitudes abiertamente maliciosas cuando se usó una técnica común de jailbreaking, en comparación con solo el 8 % en los modelos de referencia estadounidenses.

Los modelos de DeepSeek promueven narrativas del Partido Comunista Chino (PCCh). Los modelos de DeepSeek repitieron cuatro veces más narrativas inexactas y engañosas del PCCh que los modelos de referencia estadounidenses.

La adopción de modelos de la RPC ha aumentado enormemente desde el lanzamiento de DeepSeek R1. El lanzamiento de DeepSeek R1 ha impulsado la adopción de modelos de la RPC en todo el ecosistema de IA. Las descargas de modelos de DeepSeek en plataformas de intercambio de modelos han aumentado casi un 1.000 % desde enero de 2025.

 

No hay comentarios:

Publicar un comentario