DeepSeek: Un cambio de paradigma, lo que significa para la humanidad

Deepseek China SecurityARCHIVO - La página de la aplicación para smartphone DeepSeek se ve en la pantalla de un smartphone en Beijing, 28 de enero de 2025. (AP Photo/Andy Wong, Archivo)Copyright 2025 The Associated Press. Todos los derechos reservadosLa ballena que es DeepSeek era invisible antes del 20 de enero de 2025. Luego, la Ballena Azul emerge a la vista de todo el mundo el 20 de enero. Esa embestida envió ondas de choque alrededor del mundo.

El lanzamiento de DeepSeek-R1 hundió inmediatamente la capitalización de mercado de varias empresas de hardware y software que estaban sostenidas por lo que los inversores pensaban que era el excepcionalismo americano. Se pensaba que retener los últimos chips y la propiedad intelectual de IA de China era la estrategia a seguir. Excepto que estaba mal. Así es como se hace el salto. Especialmente para una potencia de fabricación y diseño como China. Irónicamente, los últimos modelos de DeepSeek son gratuitos para usar. Incluso los ejecutan en sus servidores de forma gratuita.

El desarrollo de modelos de lenguaje de propósito general a través de la escalabilidad de parámetros y datos de entrenamiento llevó a muchos avances. El lanzamiento de ChatGPT-3.5 y 4.0 en 2022-23 desató el potencial de propósito general de la IA para el público en general. Este enfoque también aumentó los costos de manera tremenda, ya que las demandas de computación y datos impulsaron procesadores más grandes y mejores. A finales de 2023 y 2024, e incluso ahora, se pensaba que la construcción de centros de datos que consumen mucha energía era la única forma de mejorar el rendimiento de los modelos. Se pensaba que limitar el acceso a la computación y a los últimos chips restringiría a China como fuente de estos modelos poderosos. Con DeepSeek, ese paradigma se cambió.

Empresas como Nvidia, cuyo stock se vio fuertemente afectado por el anuncio, se han recuperado y prosperado desde entonces. Las lecciones se perdieron en los mercados globales. Lo peor puede estar por venir, ya que las empresas impulsadas por el auge de la IA y su uso son traídas de vuelta a la realidad por una combinación de nuevos métodos y la disminución de la computación necesaria para realizar entrenamiento e inferencia.

Los costos hundidos y los costos de cambio, con sus propios poderosos defensores económicos, impiden una visión a largo plazo y bloquean a la IA estadounidense en sus caminos. El éxito engendra complacencia y adhesión al modelo que produjo el éxito. En IA, un campo de rápido desarrollo, quedarse atascado en algoritmos, procesos y prácticas es mortal. DeepSeek mostró que simplemente acumular computación y datos no conduce a un progreso exponencial. Esta es una lección de muchos campos, que a menudo se ignora con un dictum sobreutilizado pero erróneo: “Esta vez es diferente.” La innovación sigue patrones familiares; lentamente y luego rápidamente.

MÁS PARA TI## Eficiencia

Los costos de entrenamiento y operación de DeepSeek son mucho más bajos que los de otros modelos. La proporción en una presentación reciente mostró $6M para DeepSeek/ frente a $600M para Llama ( el modelo de código abierto de Meta). Un centésimo del costo. Los costos de otros modelos, incluido ChatGPT, son aún mayores. Los ahorros en costos son el resultado de implementar los propios descubrimientos de DeepSeek en aprendizaje por refuerzo y entrenamiento usando destilación. Además, el modelo es muy eficiente en la generación de lenguaje chino. Hace tres meses, un gran número de empresas chinas se unieron a la revolución de la IA al suscribirse a DeepSeek. Como campeón nacional, la política industrial del gobierno apoya a DeepSeek.

RL como método de entrenamiento fue inventado en la Universidad de Amherst. Los receptores del premio Turing ACM 2024, Andrew Barto y Richard Sutton, fueron los inventores de las técnicas clásicas de aprendizaje por refuerzo. Para los LLM y otros modelos grandes, tal enfoque se clasifica como aprendizaje supervisado. El modelo se refina mediante retroalimentación, clásicamente de humanos, llamado RLHF (Aprendizaje por Refuerzo con Retroalimentación Humana). Esto se llama ajuste fino supervisado. Los humanos son los supervisores. El documento publicado por los creadores de DeepSeek R1 detalla la forma en que modificaron RL.

Cualquier cosa que implique humanos en el proceso a gran escala requiere mucho dinero. Eliminar al humano en el proceso hace que el entrenamiento sea más barato. Una versión del modelo se utiliza para ajustar el otro. En otras palabras, un modelo funciona como supervisor y el otro es entrenado. La llegada de nuevas empresas con modelos como MiniMax-M1 simboliza aún más este cambio. Tales técnicas superarán a los modelos que se crean utilizando escalado convencional.

DeepSeek-R1 fue efectivo a través de su evolución utilizando múltiples estrategias. Una combinación de métodos novedosos basados en técnicas existentes hizo que el entrenamiento y la inferencia fueran eficientes en tiempo y recursos. Más detalles se pueden encontrar en este artículo. En resumen, todos los aspectos de la creación y ejecución de grandes modelos de lenguaje fueron cambiados, mejorados o reestructurados para la eficiencia de costos y tiempo.

MiniMax-M1

MiniMax-M1 afirma haber reducido el costo del entrenamiento de DeepSeek-R1 en un 90%. Entrenaron su modelo por un costo de $500K. En contraste, el costo de DeepSeek-R1 fue de $6M y el de LLaMa de $600M. Se han planteado dudas sobre las cifras publicadas por DeepSeek y MiniMax.

Las eficiencias se han mejorado mediante el refinamiento adicional de RL con lo que se llama atención relámpago. Esto es principalmente para problemas deterministas como el razonamiento matemático y lógico, así como problemas de largo contexto como la codificación. Minimax también está disponible a través de HuggingFace, el anfitrión de IA de código abierto.

Privacidad

Hay preocupación de que DeepSeek esté recolectando datos privados para su propio uso. Este fenómeno es común en el mundo de la IA y las redes sociales en general. Lo que hace que compartir datos privados con DeepSeek u otras empresas privadas sea problemático es el hecho de que se utilizarán para refinar los modelos. En el caso de DeepSeek u otras empresas con sede en China, existe el temor de que los datos lleguen al gobierno chino. Las empresas de IA privadas, incluso las de Estados Unidos, hacen lo mismo, excepto que compartirán esos datos con el gobierno de EE. UU. si son obligadas por la ley. En este momento, tal escenario es más inquietante. La cuarta enmienda caerá en desuso, si el gobierno puede buscar no solo nuestras personas y nuestros hogares, sino nuestras mentes sin una orden.

Para leer más sobre los riesgos de DeepSeek, lee este análisis de Hidden Layer. Dado que el modelo de negocio de Hidden Layer se basa en este tipo de análisis, es mejor mirar de cerca el análisis y compararlo con su trabajo en otros modelos abiertos.

Modelos de IA de Código Abierto

Open Source International (OSI) tiene una definición de Open Source AI. Actualmente es 1.0, sujeto a revisión. Al igual que la definición de Open Source para software, permite a los usuarios usar, observar, modificar y distribuir sin ninguna restricción. Los modelos de IA dependen mucho de sus datos de entrenamiento. El uso de IA implica inferencia, consumiendo recursos. El gasto en entrenamiento es separado del gasto de inferencia. En la definición clásica de software de código abierto, el código fuente está disponible para que cualquier usuario lo use, observe, modifique y distribuya. En una interpretación estricta del código abierto de IA, el código fuente debería incluir los datos utilizados para entrenar el modelo. Sin embargo, esto puede no ser práctico, ni es parte de la definición de OSI de Open Source AI.

Esto es drásticamente diferente de la guía de la OSI para software de código abierto. La otra diferencia es la observabilidad de los pesos del modelo y los hiperparámetros. Durante la fase de aprendizaje, los pesos del modelo se refinan. Los pesos del modelo incorporan el modelo en su forma actual, cristalizando todo el entrenamiento que ha sufrido el modelo. Los hiperparámetros controlan la configuración inicial del entorno de aprendizaje. En un modelo abierto, los pesos del modelo y los parámetros del modelo están destinados a ser abiertos.

Los modelos de IA de código abierto se pueden llamar modelos de pesos abiertos. Muchos modelos de China son modelos de pesos abiertos, incluyendo Qwen ( de AliBababa ). Esta competencia también ha obligado a OpenAI a lanzar un modelo de peso abierto. Este es el modelo base gpt-oss con dos variantes.

El Futuro

No hemos profundizado en la tecnología detrás de la creación de prompts multimodales y generación multimodal. Por multimodal, nos referimos no solo a texto, sino también a imágenes, audio y video. MiniMax así como DeepSeek tienen estas capacidades. Está claro que limitar el acceso al hardware y al conocimiento no puede frenar la verdadera innovación. Tales restricciones también provocan múltiples cambios de paradigma, haciendo que la IA sea más barata de desarrollar con menores recursos de hardware y energía, creando un futuro democratizado y descentralizado donde podríamos ajustar y ejecutar modelos en hardware de consumo. Estos desarrollos nos dan esperanza de que podremos controlar y adaptar estas capacidades para ayudar a la humanidad en lugar de hacernos daño a nosotros mismos.

DEEPSEEK-7.06%
H2.04%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)