DeepSeek : Un changement de paradigme, ce que cela signifie pour l'humanité

Deepseek China SecurityFICHIER - La page de l'application smartphone DeepSeek est vue sur l'écran d'un smartphone à Pékin, le 28 janvier 2025. (AP Photo/Andy Wong, Fichier)Droits d'auteur 2025 The Associated Press. Tous droits réservésLa baleine qui est DeepSeek était invisible avant le 20 janvier 2025. Puis la Baleine Bleue fait irruption aux yeux du monde entier le 20 janvier. Ce coup de corps a envoyé des ondes de choc à travers le monde.

La sortie de DeepSeek-R1 a immédiatement fait chuter la capitalisation boursière de plusieurs entreprises de matériel et de logiciels qui étaient soutenues par ce que les investisseurs pensaient être l'exceptionnalisme américain. Retenir les derniers puces et la propriété intellectuelle en IA de la Chine était censé être la stratégie à suivre. Sauf que c'était faux. C'est de cela que sont faits les bondissements. Surtout pour une puissance de fabrication et de conception comme la Chine. Ironiquement, les derniers modèles de DeepSeek sont gratuits à utiliser. Ils les exécutent même sur leurs serveurs gratuitement.

Le développement de modèles de langage de grande taille à usage général par l'augmentation des paramètres et des données d'entraînement a conduit à de nombreuses percées. La sortie de ChatGPT-3.5 et 4.0 en 2022-23 a libéré le potentiel à usage général de l'IA pour le grand public. Cette approche a également considérablement augmenté les coûts, car les demandes en matière de calcul et de données ont stimulé des processeurs plus grands et meilleurs. À la fin de 2023 et en 2024, et même maintenant, la construction de centres de données gourmands en énergie était considérée comme le seul moyen d'améliorer les performances des modèles. Limiter l'accès à l'informatique et aux dernières puces était censé restreindre la Chine en tant que source de ces modèles puissants. Avec DeepSeek, ce paradigme a été modifié.

Des entreprises comme Nvidia dont l'action a été fortement affectée par l'annonce ont depuis récupéré et prospéré. Les leçons ont été perdues pour les marchés mondiaux. Le pire est peut-être à venir alors que les entreprises soutenues par l'essor de l'IA et son utilisation sont ramenées à la réalité par une combinaison de nouvelles méthodes et de la réduction des capacités de calcul nécessaires pour effectuer l'entraînement ainsi que l'inférence.

Les coûts irrécupérables et les coûts de changement, avec leurs puissants partisans économiques, empêchent une vision à long terme et bloquent l'IA américaine dans ses voies. Le succès engendre la complaisance et l'adhésion au modèle qui a produit le succès. Dans l'IA, un domaine en rapide développement, rester coincé sur des algorithmes, des processus et des pratiques est mortel. DeepSeek a montré que simplement empiler des calculs et des données ne mène pas à des progrès exponentiels. C'est une leçon de nombreux domaines, souvent ignorée avec un dicton surutilisé mais faux : "Cette fois, c'est différent." L'innovation suit des schémas familiers ; lentement puis rapidement.

PLUS POUR VOUS## Efficacité

Les coûts de formation et d'exécution de DeepSeek sont bien inférieurs à ceux des autres modèles. Le ratio présenté récemment montrait 6M $ pour DeepSeek contre 600M $ pour Llama (, le modèle open source de Meta). Un centième du coût. Les coûts des autres modèles, y compris ChatGPT, sont encore plus élevés. Les économies réalisées sont le résultat de l'implémentation des propres découvertes de DeepSeek en apprentissage par renforcement et de la formation utilisant la distillation. De plus, le modèle est très efficace pour générer la langue chinoise. Il y a trois mois, un grand nombre d'entreprises chinoises avaient rejoint la révolution de l'IA en s'abonnant à DeepSeek. En tant que champion national, la politique industrielle du gouvernement soutient DeepSeek.

L'apprentissage par renforcement (RL) en tant que méthode d'entraînement a été inventé à l'Université d'Amherst. Les récipiendaires du prix Turing ACM 2024, Andrew Barto et Richard Sutton, étaient les inventeurs des techniques classiques d'apprentissage par renforcement. Pour les LLM et d'autres grands modèles, une telle approche relève de l'apprentissage supervisé. Le modèle est affiné par des retours, classiquement de la part des humains, appelés RLHF (Apprentissage par Renforcement avec Retour Humain). Cela s'appelle un ajustement supervisé. Les humains sont les superviseurs. Le document publié par les créateurs de DeepSeek R1 entre dans le détail de la façon dont ils ont modifié le RL.

Tout ce qui implique des humains dans la boucle à grande échelle nécessite beaucoup d'argent. Éliminer l'humain dans la boucle rend l'entraînement moins coûteux. Une version du modèle est utilisée pour peaufiner l'autre. En d'autres termes, un modèle fonctionne comme le superviseur et l'autre est entraîné. L'arrivée de nouvelles entreprises avec des modèles tels que MiniMax-M1 illustre encore plus ce changement. De telles techniques dépasseront les modèles créés en utilisant un redimensionnement conventionnel.

DeepSeek-R1 a été efficace grâce à son évolution en utilisant plusieurs stratégies. Une combinaison de méthodes novatrices basées sur des techniques existantes a rendu l'entraînement et l'inférence efficaces en termes de temps et de ressources. Plus de détails peuvent être trouvés dans cet article. En résumé, tous les aspects de la création et de l'exécution de grands modèles de langage ont été modifiés, améliorés ou retravaillés pour une efficacité en termes de coûts et de temps.

MiniMax-M1

MiniMax-M1 prétend avoir réduit le coût de formation de DeepSeek-R1 de 90 %. Ils ont formé leur modèle pour un coût de 500K $. En contraste, le coût pour DeepSeek-R1 était de 6M $ et de 600M $ pour LLaMa. Des doutes ont été émis sur les chiffres publiés par DeepSeek et MiniMax.

Les efficacités ont été améliorées grâce à un affinage supplémentaire de RL avec ce qu'on appelle l'attention éclair. Cela concerne principalement des problèmes déterministes tels que le raisonnement mathématique et logique, ainsi que des problèmes de long contexte comme le codage. Le Minimax est également disponible via HuggingFace, l'hôte AI open source.

Confidentialité

Il y a des inquiétudes concernant le fait que DeepSeek collecte des données privées pour son propre usage. Ce phénomène est répandu dans le monde de l'IA et des médias sociaux en général. Ce qui rend le partage de données privées avec DeepSeek ou d'autres entreprises privées préoccupant, c'est le fait qu'elles seront utilisées pour affiner les modèles. Dans le cas de DeepSeek ou d'autres entreprises basées en Chine, il y a une peur que les données atteignent le gouvernement chinois. Les entreprises d'IA privées, même celles aux États-Unis, font la même chose, sauf qu'elles partageront ces données avec le gouvernement américain si la loi les y oblige. À ce stade, un tel scénario est plus troublant. Le quatrième amendement sera mis de côté si le gouvernement peut fouiller non seulement nos personnes et nos maisons, mais aussi nos esprits sans mandat.

Pour en savoir plus sur les risques de DeepSeek, lisez cette analyse de Hidden Layer. Étant donné que le modèle commercial de Hidden Layer est basé sur ce type d'analyse, il est préférable d'examiner attentivement l'analyse et de la comparer avec leurs travaux sur d'autres modèles ouverts.

Modèles d'IA open source

Open Source International (OSI) a une définition de l'Open Source IA. Il est actuellement en version 1.0, soumis à révision. Comme la définition de l'Open Source pour les logiciels, cela permet aux utilisateurs d'utiliser, d'observer, de modifier et de distribuer sans aucune restriction. Les modèles d'IA dépendent beaucoup de leurs données d'entraînement. L'utilisation de l'IA implique l'inférence, consommant des ressources. Les dépenses liées à l'entraînement sont séparées des dépenses d'inférence. Dans la définition classique du logiciel open source, le code source est disponible pour tout utilisateur afin de l'utiliser, de l'observer, de le modifier et de le distribuer. Dans une interprétation stricte de l'open source en IA, le code source devrait inclure les données utilisées pour entraîner le modèle. Cependant, cela peut ne pas être pratique, ni faire partie de la définition de l'OSI de l'Open Source IA.

Cela est radicalement différent des directives de l'OSI pour les logiciels open source. L'autre différence est l'observabilité des poids et des hyperparamètres du modèle. Pendant la phase d'apprentissage, les poids du modèle sont affinés. Les poids du modèle incarnent le modèle dans sa forme actuelle, cristallisant tout l'entraînement que le modèle a subi. Les hyperparamètres contrôlent la configuration initiale de la mise en place de l'apprentissage. Dans un modèle ouvert, les poids du modèle et les paramètres du modèle sont censés être ouverts.

Les modèles d'IA open source peuvent être appelés modèles à poids ouverts. De nombreux modèles en provenance de Chine sont des modèles à poids ouverts, y compris Qwen (De AliBababa). Cette compétition a également contraint OpenAI à publier un modèle à poids ouverts. Il s'agit du modèle de base gpt-oss avec deux variantes.

L'avenir

Nous n'avons pas exploré la technologie derrière la création de prompts multimodaux et de génération multimodale. Par multimodal, nous entendons non seulement le texte, mais aussi les images, l'audio ainsi que la vidéo. MiniMax ainsi que DeepSeek ont ces capacités. Il est clair que limiter l'accès au matériel et au savoir-faire ne peut freiner l'innovation véritable. De telles contraintes entraînent également de multiples changements de paradigme, rendant l'IA moins coûteuse à développer avec moins de matériel et de ressources énergétiques, créant un avenir démocratisé et décentralisé où nous pourrions affiner et exécuter des modèles sur du matériel standard. Ces développements nous donnent l'espoir que nous pourrons contrôler et plier ces capacités pour aider l'humanité plutôt que de nous nuire.

DEEPSEEK-2.58%
H2.38%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)