Le modèle d'IA étonnamment bon marché de Deepseek, Deepseek V3, secoue l'industrie de l'IA et provoque des ondulations importantes, notamment une baisse du cours des actions majeur pour NVIDIA. Alors que Deepseek a initialement réclamé un coût de formation de seulement 6 millions de dollars en utilisant 2048 GPU, un examen plus approfondi révèle un investissement beaucoup plus substantiel.
Image: esigame.com
L'architecture innovante de Deepseek V3 est la clé de ses performances. Il utilise:
- Prédiction multi-token (MTP): Prédire plusieurs mots simultanément pour une vitesse et une précision améliorées.
- Mélange d'experts (MOE): Utilisation de 256 réseaux de neurones, activant huit pour chaque jeton, augmentant la vitesse de formation et les performances.
- Attention latente multi-tête (MLA): Extraction à plusieurs reprises des informations clés des fragments de texte pour minimiser le risque de négliger les détails cruciaux.
Image: esigame.com
Cependant, la semianalyse a découvert l'utilisation par Deepseek d'environ 50 000 GPU NVIDIA Hopper (dont 10 000 H800, 10 000 H100 et des GPU H20 supplémentaires) se sont répandus sur plusieurs centres de données. Cette infrastructure massive représente un investissement total de serveur d'environ 1,6 milliard de dollars, avec des coûts opérationnels estimés à 944 millions de dollars. Deepseek, une filiale de High-Flyer, un fonds spéculatif chinois, possède ces centres de données, fournissant un contrôle et une vitesse d'innovation inégalés. Le statut autofinancé de l'entreprise améliore encore son agilité.
Image: esigame.com
Les salaires élevés de Deepseek (certains chercheurs gagnent plus de 1,3 million de dollars par an), attirant les meilleurs talents chinois, contribuent encore à son succès. Le chiffre initial de 6 millions de dollars ne reflète que les coûts de GPU avant la formation, l'omission de la recherche, du raffinement, du traitement des données et des infrastructures. L'investissement réel de Deepseek dans le développement de l'IA dépasse 500 millions de dollars. Malgré cela, sa structure Lean permet une innovation efficace par rapport aux concurrents plus grands et plus bureaucratiques.
Image: esigame.com
L'histoire de Deepseek met en évidence le potentiel de sociétés d'IA indépendantes bien financées pour rivaliser avec les géants établis. Bien que le récit "adapté au budget" soit quelque peu gonflé, l'avantage du coût par rapport aux concurrents (par exemple, les 5 millions de dollars de Deepseek pour R1 contre les 100 millions de dollars de Chatgpt pour ChatGpt4O) reste important. Le succès de l'entreprise découle en fin de compte des investissements substantiels, des progrès technologiques et une équipe hautement qualifiée.