Model AI yang mengejutkan Deepseek, DeepSeek V3, mengguncang industri AI dan menyebabkan riak yang ketara, terutamanya penurunan harga saham utama untuk Nvidia. Walaupun DeepSeek pada mulanya mendakwa kos latihan hanya $ 6 juta menggunakan 2048 GPU, penampilan yang lebih dekat mendedahkan pelaburan yang jauh lebih besar.
imej: ensigame.com
Senibina inovatif DeepSeek V3 adalah kunci kepada prestasinya. Ia menggunakan:
- Ramalan Multi-Token (MTP): Meramalkan beberapa perkataan secara serentak untuk kelajuan dan ketepatan yang lebih baik.
- Campuran Pakar (MOE): Menggunakan 256 rangkaian saraf, mengaktifkan lapan untuk setiap token, meningkatkan kelajuan dan prestasi latihan.
- Perhatian Laten Multi-Head (MLA): Berulang kali mengekstrak maklumat utama dari serpihan teks untuk meminimumkan risiko menghadap butiran penting.
imej: ensigame.com
Walau bagaimanapun, semianalisis mendedahkan penggunaan DeepSeek kira -kira 50,000 NVIDIA Hopper GPU (termasuk 10,000 H800, 10,000 H100, dan tambahan H20 GPU) yang tersebar di pelbagai pusat data. Infrastruktur besar -besaran ini mewakili jumlah pelaburan pelayan kira -kira $ 1.6 bilion, dengan kos operasi dianggarkan sebanyak $ 944 juta. DeepSeek, anak syarikat High-Flyer, dana lindung nilai Cina, memiliki pusat data ini, menyediakan kelajuan kawalan dan inovasi yang tiada tandingannya. Status syarikat yang dibiayai sendiri meningkatkan ketangkasannya.
imej: ensigame.com
Gaji tinggi Deepseek (sesetengah penyelidik memperoleh lebih daripada $ 1.3 juta setiap tahun), menarik bakat Cina teratas, menyumbang lagi kepada kejayaannya. Angka awal $ 6 juta hanya mencerminkan kos GPU pra-latihan, menghilangkan penyelidikan, penghalusan, pemprosesan data, dan infrastruktur. Pelaburan sebenar DeepSeek dalam pembangunan AI melebihi $ 500 juta. Walaupun demikian, struktur kurus membolehkan inovasi yang cekap berbanding dengan pesaing birokrasi yang lebih besar.
imej: ensigame.com
Kisah Deepseek menyoroti potensi syarikat AI yang dibiayai dengan baik untuk bersaing dengan gergasi yang ditubuhkan. Walaupun naratif "mesra bajet" agak melambung, kelebihan kos berbanding pesaing (mis., DeepSeek's $ 5 juta untuk R1 berbanding $ 100 juta untuk ChatGPT untuk ChatGPT4O) masih signifikan. Kejayaan syarikat akhirnya berpunca daripada pelaburan yang besar, kemajuan teknologi, dan pasukan yang sangat mahir.