Deepseek V3 รุ่น Deepseek ที่น่าประหลาดใจของ Deepseek กำลังเขย่าอุตสาหกรรม AI และก่อให้เกิดระลอกคลื่นอย่างมีนัยสำคัญโดยเฉพาะอย่างยิ่งราคาหุ้นที่สำคัญสำหรับ Nvidia ในขณะที่ Deepseek เริ่มแรกอ้างว่ามีค่าใช้จ่ายในการฝึกอบรมเพียง 6 ล้านเหรียญสหรัฐโดยใช้ GPU ในปี 2048 แต่การมองอย่างใกล้ชิดเผยให้เห็นการลงทุนที่สำคัญยิ่งขึ้น
IMGP%Image: Ensigame.com
สถาปัตยกรรมที่เป็นนวัตกรรมของ Deepseek V3 เป็นกุญแจสำคัญในการแสดง มันใช้ประโยชน์:
- การทำนายแบบมัลติเทน (MTP): ทำนายหลายคำพร้อมกันเพื่อปรับปรุงความเร็วและความแม่นยำ
- ส่วนผสมของผู้เชี่ยวชาญ (MOE): ใช้เครือข่ายประสาท 256 เครือข่ายเปิดใช้งานแปดโทเค็นแต่ละโทเค็นเพิ่มความเร็วในการฝึกอบรมและประสิทธิภาพ
- ความสนใจแฝงหลายหัว (MLA): การสกัดข้อมูลสำคัญซ้ำ ๆ จากชิ้นส่วนข้อความเพื่อลดความเสี่ยงของการมองเห็นรายละเอียดที่สำคัญ
IMGP%Image: Ensigame.com
อย่างไรก็ตาม Semianalysis เปิดการใช้ GPU ของ Nvidia Hopper ประมาณ 50,000 Nvidia (รวมถึง 10,000 H800, 10,000 H100 และ H20 GPU เพิ่มเติม) กระจายไปทั่วศูนย์ข้อมูลหลายแห่ง โครงสร้างพื้นฐานขนาดใหญ่นี้แสดงถึงการลงทุนเซิร์ฟเวอร์ทั้งหมดประมาณ 1.6 พันล้านดอลลาร์โดยมีค่าใช้จ่ายในการดำเนินงานประมาณ 944 ล้านดอลลาร์ Deepseek ซึ่งเป็น บริษัท ในเครือของ High-Flyer ซึ่งเป็นกองทุนป้องกันความเสี่ยงจีนเป็นเจ้าของศูนย์ข้อมูลเหล่านี้ให้การควบคุมและความเร็วนวัตกรรมที่ไม่มีใครเทียบ สถานะที่ได้รับการสนับสนุนตนเองของ บริษัท ช่วยเพิ่มความคล่องตัว
IMGP%Image: Ensigame.com
เงินเดือนสูงของ Deepseek (นักวิจัยบางคนมีรายได้มากกว่า 1.3 ล้านเหรียญสหรัฐต่อปี) ดึงดูดความสามารถพิเศษของจีนซึ่งมีส่วนช่วยให้ประสบความสำเร็จ ตัวเลขเริ่มต้น $ 6 ล้านสะท้อนถึงค่าใช้จ่าย GPU ก่อนการฝึกอบรมการละเว้นการวิจัยการปรับแต่งการประมวลผลข้อมูลและโครงสร้างพื้นฐาน การลงทุนที่แท้จริงของ Deepseek ในการพัฒนา AI เกินกว่า $ 500 ล้าน อย่างไรก็ตามสิ่งนี้โครงสร้างแบบลีนช่วยให้นวัตกรรมมีประสิทธิภาพเมื่อเทียบกับคู่แข่งที่มีขนาดใหญ่และมีระบบราชการมากขึ้น
IMGP%Image: Ensigame.com
เรื่องราวของ Deepseek เน้นถึงศักยภาพของ บริษัท AI ที่ได้รับการสนับสนุนและได้รับการสนับสนุนอย่างดีในการแข่งขันกับยักษ์ใหญ่ที่จัดตั้งขึ้น ในขณะที่การเล่าเรื่อง "เป็นมิตรกับงบประมาณ" ค่อนข้างสูงเกินจริง แต่ข้อได้เปรียบด้านต้นทุนเมื่อเทียบกับคู่แข่ง (เช่น $ 5 ล้านของ Deepseek สำหรับ R1 เมื่อเทียบกับ $ 100 ล้านของ CHATGPT สำหรับ ChatGPT4O) ยังคงมีความสำคัญ ความสำเร็จของ บริษัท ในที่สุดเกิดจากการลงทุนที่สำคัญความก้าวหน้าทางเทคโนโลยีและทีมงานที่มีทักษะสูง