DeepSeek의 놀랍도록 저렴한 AI 모델 인 DeepSeek V3는 AI 산업을 흔들고 NVIDIA의 주요 주가 하락을 일으키고 있습니다. DeepSeek은 처음에는 2048 GPU를 사용하여 6 백만 달러의 훈련 비용을 주장했지만 자세히 살펴보면 훨씬 더 많은 투자가 나타납니다.
이미지 : ensigame.com
DeepSeek V3의 혁신적인 아키텍처는 성능의 핵심입니다. 사용합니다.
- MTP (Multi-Token Prediction) : 속도와 정확성 향상을 위해 여러 단어를 동시에 예측합니다.
- 전문가 혼합 (MOE) : 256 개의 신경망을 사용하여 각 토큰 당 8 개 활성화, 교육 속도 및 성능 향상.
- 멀티 헤드 잠재주의 (MLA) : 텍스트 조각에서 주요 정보를 반복해서 추출하여 중요한 세부 사항을 간과 할 위험을 최소화합니다.
이미지 : ensigame.com
그러나 Semianalysis는 DeepSeek의 약 50,000 NVIDIA HOPPER GPU (10,000 H800, 10,000 H100 및 추가 H20 GPU 포함)를 여러 데이터 센터에 걸쳐 사용했습니다. 이 대규모 인프라는 약 16 억 달러의 총 서버 투자를 나타냅니다. 운영 비용은 9 억 9,400 만 달러로 추정됩니다. 중국 헤지 펀드 인 High-Flyer의 자회사 인 Deepseek는 이러한 데이터 센터를 소유하여 비교할 수없는 제어 및 혁신 속도를 제공합니다. 회사의 자체 자금 지원 상태는 민첩성을 더욱 향상시킵니다.
이미지 : ensigame.com
Deepseek의 높은 급여 (일부 연구자들은 매년 130 만 달러 이상을 벌어) 중국의 최고 인재를 유치하여 성공에 더욱 기여합니다. 초기 6 백만 달러는 사전 훈련 GPU 비용, 연구, 개선, 데이터 처리 및 인프라 생략 만 반영합니다. AI 개발에 대한 DeepSeek의 실제 투자는 5 억 달러를 초과합니다. 그럼에도 불구하고, 린 구조는 더 큰 관료적 경쟁자에 비해 효율적인 혁신을 가능하게합니다.
이미지 : ensigame.com
Deepseek의 이야기는 기존의 거인들과 경쟁 할 수있는 잘 자금을 지원하고 독립적 인 AI 회사의 잠재력을 강조합니다. "예산 친화적 인"내러티브는 다소 팽창되지만, 경쟁 업체 (예 : R1에 대한 DeepSeek의 5 백만 달러와 ChatGPT4O의 1 억 달러)에 비해 비용 우위는 여전히 중요합니다. 이 회사의 성공은 궁극적으로 상당한 투자, 기술 발전 및 고도로 숙련 된 팀에서 비롯됩니다.