Aby trenować swoje modele AI, firma High-Flyer Quant (fundusz stojący za DeepSeek) zabezpieczyła ponad 10 tys. procesorów graficznych Nvidia. Zdążyła je kupić przed wdrażanymi przez Waszyngton zakazami eksportowymi w USA. Chiny znalazły się w grupie trzeciej, gdzie obowiązuje bezwzględny zakaz sprzedaży najbardziej zaawansowanych chipów AI.
Dlaczego chińska AI jest tak tania?
Nieoficjalnie mówi się, że do szkolenia DeepSeek użyto jednak 50 tys. procesorów, choć to i tak zdecydowanie mniej niż wykorzystują OpenAI, Google i Anthropic dla swoich modeli. Te działają z ponad 500 tys. procesorów graficznych (GPU) każdy. A efekty finalne nie różnią się – pod względem „rozumowania” DeepSeek dorównuje modelowi o-1 od OpenAI. Fakt, że chiński bot kosztował przy tym ledwie kilka procent tego, co na swoje AI przeznaczyli giganci, robi wrażenie. Dla Polski, którą Biały Dom umieścił w grupie krajów (Tier 2) z ograniczeniami importowymi na chipy AI (te sięgają 50 tys. z możliwością rozszerzenia do 100 tys.), osiągnięcie Chińczyków to sygnał, że można budować zaawansowane rozwiązania bez konieczności zakupu setek tysięcy GPU.
Czytaj więcej
W ciągu kilku dni od startu chiński konkurent ChatGPT wskoczył do grona najczęściej pobieranych aplikacji. Eksperci twierdzą, że DeepSeek potrafi więcej, a przy tym wykorzystuje mniej zasobów, a więc jest tańszy od najpopularniejszych narzędzi AI.
Model wdrożony przez DeepSeek został najpopularniejszym modelem pobieranym na HuggingFace (błyskawicznie przekroczył 100 tys. pobrań). Chiński sukces to cios w amerykańskie ambicje (zwłaszcza, że Waszyngton dopiero co ogłosił projekt Stargate, który zakłada przeznaczenie 0,5 bln dol. na rozwój AI). A na tym nie koniec. Inna chińska firma, ByteDance (spółka-matka TikToka), ogłosiła model Doubao-1.5-pro. Narzędzie, które zawiera tryb „głębokiego myślenia”, również przewyższa już o-1 od OpenAI (w teście porównawczym AIME). W tym samym czasie debiutuje też projekt start-upu Moonshot AI z Pekinu. Firma właśnie wypuściła Kimi k1.5 – ów model sztucznej inteligencji o otwartym kodzie źródłowym ma podobno przewyższać Claude Sonnet 3.5 i GPT-4o, a przy tym dostępny jest całkowicie za darmo (z nieograniczonym użytkowaniem), choć potrafi w czasie rzeczywistym przeszukiwać internet oraz analizować do 50 plików (obrazy i dokumenty).
Skąd się wziął DeepSeek i jak działa?
W czym tkwi sukces DeepSeek? Stojący na czele firmy Liang Wenfeng twierdzi, że to zasługa zespołu badawczego , który składa się wyłącznie z młodych talentów, m.in. doktorantów z najlepszych chińskich uniwersytetów, jak Uniwersytet Pekiński i Uniwersytet Tsinghua. „Rekrutujemy geniuszy” – mówił w jednym z wywiadów Wenfeng.