Os engenheiros da DeepSeek trouxeram uma inovação significativa ao optar pelo PTX para explorar ao máximo o potencial das GPUs H800.
O lançamento do modelo DeepSeek AI V3 como código aberto está causando uma transformação no setor. Com a revelação dos detalhes sobre a estratégia adotada pela equipe desta empresa chinesa, fica claro como conseguiram desenvolver um modelo de IA tão eficiente. Vale destacar que a DeepSeek afirma ter conseguido treinar seu modelo utilizando apenas 2.048 chips Nvidia H800. Entretanto, alguns analistas sugerem que a empresa pode estar utilizando até 50.000 GPUs H100, mas isso ainda é apenas uma especulação. É importante lembrar que as sanções às empresas chinesas, impostas pelo governo dos Estados Unidos, dificultam o acesso a essas placas H100, que são mais poderosas que as H800.
Uma das estratégias centrais para o sucesso do DeepSeek gira em torno do PTX. Nos últimos cinco anos, a Nvidia não apenas posicionou suas placas no mercado, mas também solidificou sua tecnologia CUDA (Compute Unified Device Architecture). Hoje em dia, a maior parte dos projetos de IA atualmente sendo desenvolvidos utiliza CUDA, que oferece aos programadores um conjunto de ferramentas essenciais para a criação de softwares específicos para GPUs. Trocar CUDA por outra tecnologia em um projeto já em andamento representa um desafio para muitos desenvolvedores.
Embora a Huawei esteja tentando conquistar uma parte desse mercado na China com sua própria solução, a CANN (Compute Architecture for Neural Networks), atualmente a CUDA ainda é a mais dominante. Essa tecnologia da Nvidia permite que desenvolvedores programem de maneira eficaz, dando acesso direto ao hardware da GPU. No entanto, a abordagem da DeepSeek foi diferente: eles optaram por utilizar PTX (Parallel Thread Execution) ao invés de CUDA.
PTX se assemelha a uma linguagem de montagem, servindo como uma ferramenta oferecida pela Nvidia para desenvolvedores que estão em busca de implementar otimizações de baixo nível em seu código. Embora a programação em PTX seja mais desafiadora e trabalhosa do que em CUDA, ela possibilita a criação de códigos mais eficientes, permitindo que os engenheiros se aproveitem melhor dos recursos disponíveis nas GPUs.
Os engenheiros da DeepSeek aplicaram o PTX para tirar o máximo proveito das placas H800 em uso. Uma das estratégias implementadas foi reservar apenas 20 SMs (Streaming Multiprocessors) de cada GPU para comunicação entre os servidores. Isso resultou na possibilidade de dedicar os restantes 112 SMs de cada chip exclusivamente para os cálculos, explicando em grande parte a notável eficiência do DeepSeek AI V3.
Os resultados obtidos por esses programadores representam uma conquista em engenharia cuja influência poderá moldar o futuro dos projetos de IA. Essa abordagem evidência a capacidade da China de se adaptar rapidamente às limitações de fornecimento de GPUs geradas pelas sanções dos Estados Unidos.
Inscreva-se no canal do IGN Brasil no Youtube e não deixe de acompanhar nossas páginas no TikTok, Facebook, Threads, Instagram, Bluesky e Twitch!
Leia também: O Japão é uma nação com forte foco digital, mas o fenômeno do Hobonichi tem conquistado a atenção até mesmo dos jovens.
Webcam Full HD Logitech C920s com Microfone Embutido e Proteção de Privacidadepara Chamadas e Gravações em Video Widescreen 1080p - Compatível com LogitechCapture
R$ 430,00
Vendido na Amazon