DeepSeek: A Ascensão Rápida do Chatbot de IA Chinês

O DeepSeek ganhou notoriedade rapidamente.

O laboratório chinês de IA DeepSeek se destacou na atenção pública esta semana, após seu aplicativo de chatbot alcançar as primeiras posições nas paradas da App Store da Apple e Google Play. Os modelos de IA do DeepSeek, que foram treinados utilizando técnicas de computação eficientes, despertaram questionamentos entre analistas de Wall Street e especialistas em tecnologia sobre a capacidade dos EUA de manter sua liderança na corrida pela inteligência artificial, bem como se a demanda por chips de IA irá se manter.

No entanto, de onde veio o DeepSeek e como conquistou fama internacional de forma tão veloz?

Origens Comerciais do DeepSeek

O DeepSeek tem o apoio da High-Flyer Capital Management, um fundo hedge quantitativo chinês que utiliza IA para fundamentar suas decisões de negociação.

O entusiasta de IA Liang Wenfeng co-fundou a High-Flyer em 2015. Wenfeng começou a explorar o mundo do trading enquanto era aluno da Universidade Zhejiang e lançou a High-Flyer Capital Management em 2019, focando no desenvolvimento e implantação de algoritmos de IA.

Em 2023, a High-Flyer criou o DeepSeek como um laboratório dedicado à pesquisa de ferramentas de IA, separado de seus negócios financeiros. Com a High-Flyer como uma das investidoras, o laboratório se tornou uma empresa independente, também chamada DeepSeek.

Desde o início, a DeepSeek construiu seus próprios clusters de data center para o treinamento de modelos. No entanto, assim como outras empresas de IA na China, o DeepSeek foi impactado pelas proibições de exportação dos EUA em relação ao hardware. Para treinar um de seus modelos mais recentes, a empresa precisou utilizar chips Nvidia H800, uma versão menos poderosa do chip H100, disponível para empresas dos EUA.

A equipe técnica do DeepSeek é relatada como tendo um perfil jovem. A empresa aparentemente recruta de forma intensa pesquisadores de doutorado em universidades chinesas de destaque. O DeepSeek também contrata pessoas sem formação em ciência da computação para ajudar sua tecnologia a compreender uma gama diversificada de assuntos, conforme informações do The New York Times.

Modelos Poderosos do DeepSeek

O DeepSeek apresentou seu primeiro conjunto de modelos — DeepSeek Coder, DeepSeek LLM e DeepSeek Chat — em novembro de 2023. Contudo, foi somente na primavera seguinte que, com o lançamento da família de modelos DeepSeek-V2, a indústria de IA começou a prestar atenção.

O DeepSeek-V2, um sistema de análise de texto e imagem de uso geral, obteve desempenhos superiores em diversos benchmarks de IA e era consideravelmente mais barato de operar do que modelos comparáveis da época. Essa situação forçou a competição interna do DeepSeek, que inclui empresas como ByteDance e Alibaba, a reduzir os preços de uso de alguns de seus modelos e oferecer outros gratuitamente.

O DeepSeek-V3, lançado em dezembro de 2024, somente aumentou a notoriedade do DeepSeek.

De acordo com os testes internos de benchmark do DeepSeek, o DeepSeek V3 supera tanto modelos baixáveis e abertos, como o Llama da Meta, quanto modelos “fechados” que só podem ser acessados por meio de API, como o GPT-4 da OpenAI.

Outra inovação impressionante é o modelo R1 de “raciocínio”. Lançado em janeiro, o DeepSeek afirma que o R1 apresenta desempenho comparável ao modelo o1 da OpenAI em benchmarks essenciais.

Por se tratar de um modelo de raciocínio, o R1 realiza autoavaliações, o que o ajuda a evitar algumas armadilhas que normalmente afetam outros modelos. Os modelos de raciocínio tendem a levar um pouco mais de tempo — geralmente de segundos a minutos a mais — para chegar a soluções em comparação a um modelo típico. A vantagem é que costumam ser mais confiáveis em domínios como física, ciência e matemática.

Entretanto, há desvantagens nos modelos R1, DeepSeek V3 e nos demais modelos da empresa. Por serem desenvolvidos na China, estão sujeitos à avaliação da agência reguladora de internet do país para garantir que suas respostas “incorporem valores socialistas centrais.” Por exemplo, no aplicativo de chatbot da DeepSeek, o R1 se recusa a responder perguntas sobre a Praça da Paz Celestial ou a autonomia de Taiwan.

Uma Abordagem Disruptiva

Se o DeepSeek tem um modelo de negócios, não está claro qual é exatamente. A empresa precifica seus produtos e serviços bem abaixo do valor de mercado — e oferece alguns gratuitamente. Além disso, não está aceitando dinheiro de investidores, mesmo com um grande interesse de capital de risco.

Segundo a empresa, inovações em eficiência permitiram que ela mantivesse uma competitividade de custo extrema. Entretanto, alguns especialistas contestam os números apresentados pela empresa.

Independentemente do caso, desenvolvedores têm adotado os modelos do DeepSeek, que, embora não sejam open source no sentido comum da expressão, estão disponíveis sob licenças permissivas que permitem uso comercial. De acordo com Clem Delangue, CEO da Hugging Face, uma das plataformas que hospeda os modelos do DeepSeek, desenvolvedores na Hugging Face criaram mais de 500 modelos “derivativos” do R1, totalizando 2,5 milhões de downloads.

O sucesso do DeepSeek contra concorrentes maiores e mais estabelecidos foi descrito como “revolucionando a IA” e “over-hyped.” O êxito da empresa foi, em certa medida, responsável pela queda de 18% no preço das ações da Nvidia em janeiro, além de provocar uma resposta pública do CEO da OpenAI, Sam Altman.

A Microsoft anunciou que o DeepSeek está disponível em seu serviço Azure AI Foundry, a plataforma da Microsoft que reúne serviços de IA para empresas sob uma única bandeira. Quando questionado sobre o impacto do DeepSeek nos gastos em IA da Meta durante a chamada de resultados do primeiro trimestre, o CEO Mark Zuckerberg afirmou que os gastos em infraestrutura de IA continuarão sendo uma “vantagem estratégica” para a Meta. Em março, a OpenAI rotulou o DeepSeek como “subsidiado pelo Estado” e “controlado pelo Estado”, recomendando que o governo dos EUA considere proibir modelos da DeepSeek.

Durante a chamada de resultados do quarto trimestre da Nvidia, o CEO Jensen Huang enfatizou a “excelente inovação” do DeepSeek, afirmando que ele e outros “modelos de raciocínio” são ótimos para a Nvidia, pois exigem muito mais capacidade computacional.

Ao mesmo tempo, algumas empresas estão proibindo o uso do DeepSeek, assim como países inteiros e governos, incluindo a Coreia do Sul. O estado de Nova York também baniu o uso do DeepSeek em dispositivos governamentais.

Quanto ao futuro do DeepSeek, ainda é incerto. Modelos aprimorados são uma certeza, mas o governo dos EUA parece estar se tornando cauteloso em relação ao que percebe como influência estrangeira prejudicial. Em março, o The Wall Street Journal noticiou que os EUA provavelmente baniriam o DeepSeek em dispositivos governamentais.

Esta história foi originalmente publicada em 28 de janeiro de 2025 e será atualizada regularmente.