Por que o DeepSeek tá causando

Salve, moçada, na paz? Por aqui tá ok, tirando que eu tomei um capote ontem passeando com minhas cachorras na chuva. Pisei na porra de um musgo que obliterou a aderência da sola do meu tênis, e lá foi um corpo estendido no chão. Caí em câmera lenta, mas tá tudo bem, só ralei o pé.

Vocês podem notar que eu não falei muito ainda de inteligência artificial nessa newsletter. Eu quero falar de coisas úteis pro dia a dia e, embora IA seja bem útil, existe uma saturação grande de conteúdo desse assunto por aí, especialmente conteúdo artificial ou forçado. Por isso evitei até agora.

Porém, nessa edição #12, vamos falar de DeepSeek, a ferramenta de inteligência artificial desenvolvida por uma empresa chinesa que está causando alvoroço nos EUA e no mercado de IA.

O formato vai ser mais no modelo de perguntas e respostas do que o narrativo que geralmente uso aqui.

1 - O que é DeepSeek?

DeepSeek é uma ferramenta de inteligência artificial, de uma empresa chinesa homônima, muito similar ao que faz o ChatGPT e outros apps semelhantes, como Claude, Perplexity, CoPilot entre outros.

A interface da DeepSeek, inclusive, é vergonhosamente similar à do ChatGPT.

2- Por que a DeepSeek está causando nos EUA?

Há muitas nuances nessa resposta, mas é possível dizer que a DeepSeek alega ter conseguido construir um grande modelo de linguagem (LLM) de alta performance, chamado R1, a um valor muito inferior a de seus concorrentes nos EUA.

Para muitos, isso representa um potencial de disrupção da dominância norte-americana nesse setor e pontua um considerável avanço tecnológico da China, apesar de limitações de importação de chips de processamento impostas pelo governo dos EUA, além de reduzir a barreira de entrada de novos entrantes nesse mercado.

Além de tudo, o R1 é de código aberto – ou seja, pode ser usado por qualquer um em sua totalidade, sem pagar nada para DeepSeek.

Pra você ver: há motivos concorrenciais, geopolíticos e comerciais envolvidos.

3 - Quão mais barato é o modelo DeepSeek R1?

Até agora, a estimativa é de que a criação de um grande modelo de linguagem de ponta (como o1, da OpenAI; Claude 3.5 Sonnet, da Anthropic; ou Llama 3, da Meta) custe dezenas de milhões de dólares, muitas vezes ultrapassando a marca de US$100 milhões.

A DeepSeek alega ter desenvolvido seu mais recente modelo de raciocínio, o R1, com um investimento de US$5,57 milhões.

4 - Como assim mais de US$100 milhões?

No desenvolvimento de modelos de IA são considerados coisas como custo de processamento, infraestrutura de nuvem (tipo memória e armazenamento), consumo de energia e salários de engenheiros, cientistas da computação e pesquisadores.

No entanto, há uma compreensão geral do setor de que um dos maiores custos é com GPUs, chips especiais de processamento amplamente utilizados no setor de IA por conta de sua eficiência. Um único chip top de linha H100 da Nvidia, por exemplo, pode custar até US$40.000 (R$235.000).

A Meta, por exemplo, planeja investir na ordem de US$60 bilhões para comprar centenas de milhares de H100s, construir um mega datacenter e treinar seus modelos de IA. Já a Microsoft planeja investir coisa de US$80 bilhões, enquanto a Star Gate, iniciativa liderada pela OpenAI, que gastar US$500 bilhões em quatro anos para construir esse tipo de infraestrutura.

Na segunda-feira (27.jan), por causa da DeepSeek, as ações da NVIDIA na Nasdaq perderam US$600 bilhões em valor de mercado, a maior queda nominal em um dia na história da bolsa de valores dos EUA.

5 - Como a DeepSeek conseguiu isso?

Se acreditamos no valor declarado pela DeepSeek (algumas pessoas questionam), a empresa conseguiu isso utilizando chips H800 da Nvidia, que, embora excelentes, são mais antigos e menos potentes. Seu preço nos EUA é na faixa de US$20.000, metade da H100, mas na China pode custar mais até US$70.000, por conta especialmente do bloqueio que o governo dos EUA aplica a exportações de chips para o país.

6 - Dá pra confiar no valor anunciado pela DeepSeek?

Não dá pra confiar em nenhum valor, nem nos de outras empresas. Cada um é responsável por anunciar o valor que quiser e não há muita informação pública para corroborar.

Em seu white paper explicando seu método, a DeepSeek considerou apenas horas de processamento de GPUs, não incluindo outros critérios de custo.

A própria empresa admite isso: “Observe que os custos mencionados incluem apenas o treinamento oficial do DeepSeek-V3, excluindo os custos associados a pesquisas anteriores e experimentos de ablação em arquiteturas, algoritmos ou dados”, diz o white paper.

7 - DeepSeek é melhor do que ChatGPT?

Depende.

Ainda é precisa ter testes melhores. O Mashable apontou que há estimativas de que o ChatGPT seja melhor em resultados conversacionais, criativos e relacionados a eventos do mundo real, ao passo que a DeepSeek aparenta ser melhor em coisas mais técnicas, como programação, lógica e matemática.

Vale notar que o modelo R1 da DeepSeek, seu mais moderno, ainda pode alucinar tal como qualquer outra IA.

Por outro lado, a DeepSeek por enquanto é completamente gratuito, ao passo que a OpenAI custa mais de R$100 por mês pela versão premium. Isso é o suficiente para ser considerado “melhor” por muitas pessoas.

8 - Percepções do Sérgio

A DeepSeek não é uma ferramenta excepcionalmente diferente de outras ferramentas de ponta no mercado de IA generativa. Mas é isso que a torna especial: ela conseguiu chegar no topo e competir com as empresas líderes do mercado em qualidade.

No Núcleo, já cancelamos nossa assinatura mensal de ChatGPT Plus para migrar para essa ferramenta (se for o caso voltamos depois). Eu, pessoalmente, continuo com minha assinatura do chatbot Claude, que ainda é o melhor para mim como aplicativo.

Uma coisa legal que a DeepSeek faz é mostrar o fluxo de “pensamento” da inteligência artificial, algo que eu nunca vi nenhuma outra ferramenta fazer. Isso significa que podemos ver como essa IA está funcionando em baixo do capô, o que é fascinante.

A disputa pela liderança desse mercado, tanto tecnologicamente quanto comercialmente, ainda vai muito longe, e não dá pra dizer que uma empresa chinesa vai ganhar. Mas que está assustando os americanos e seus investimentos bilionários, não tenho dúvida.