MediaTalks em UOL

DeepSeek: como uma pequena empresa chinesa de IA está abalando os gigantes da tecnologia dos EUA

DeepSeek em smartphone

Foto:

A empresa chinesa de inteligência artificial (IA) DeepSeek causou impacto na comunidade tecnológica com o lançamento de modelos de IA extremamente eficientes que podem competir com produtos de ponta de empresas americanas como OpenAI e Anthropic.

Fundada em 2023, a DeepSeek alcançou seus resultados com uma fração do dinheiro e do poder de computação de seus concorrentes.

O modelo R1 de “raciocínio” da DeepSeek, lançado na semana passada, provocou entusiasmo entre pesquisadores, choque entre investidores e respostas de pesos pesados ​​da IA. A empresa deu continuidade em 28 de janeiro com um modelo que pode trabalhar com imagens e também com texto.

 

Então, o que a DeepSeek fez e como fez?

Os lançamentos da DeepSeek 

Em dezembro, a DeepSeek lançou seu modelo V3 . Este é um modelo de linguagem grande “padrão” muito poderoso que tem desempenho similar ao GPT-4o da OpenAI e ao Claude 3.5 da Anthropic.

Embora esses modelos sejam propensos a erros e às vezes inventem seus próprios fatos , eles podem realizar tarefas como responder perguntas, escrever ensaios e gerar código de computador. Em alguns testes de resolução de problemas e raciocínio matemático, eles pontuam melhor do que o humano médio.

O V3 foi treinado a um custo relatado de cerca de US$ 5,58 milhões. Isso é significativamente mais barato do que o GPT-4, por exemplo, que custou mais de US$ 100 milhões para ser desenvolvido.

A DeepSeek também afirma ter treinado o V3 usando cerca de 2 mil chips de computador especializados, especificamente GPUs H800 feitas pela NVIDIA . Isso é novamente muito menos do que outras empresas, que podem ter usado até 16 mil  dos chips H100 mais poderosos.

Em 20 de janeiro, a DeepSeek lançou outro modelo, chamado R1 . Trata-se de um modelo chamado de “raciocínio”, que tenta resolver problemas complexos passo a passo.

Esses modelos parecem ser melhores em muitas tarefas que exigem contexto e têm várias partes inter-relacionadas, como compreensão de leitura e planejamento estratégico.

O modelo R1 é uma versão ajustada do V3, modificada com uma técnica chamada aprendizado por reforço. O R1 parece funcionar em um nível similar ao o1 da OpenAI , lançado no ano passado.

A DeepSeek também usou a mesma técnica para criar versões de “raciocínio” de pequenos modelos de código aberto que podem ser executados em computadores domésticos.

Este lançamento despertou um enorme aumento de interesse na DeepSeek, aumentando a popularidade de seu aplicativo de chatbot com tecnologia V3 e desencadeando uma queda massiva de preços em ações de tecnologia, à medida que os investidores reavaliam a indústria de IA.

No momento em que este artigo foi escrito, a fabricante de chips NVIDIA perdeu cerca de US$ 600 bilhões em valor.

Como a DeepSeek fez isso

Os avanços da DeepSeek foram em atingir maior eficiência: obter bons resultados com menos recursos. Em particular, os desenvolvedores foram pioneiros em duas técnicas que podem ser adotadas por pesquisadores de IA de forma mais ampla.

O primeiro tem a ver com uma ideia matemática chamada “esparsidade”. Os modelos de IA têm muitos parâmetros que determinam suas respostas a entradas (V3 tem cerca de 671 bilhões), mas apenas uma pequena fração desses parâmetros é usada para qualquer entrada dada.

No entanto, prever quais parâmetros serão necessários não é fácil. A DeepSeek usou uma nova técnica para fazer isso e, então, treinou apenas esses parâmetros. Como resultado, seus modelos precisaram de muito menos treinamento do que uma abordagem convencional.

O outro truque tem a ver com como o V3 armazena informações na memória do computador. A DeepSeek encontrou uma maneira inteligente de compactar os dados relevantes, para que seja mais fácil armazená-los e acessá-los rapidamente.

O que significa o lançamento

Os modelos e técnicas do DeepSeek foram lançados sob a licença gratuita do MIT , o que significa que qualquer pessoa pode baixá-los e modificá-los.

Embora isso possa ser uma má notícia para algumas empresas de IA — cujos lucros podem ser corroídos pela existência de modelos poderosos e disponíveis gratuitamente — é uma ótima notícia para a comunidade de pesquisa em IA.

Atualmente, muitas pesquisas exigem acesso a enormes quantidades de recursos de computação. Pesquisadores como eu, que estão baseados em universidades (ou em qualquer lugar, exceto grandes empresas de tecnologia), têm tido capacidade limitada para realizar testes e experimentos.

Modelos e técnicas mais eficientes mudam a situação. Experimentação e desenvolvimento podem agora ser significativamente mais fáceis para nós.

Para os consumidores, o acesso à IA também pode ficar mais barato. Mais modelos de IA podem ser executados nos próprios dispositivos dos usuários, como laptops ou telefones, em vez de serem executados “na nuvem” mediante pagamento de assinatura.

Para pesquisadores que já têm muitos recursos, mais eficiência pode ter menos efeito. Não está claro se a abordagem da DeepSeek ajudará a fazer modelos com melhor desempenho geral ou simplesmente modelos mais eficientes.


Este artigo foi publicado originalmente no portal acadêmico The Conversation e é republicado aqui sob licença Creative Commons. 


Sair da versão mobile