A empresa de inteligência artificial chinesa (AI), Deepseek, enviou ondas de choque através da comunidade de tecnologia , com o lançamento de modelos de IA extremamente eficientes que podem competir com produtos de ponta de empresas americanas, como OpenAi e Antrópico.
Fundada em 2023, a Deepseek alcançou seus resultados com uma fração do dinheiro e do poder de computação de seus concorrentes.
O modelo R1 "raciocínio" de Deepseek, lançado na semana passada, provocou excitação entre pesquisadores, choques entre investidores e respostas dos pesos pesados da IA. A empresa acompanhou em 28 de janeiro com um modelo que pode funcionar com imagens e texto.
O R1 da Deepseek é um modelo impressionante, principalmente sobre o que eles podem entregar pelo preço.
- Sam Altman (@sama) 28 de janeiro de 2025
Obviamente, forneceremos modelos muito melhores e também é legítimo revigorante ter um novo concorrente! Vamos puxar alguns lançamentos.
Então, o que Deepseek fez e como isso fez isso?
O que Deepseek fez
Em dezembro, a Deepseek lançou seu modelo V3 . Este é um modelo de linguagem grande "padrão" muito poderoso que funciona em um nível semelhante ao GPT-4O do OpenAI e ao Claude 3.5 do Anthropic.
Embora esses modelos estejam propensos a erros e às vezes compensam seus próprios fatos , eles podem realizar tarefas como responder perguntas, escrever ensaios e gerar código de computador. Em alguns testes de resolução de problemas e raciocínio matemático, eles pontuam melhor do que o humano médio.
A V3 foi treinada a um custo relatado de cerca de US $ 5,58 milhões. Isso é dramaticamente mais barato que o GPT-4, por exemplo, que custou mais de US $ 100 milhões para se desenvolver.
A Deepseek também afirma ter treinado V3 usando cerca de 2.000 chips de computador especializados, especificamente as GPUs H800 feitas pela NVIDIA . Isso é novamente muito menor que outras empresas, que podem ter usado até 16.000 dos chips H100 mais poderosos.
Em 20 de janeiro, a Deepseek lançou outro modelo, chamado R1 . Este é o chamado modelo de "raciocínio", que tenta resolver problemas complexos passo a passo. Esses modelos parecem ser melhores em muitas tarefas que exigem contexto e têm várias peças inter -relacionadas, como compreensão de leitura e planejamento estratégico.
O modelo R1 é uma versão ajustada do V3, modificada com uma técnica chamada aprendizado de reforço. R1 parece funcionar em um nível semelhante ao O1 Open , lançado no ano passado.
A Deepseek também usou a mesma técnica para fazer versões de "raciocínio" de pequenos modelos de código aberto que podem ser executados em computadores domésticos.
Este lançamento provocou uma enorme onda de interesse na Deepseek, aumentando a popularidade de seu aplicativo de chatbot movido a V3 e desencadeando uma enorme queda de preços nos estoques de tecnologia, à medida que os investidores reavaliam a indústria da IA. No momento da redação .
Como o Deepseek fez isso
Os avanços da Deepseek têm sido para alcançar maior eficiência: obtendo bons resultados com menos recursos. Em particular, os desenvolvedores da Deepseek foram pioneiros em duas técnicas que podem ser adotadas pelos pesquisadores da IA de maneira mais ampla.
O primeiro tem a ver com uma idéia matemática chamada "Sparsity". Os modelos de IA têm muitos parâmetros que determinam suas respostas às entradas (a V3 tem cerca de 671 bilhões), mas apenas uma pequena fração desses parâmetros é usada para qualquer entrada.
No entanto, prever quais parâmetros serão necessários não é fácil. A Deepseek usou uma nova técnica para fazer isso e, em seguida, treinou apenas esses parâmetros. Como resultado, seus modelos precisavam de muito menos treinamento do que uma abordagem convencional.
O outro truque tem a ver com a forma como o V3 armazena informações na memória do computador. O Deepseek encontrou uma maneira inteligente de comprimir os dados relevantes, por isso é mais fácil armazenar e acessar rapidamente.
O que isso significa
Os modelos e técnicas da Deepseek foram lançados sob a licença do MIT , o que significa que qualquer pessoa pode baixar e modificá -los.
Conteúdo de nossos parceiros
Embora isso possa ser uma má notícia para algumas empresas de IA - cujos lucros podem ser corroídos pela existência de modelos poderosos e disponíveis gratuitamente - são ótimas notícias para a comunidade de pesquisa de IA mais ampla.
Atualmente, muita pesquisa de IA requer acesso a enormes quantidades de recursos de computação. Pesquisadores como eu, baseados em universidades (ou em qualquer lugar, exceto grandes empresas de tecnologia), tiveram capacidade limitada de realizar testes e experimentos.
Modelos e técnicas mais eficientes mudam a situação. A experimentação e o desenvolvimento agora podem ser significativamente mais fáceis para nós.
Para os consumidores, o acesso à IA também pode se tornar mais barato. Mais modelos de IA podem ser executados nos próprios dispositivos dos usuários, como laptops ou telefones, em vez de executar "na nuvem" por uma taxa de assinatura.
Para pesquisadores que já têm muitos recursos, mais eficiência podem ter menos efeito. Não está claro se a abordagem da Deepseek ajudará a tornar modelos com melhor desempenho em geral, ou simplesmente modelos que são mais eficientes.
Tongliang Liu, professor associado de aprendizado de máquina e diretor do Sydney AI Center, Universidade de Sydney
Este artigo é republicado da conversa sob uma licença Creative Commons. Leia o artigo original .