O novo Modelo de Linguagem de Grandes Linguagem (LLM) da China interrompeu o mercado dominado pelos EUA , oferecendo um modelo de chatbot relativamente de alto desempenho a um custo significativamente menor.
O custo reduzido de desenvolvimento e os preços mais baixos de assinatura em comparação com as ferramentas de IA dos EUA contribuíram para a fabricante de chips americana Nvidia perdendo US $ 600 bilhões (£ 480 bilhões) em valor de mercado em um dia. A NVIDIA faz com que os chips de computador usados para treinar a maioria dos LLMs, a tecnologia subjacente usada no ChatGPT e em outros chatbots da IA. O Deepseek usa chips NVIDIA H800 mais baratos sobre as versões de última geração mais caras.
O desenvolvedor do ChatGPT OpenAi supostamente gastou entre US $ 100 milhões e US $ 1 bilhão no desenvolvimento de uma versão muito recente de seu produto chamado O1. Por outro lado, a DeepSeek realizou seu treinamento em apenas dois meses a um custo de US $ 5,6 milhões usando uma série de inovações inteligentes.
Mas quão bem o AI Chatbot de Deepseek, R1, compara com outras ferramentas de AI semelhantes sobre o desempenho?
Deepseek afirma que seus modelos têm um desempenho comparável às ofertas da OpenAI, até excedendo o modelo O1 em determinados testes de referência. No entanto, os benchmarks que usam testes maciços de entendimento de linguagem múltipla (MMLU) avaliam o conhecimento em vários assuntos usando questões de múltipla escolha. Muitos LLMs são treinados e otimizados para esses testes, tornando-os não confiáveis como indicadores verdadeiros do desempenho do mundo real.
Uma metodologia alternativa para a avaliação objetiva do LLMS usa um conjunto de testes desenvolvidos por pesquisadores nas universidades de Cardiff Metropolitan, Bristol e Cardiff - conhecidas coletivamente como Grupo de Observação do Conhecimento (KOG). Esses testes investigam a capacidade da LLMS de imitar a linguagem humana e o conhecimento por meio de perguntas que exigem um entendimento humano implícito para responder. Os principais testes são mantidos em segredo, para evitar empresas de LLM treinando seus modelos para esses testes.
A KOG implantou testes públicos inspirados no trabalho de Colin Fraser, um cientista de dados da Meta , para avaliar o DeepSeek contra outros LLMs. Os seguintes resultados foram observados:
Os testes usados para produzir esta tabela são de natureza "adversária". Em outras palavras, eles são projetados para serem "difíceis" e para testar os LLMs de maneira que não simpatize com a forma como são projetados. Isso significa que o desempenho desses modelos nesse teste provavelmente será diferente do seu desempenho nos testes de benchmarking convencionais.
O Deepseek marcou 5,5 de 6, superando o modelo O1 do OpenAI-seu raciocínio avançado (conhecido como “cadeia de pensamento”)-bem como o ChatGPT-4O, a versão gratuita do ChatGPT. Mas o Deepseek foi superado marginalmente superado pelos Mini O1 do Anthropic Claudai e do Openai, ambos, os que obtiveram 6/6 perfeitos. É interessante que o O1 tenha um desempenho inferior ao seu homólogo "menor", O1 Mini.
DeepThink R1-uma ferramenta de IA da cadeia de pensamento feita pela Deepseek-com um desempenho inferior em comparação com a DeepSeek com uma pontuação de 3,5.
Esse resultado mostra como o Chatbot de Deepseek já competitivo já é, vencendo os modelos principais do Openai. É provável que estimule mais desenvolvimento da Deepseek, que agora tem uma base forte para se basear. No entanto, a empresa de tecnologia chinesa tem um problema sério que os outros LLMs não têm: censura.
Desafios de censura
Apesar de seu forte desempenho e popularidade, a Deepseek enfrentou críticas sobre suas respostas a tópicos politicamente sensíveis na China. Por exemplo, os avisos relacionados à Praça Tiananmen, Taiwan, muçulmanos uyghur e movimentos democráticos são recebidos com a resposta: "Desculpe, isso está além do meu escopo atual".
Mas essa questão não é necessariamente exclusiva da Venda Deeping, e o potencial de influência política e censura no LLMS é mais geralmente uma preocupação crescente. projeto Stargate LLM de US $ 500 bilhões de Donald Trump , envolvendo o Openai, Nvidia, Oracle, Microsoft e Arm, também levanta o medo de influência política.
Além disso, a recente decisão da Meta de abandonar a verificação de fatos no Facebook e o Instagram sugere uma tendência crescente em relação ao populismo sobre a veracidade.
Conteúdo de nossos parceiros
A chegada de Deepseek causou grave interrupção no mercado da LLM. Empresas americanas como OpenAI e Antrópica serão forçadas a inovar seus produtos para manter a relevância e combinar seu desempenho e custo.
O sucesso de Deepseek já está desafiando o status quo, demonstrando que os modelos LLM de alto desempenho podem ser desenvolvidos sem orçamentos de bilhões de dólares. Também destaca os riscos da censura do LLM, a disseminação de informações erradas e por que as avaliações independentes são importantes.
À medida que os LLMs se tornam mais profundamente incorporados na política e nos negócios globais, a transparência e a responsabilidade serão essenciais para garantir que o futuro do LLMS seja seguro, útil e confiável.
Simon Thorne, professor sênior de sistemas de computação e informação, Universidade Metropolitana de Cardiff
Este artigo é republicado da conversa sob uma licença Creative Commons. Leia o artigo original .