O Deepseek da China tem algumas grandes reivindicações de IA; Nem todos os especialistas estão convencidos

A empresa de inteligência artificial chinesa Deepseek abalou os mercados nesta semana, com as reivindicações que seu novo modelo de IA supera o OpenAI’s e custa uma fração do preço a ser construído.

As afirmações – especificamente que o grande modelo de idioma da Deepseek custam apenas US $ 5,6 milhões para treinar – despertaram preocupações com as somas oculares que os gigantes da tecnologia estão gastando atualmente em infraestrutura de computação necessária para treinar e executar cargas de trabalho avançadas de IA.

Mas nem todo mundo está convencido pelas reivindicações de Deepseek.

A CNBC pediu aos especialistas do setor suas opiniões sobre o Deepseek e como ele realmente se compara ao Openai, criador do chatbot viral chatgpt, que provocou a revolução da IA.

O que é Deepseek?

Na semana passada, Deepseek lançou R1, seu Novo modelo de raciocínio que rivaliza com o O1 Open. Um modelo de raciocínio é um grande modelo de linguagem que decompõe solicita peças menores e considera várias abordagens antes de gerar uma resposta. Ele foi projetado para processar problemas complexos de maneira semelhante aos humanos.

A Deepseek foi fundada em 2023 por Liang Wenfeng, co-fundadora do fundo de hedge quantitativo focado na IA, para se concentrar em grandes modelos de idiomas e alcançar a inteligência geral artificial, ou AGI.

A AGI como conceito refere -se vagamente à idéia de uma IA que é igual ou supera o intelecto humano em uma ampla gama de tarefas.

Grande parte da tecnologia por trás do R1 não é nova. O que é notável, no entanto, é que o DeepSeek é o primeiro a implantá-lo em um modelo de IA de alto desempenho com-de acordo com a empresa-reduções consideráveis nos requisitos de energia.

“O argumento é que existem muitas possibilidades para desenvolver esse setor. A maneira intensiva de chip/capital de ponta é uma abordagem tecnológica”, disse Xiaomeng Lu, diretor da prática de geo-technologia do Eurasia Group.

“Mas o Deepseek prova que ainda estamos no estágio inicial do desenvolvimento da IA e o caminho estabelecido pelo OpenAI pode não ser o único caminho para a IA altamente capaz”.

Como é diferente do Openai?

A Deepseek possui dois sistemas principais que obtiveram zumbido da comunidade de IA: V3, o grande modelo de idioma que desmaiam seus produtos e R1, seu modelo de raciocínio.

Ambos os modelos são de código aberto, o que significa que seu código subjacente está gratuito e disponível publicamente para que outros desenvolvedores personalizem e redistribuam.

Os modelos da Deepseek são muito menores do que muitos outros modelos de idiomas grandes. A V3 possui um total de 671 bilhões de parâmetros ou variáveis que o modelo aprende durante o treinamento. E embora o OpenAI não divulgue parâmetros, os especialistas estimam seu mais recente modelo para ter pelo menos um trilhão.

Em termos de desempenho, Deepseek diz Seu modelo R1 atinge o desempenho comparável às O1 Open do OpenAI nas tarefas de raciocínio, citando benchmarks, incluindo Aime 2024, Codeforces, GPQA Diamond, Math-500, MMLU e SWE-banch.

Comparando Deepseek, OpenAl on Price

Deepseek e OpenAI divulgam preços para os cálculos de seus modelos em seus sites.

Deepseek diz que o R1 custa 55 centavos por 1 milhão de tokens de insumos – “tokens”, referindo -se a cada unidade individual de texto processada pelo modelo – e US $ 2,19 por 1 milhão de tokens de produção.

Em comparação, a página de preços da OpenAI para O1 mostra a empresa cobra US $ 15 por 1 milhão de tokens de entrada e US $ 60 por 1 milhão de tokens de produção. Para o GPT-4O Mini, o modelo de linguagem menor e de baixo custo do OpenAI, a empresa cobra 15 centavos por 1 milhão de tokens de entrada.

Ceticismo sobre chips

A revelação de R1 de Deepseek já levou a um debate público acalorado sobre a veracidade de sua reivindicação – principalmente porque seus modelos foram construídos, apesar dos controles de exportação dos EUA que restringem o uso de chips avançados de IA para a China.

A Deepseek afirma que teve seu avanço usando clipes maduros da NVIDIA, incluindo chips H800 e A100, que são menos avançados do que os H100s de ponta do chipmaker, que não podem ser exportados para a China.

No entanto, em Comentários à CNBC Na semana passada, o CEO da AI Alexandr Wang, que acreditava que a Deepseek usou os chips proibidos – uma alegação que Deepseek nega.

Desde então, a NVIDIA saiu e disse que as GPUs usadas por Deepseek estavam totalmente compatíveis com exportação.

O verdadeiro negócio ou não?

Os especialistas do setor parecem concordar amplamente que o que o Deepseek alcançou é impressionante, embora alguns tenham exortado o ceticismo em relação a algumas das reivindicações da empresa chinesa.

“Deepseek é legitimamente impressionante, mas o nível de histeria é uma acusação de tantos”, escreveu o empresário dos EUA Palmer Luckey, que fundou Oculus e Anduril no X.

“O número de US $ 5 milhões é falso. Ele é empurrado por um fundo de hedge chinês para retardar o investimento em startups americanas de IA, atender seus próprios shorts contra titãs americanos como a Nvidia e ocultar a evasão de sanções”.

Seeda Rejal, diretor comercial da Netmind, uma startup com sede em Londres que oferece acesso aos modelos de IA da Deepseek por meio de uma rede de GPU distribuída, disse que não viu motivos para não acreditar no DeepSeek.

“Mesmo que seja desativado por um certo fator, ele ainda está chegando bastante eficiente”, disse Rejal à CNBC em uma entrevista por telefone no início desta semana. “A lógica do que eles explicaram é muito sensata”.

No entanto, alguns afirmaram que a tecnologia da Deepseek pode não ter sido construída do zero.

“Deepseek comete os mesmos erros que O1 comete, uma forte indicação de que a tecnologia foi arrancada”, disse o investidor bilionário Vinod Khosla no X, sem dar mais detalhes.

É uma alegação de que o próprio OpenAI se aludiu, dizendo à CNBC em comunicado quarta -feira que está revisando os relatórios que a DeepSeek pode ter “inadequadamente” dados de saída usados de seus modelos para desenvolver seu modelo de IA, um método referido como “destilação”.

“Tomamos contramedidas agressivas e proativas para proteger nossa tecnologia e continuaremos trabalhando em estreita colaboração com o governo dos EUA para proteger os modelos mais capazes que estão sendo construídos aqui”, disse um porta -voz do Openai à CNBC.

Comoditização da IA

No entanto, o escrutínio em torno de Deepseek sacode, os cientistas da IA concordam amplamente que marca um passo positivo para a indústria.

Yann Lecun, cientista -chefe da IA em Metadisse que o sucesso de Deepseek representou uma vitória para os modelos de IA de código aberto, não necessariamente uma vitória para a China pela meta dos EUA está por trás de um popular modelo de IA de código aberto chamado Llama.

“Para as pessoas que veem o desempenho da Deepseek e pensam: ‘A China está superando os EUA na IA’. Você está lendo este errado.

“Deepseek lucrou com pesquisas abertas e código aberto (por exemplo, Pytorch e Llama da Meta). Eles tiveram novas idéias e as construíram além do trabalho de outras pessoas. Como seu trabalho é publicado e de código aberto, todos podem lucrar com isso. Esse é o poder da pesquisa aberta e de código aberto “.