The China Academy – 27 de janeiro de 2025
O DeepSeek-R1 está sacudindo o Vale do Silício. Fundador Liang Wenfeng: "Não estamos mais seguindo. É hora de liderar".
Nota do editor:
O Vale do Silício está se recuperando. Uma mudança sísmica no domínio da IA está em andamento, e todos os olhos estão voltados para a China. Em janeiro de 2025, o DeepSeek-R1 – um modelo de inferência com código aberto da empresa chinesa de IA DeepSeek – causou um choque no mundo da tecnologia ao igualar o desempenho de alto nível da OpenAI a 1/30 do custo da API, tudo isso com total abertura.
Com apenas US$ 6 milhões, a China criou um dos melhores modelos de IA do mundo, superando os bilhões gastos pela Meta, Google e Microsoft. Os usuários globais – especialmente pessoas físicas e PMEs – já estão migrando para o DeepSeek-R1, treinando-o novamente como seu modelo básico.
Essa revolução liderada pelo Oriente está forçando um acerto de contas global: E se o futuro da IA não for forjado no Vale do Silício?
O artigo a seguir é a nossa tradução de uma entrevista de julho de 2024 com Liang Wenfeng, fundador da DeepSeek, originalmente conduzida pelo meio de comunicação chinês An Yong e publicada em chinês. A entrevista foi realizada pouco depois que o modelo V2 de código aberto da empresa a catapultou para a fama e revela como uma startup chinesa ousou ultrapassar os gigantes do setor e redefinir as regras de inovação.
![](https://sakerlatam.blog/wp-content/uploads/2025/02/word-image-25950-1.png)
Como foi disparado o primeiro tiro na guerra de preços?
An Yong (entrevistador): Após o lançamento do modelo DeepSeek V2, ele rapidamente desencadeou uma feroz guerra de preços no setor de modelos grandes. Há quem diga que o senhor é um agente de desestabilização do mercado.
Liang Wenfeng (fundador da DeepSeek): Nunca tivemos a intenção de ser um disruptor; isso aconteceu por acaso.
An Yong: Você ficou surpreso com esse resultado?
Liang Wenfeng: Muito surpreso. Não esperávamos que o preço fosse uma questão tão delicada. Estávamos simplesmente seguindo nosso próprio ritmo, calculando os custos e definindo os preços de acordo. Nosso princípio não é vender com prejuízo nem buscar lucros excessivos. O preço atual permite uma margem de lucro modesta acima de nossos custos.
An Yong: Cinco dias depois, a Zhipu AI seguiu o exemplo e, logo em seguida, a ByteDance, a Alibaba, a Baidu e a Tencent entraram na corrida.
Liang Wenfeng: A Zhipu AI reduziu os preços de um produto de nível básico, enquanto seus principais modelos continuam caros. A ByteDance foi a primeira a realmente igualar nosso preço para um modelo principal, o que pressionou outras empresas a seguirem o exemplo. Como as grandes empresas têm custos de modelo muito mais altos do que nós, nunca imaginamos que alguém operaria com prejuízo. Isso acabou espelhando a lógica da era da Internet, que era movida a subsídios.
An Yong: Do ponto de vista de quem está de fora, os cortes de preços parecem ser uma tática para atrair usuários, típica da concorrência da era da Internet.
Liang Wenfeng: Conquistar usuários não era nosso objetivo principal. Reduzimos os preços porque, em primeiro lugar, ao explorar estruturas de modelos de última geração, nossos custos diminuíram; em segundo lugar, acreditamos que os serviços de IA e API devem ser econômicos e acessíveis a todos.
An Yong: Antes disso, a maioria das empresas chinesas simplesmente copiava a estrutura do modelo Llama para desenvolver aplicações. Por que vocês optaram por se concentrar na estrutura do modelo?
Liang Wenfeng: Se o objetivo for desenvolver aplicações, adotar a estrutura da Llama para lançar rapidamente um produto é uma escolha razoável. Entretanto, nosso objetivo é a AGI (Artificial General Intelligence, Inteligência Artificial Geral), o que exige que exploremos novas estruturas de modelos para obter caracteristicas superiores com recursos limitados. Essa é uma pesquisa fundamental para o aumento de escala. Além da arquitetura, estudamos a curadoria de dados e o raciocínio semelhante ao humano – tudo isso se reflete em nossos modelos. Além disso, a eficiência do treinamento e os custos de inferência da Llama estão defasados em relação aos padrões globais de ponta em cerca de duas gerações.
An Yong: De onde vem essa lacuna geracional?
Liang Wenfeng: Primeiro, há uma lacuna na eficiência do treinamento. Estimamos que os melhores modelos da China provavelmente exigem o dobro da potência de computação para se equiparar aos principais modelos globais devido a lacunas estruturais e de dinâmica de treinamento. A eficiência dos dados também é metade da eficácia, o que significa que precisamos do dobro de dados e computação para obter resultados equivalentes. Combinados, são quatro vezes mais recursos. Nosso objetivo é reduzir continuamente essas lacunas.
An Yong: A maioria das empresas chinesas busca tanto modelos quanto aplicações. Por que a DeepSeek está se concentrando apenas em pesquisa?
Liang Wenfeng: Porque acreditamos que o mais importante no momento é participar da inovação global. Há anos, as empresas chinesas estão acostumadas a aproveitar inovações tecnológicas desenvolvidas em outros lugares e monetizá-las por meio de aplicações. Mas isso não é sustentável. Desta vez, nossa meta não é obter lucros rápidos, mas avançar a fronteira tecnológica para impulsionar o crescimento do ecossistema.
An Yong: A crença predominante nas eras da Internet e da Internet móvel é que os EUA lideram em inovação, enquanto a China se destaca em aplicações.
Liang Wenfeng: Acreditamos que, com o desenvolvimento econômico, a China deve fazer uma transição gradual de beneficiária para contribuinte, em vez de continuar a se aproveitar dos outros. Nos últimos 30 anos da revolução de TI, mal participamos da inovação tecnológica principal.
Nós nos acostumamos com a Lei de Moore “caindo do céu”, esperando 18 meses por hardware e software melhores. A Lei de Escalonamento é tratada de forma semelhante. Entretanto, esses avanços são o resultado de gerações de esforços incansáveis das comunidades de tecnologia lideradas pelo Ocidente. Como não participamos ativamente desse processo, acabamos ignorando sua importância.
A verdadeira diferença está na originalidade, não apenas no tempo
An Yong: Por que o DeepSeek V2 surpreendeu muitas pessoas no Vale do Silício?
Liang Wenfeng: Entre as inovações diárias nos EUA, isso é bastante comum. A surpresa deles decorre do fato de ver uma empresa chinesa entrar no jogo como inovadora, e não apenas como seguidora – que é o que a maioria das empresas chinesas está acostumada a fazer.
An Yong: Mas no contexto da China, priorizar a inovação pura parece quase um luxo. O desenvolvimento de grandes modelos exige muito capital. Nem toda empresa pode se dar ao luxo de se concentrar apenas em pesquisa sem comercializar primeiro.
Liang Wenfeng: A inovação é, sem dúvida, cara, e nossa tendência passada de adotar tecnologias existentes estava ligada ao estágio anterior de desenvolvimento da China. Mas hoje, a escala econômica da China e os lucros de gigantes como a ByteDance e a Tencent são globalmente significativos. O que nos falta não é capital, mas confiança e a capacidade de organizar talentos de alto calibre para uma inovação eficaz.
An Yong: Por que as empresas chinesas, mesmo as gigantes bem financiadas, geralmente priorizam a comercialização rápida?
Liang Wenfeng: Por três décadas, enfatizamos o lucro em detrimento da inovação. A inovação não é puramente orientada para os negócios; ela exige curiosidade e ambição criativa. Estamos presos a velhos hábitos, mas essa é uma fase.
An Yong: Mas a DeepSeek é uma empresa, não um laboratório de pesquisa sem fins lucrativos. Se você inovar e abrir o código-fonte de suas descobertas – como a inovação da arquitetura MLA lançada em maio – os concorrentes não as copiarão rapidamente? Onde está sua trincheira?
Liang Wenfeng: Na tecnologia disruptiva, as trincheiras de código fechado são efêmeros. Nem mesmo o modelo de código fechado da OpenAI pode impedir que outros a alcancem.
Portanto, nossa verdadeiro trincheira está no crescimento de nossa equipe – acumulando know-how, promovendo uma cultura inovadora. A abertura de código e a publicação de artigos não resultam em perdas significativas. Para os tecnólogos, ser seguido é gratificante. O código aberto é cultural, não apenas comercial. Retribuir é uma honra e atrai talentos.
An Yong: Como você reage a pontos de vista orientados para o mercado, como os de Zhu Xiaohu (que defende a priorização da comercialização imediata em detrimento da pesquisa fundamental de IA e descarta a AGI como impraticável)?
Liang Wenfeng: A lógica de Zhu é adequada para empreendimentos lucrativos de curto prazo, mas as empresas americanas mais lucrativas e duradouras são gigantes da tecnologia construídas com base em P&D de longo prazo.
An Yong: Mas na IA, a liderança técnica pura não é suficiente. Em que objetivo maior a DeepSeek está apostando?
Liang Wenfeng: Acreditamos que a IA da China não pode continuar sendo uma seguidora para sempre. Muitas vezes, dizemos que há uma diferença de um ou dois anos entre a IA chinesa e a americana, mas a verdadeira diferença é entre originalidade e imitação. Se isso não mudar, a China sempre será uma seguidora. Algumas explorações são inevitáveis.
O domínio da NVIDIA não é apenas seu esforço – é o resultado da colaboração de ecossistemas tecnológicos ocidentais em roteiros para tecnologia de última geração. A China precisa de ecossistemas semelhantes. Muitos chips nacionais fracassam porque não contam com comunidades tecnológicas de apoio e dependem de percepções de segunda mão. Alguém precisa entrar na fronteira.
Mais investimento nem sempre gera mais inovação
An Yong: O DeepSeek atualmente exala uma vibração idealista que lembra os primeiros dias da OpenAI, e vocês são de código aberto. Vocês planejam fazer a transição para um modelo de código fechado no futuro, como fizeram a OpenAI e a Mistral?
Liang Wenfeng: Não adotaremos o código fechado. Acreditamos que o estabelecimento de um ecossistema tecnológico robusto é mais importante.
An Yong: Há planos de captação de recursos? Relatórios da mídia sugerem que a Huanfang [1] pretende agregar a DeepSeek para uma IPO. As startups de IA do Vale do Silício inevitavelmente se alinham com grandes empresas – você as seguirá?
Liang Wenfeng: Não há planos de curto prazo. Nosso desafio nunca foi o dinheiro; é o embargo aos chips de alta qualidade.
An Yong: Muitos argumentam que a AGI exige alianças ousadas e visibilidade, ao contrário do investimento quantitativo, que prospera em segredo. Você concorda?
Liang Wenfeng: Mais investimentos não resultam necessariamente em mais inovação. Se esse fosse o caso, as grandes empresas de tecnologia teriam monopolizado toda a inovação.
An Yong: Vocês estão evitando aplicações porque a DeepSeek não tem experiência operacional?
Liang Wenfeng: Acreditamos que o estágio atual é um período de inovação tecnológica, não de explosão de aplicações. No longo prazo, nosso objetivo é estabelecer um ecossistema em que o setor use diretamente nossas tecnologias e resultados. Outros desenvolvem serviços B2B/B2C em nossos modelos, enquanto nós nos concentramos na pesquisa fundamental. Se uma cadeia completa do setor for formada, não haverá necessidade de desenvolvermos aplicações nós mesmos. Dito isso, se necessário, temos plenas condições de fazê-lo. No entanto, a pesquisa e a inovação sempre continuarão sendo nossa principal prioridade.
An Yong: Por que os clientes escolheriam a API do DeepSeek em vez da dos grandes players?
Liang Wenfeng: O mundo futuro provavelmente será um mundo de divisão especializada do trabalho. Os modelos fundamentais de IA exigem inovação contínua, e as grandes empresas têm seus limites – elas nem sempre são as mais adequadas para essa função.
An Yong: Mas a tecnologia, por si só, pode criar uma lacuna competitiva significativa? Você disse que não há “segredos” absolutos.
Liang Wenfeng: Não existem segredos, mas a replicação exige tempo e custo. As GPUs da NVIDIA não têm magia oculta, mas para alcançá-las é necessário reconstruir equipes e perseguir sua tecnologia de última geração. Esse é o verdadeiro fosso.
An Yong: Depois de seus cortes de preços, a ByteDance foi a primeira a segui-lo, o que sugere que eles se sentiram ameaçados. Como você vê o novo cenário competitivo entre startups e gigantes?
Liang Wenfeng: Para ser sincero, não nos importamos muito com isso. Reduzir os preços foi apenas algo que fizemos ao longo do caminho. Fornecer serviços em nuvem não é nosso principal objetivo – alcançar a AGI é que é. Até o momento, não vimos nenhuma solução inovadora. Os gigantes têm usuários, mas suas vacas leiteiras também os prendem, o que os torna prontos para a ruína.
An Yong: Como você acha que será o final do jogo para as outras seis principais startups de IA na China?
Liang Wenfeng: Talvez 2 ou 3 sobrevivam. Todos estão gastando dinheiro agora. Aquelas com foco claro e disciplina operacional resistirão. Os outros serão pivotantes. O valor nunca desaparece; eles assumirão novas formas.
An Yong: Qual é a sua principal filosofia quando se trata de competição?
Liang Wenfeng: Eu me concentro em saber se algo aumenta a eficiência da sociedade e se podemos encontrar nossa força na cadeia de valor do setor. Desde que o objetivo final aumente a eficiência, ele é válido. Muitos aspectos são apenas fases temporárias – focar demais nelas só gera confusão.
Modelo V2: Construído inteiramente por talentos locais
An Yong: Jack Clark, ex-líder de políticas da OpenAI e cofundador da Anthropic, observou que a DeepSeek contratou “alguns daqueles magos inescrutáveis” que criaram o DeepSeek V2. O que define essas pessoas?
Liang Wenfeng: Não há “magos inescrutáveis” aqui – apenas recém-formados das melhores universidades, candidatos a doutorado (até mesmo estagiários do quarto ou quinto ano) e jovens talentos com alguns anos de experiência.
An Yong: Muitas das principais empresas de IA estão interessadas em recrutar talentos do exterior. Alguns acreditam que é improvável que os 50 maiores talentos de IA do mundo estejam trabalhando para empresas chinesas. De onde vem a sua equipe?
Liang Wenfeng: A V2 foi criada inteiramente por talentos nacionais. Os 50 melhores do mundo talvez não estejam na China hoje, mas nosso objetivo é cultivar os nossos.
An Yong: Como surgiu a inovação do MLA? Soubemos que a ideia surgiu inicialmente do interesse pessoal de um jovem pesquisador.
Liang Wenfeng: Depois de resumir os principais padrões evolutivos da arquitetura de atenção convencional, ele teve uma inspiração repentina para projetar uma alternativa. No entanto, transformar uma ideia em realidade é uma longa jornada. Reunimos uma equipe e passamos meses validando a ideia.
An Yong: Esse tipo de criatividade orgânica parece estar ligado à sua estrutura organizacional horizontal. Na Huanfang, você evitou mandatos de cima para baixo. Mas para a AGI – uma fronteira de alta incerteza – você impõe mais gerenciamento?
Liang Wenfeng: O DeepSeek permanece totalmente de baixo para cima. Também não atribuímos funções previamente; surge uma divisão natural do trabalho. Todos trazem experiências e ideias únicas, e não precisam ser pressionados. Quando se deparam com desafios, naturalmente chamam outras pessoas para discussões. Entretanto, quando uma ideia demonstra potencial, alocamos recursos de cima para baixo.
An Yong: Ouvimos dizer que o DeepSeek opera com uma flexibilidade notável na alocação de recursos de computação e pessoal.
Liang Wenfeng: Não há limites para o acesso a recursos de computação ou membros da equipe. Se alguém tiver uma ideia, poderá acessar nossos clusters de treinamento a qualquer momento, sem aprovação. Além disso, como não temos estruturas hierárquicas rígidas nem barreiras departamentais, as pessoas podem colaborar livremente, desde que haja interesse mútuo.
An Yong: Esse gerenciamento flexível depende da contratação de indivíduos intensamente motivados. Dizem que a DeepSeek se destaca na identificação de talentos excepcionais com base em critérios não tradicionais.
Liang Wenfeng: Nossos padrões de contratação sempre se basearam na paixão e na curiosidade. Muitos dos membros da nossa equipe têm experiências únicas e interessantes. Sua fome de pesquisa supera em muito as preocupações monetárias.
An Yong: O Transformer nasceu no Laboratório de IA do Google, e o ChatGPT surgiu da OpenAI. Em sua opinião, qual é a diferença entre os laboratórios de IA corporativos e as startups na promoção da inovação?
Liang Wenfeng: Sejam os laboratórios do Google, da OpenAI ou até mesmo os laboratórios de IA das gigantes chinesas da tecnologia, todos eles oferecem um valor significativo. O fato de que a OpenAI acabou proporcionando avanços foi, em parte, um acaso histórico.
An Yong: Então, a inovação é, em grande parte, uma questão de sorte? O layout do seu escritório inclui salas de reunião com portas que podem ser facilmente abertas dos dois lados. Seus colegas mencionaram que esse design permite a “serendipidade”, lembrando a história do Transformer, em que um transeunte ouviu uma discussão e ajudou a moldá-la em uma estrutura universal.
Liang Wenfeng: Acredito que a inovação é, antes de tudo, uma questão de crença. Por que o Vale do Silício é tão inovador? Porque eles se atrevem a tentar. Quando o ChatGPT foi lançado, a China não tinha confiança na pesquisa de fronteira. De investidores a grandes empresas de tecnologia, muitos achavam que a lacuna era muito grande e se concentravam nas aplicações. Mas a inovação exige confiança, e os jovens tendem a ter mais confiança.
An Yong: Ao contrário de outras empresas de IA que buscam ativamente financiamento e atenção da mídia, a DeepSeek permanece relativamente quieta. Como você espera que a DeepSeek se torne a principal escolha para as pessoas que desejam trabalhar com IA?
Liang Wenfeng: Porque estamos lidando com os problemas mais difíceis. O que mais atrai os talentos de alto nível é a oportunidade de resolver os desafios mais difíceis do mundo. De fato, os talentos de alto nível na China costumam ser subestimados porque a inovação hardcore é rara, o que significa que eles raramente são reconhecidos. Nós oferecemos o que eles desejam.
An Yong: O recente evento da OpenAI não contou com o GPT-5, levando muitos a acreditar que a curva tecnológica do setor está desacelerando, e alguns começaram a questionar a Lei da Escala. Qual é a sua perspectiva?
Liang Wenfeng: Continuamos otimistas. O progresso do setor ainda está de acordo com as expectativas. A OpenAI não é divina; ela não pode liderar para sempre.
An Yong: Quanto tempo você acha que levará para alcançar a AGI? Antes da V2, você lançou modelos de código/matemática e mudou de denso para MoE[2]. Qual é o seu roteiro?
Liang Wenfeng: Pode levar dois anos, cinco anos ou dez anos, mas isso acontecerá em nossa vida. Quanto ao nosso roteiro, não há consenso nem mesmo dentro da nossa empresa. No entanto, estamos apostando em três direções:
1. Matemática e código, que servem como um teste natural para a AGI – assim como o Go, são sistemas fechados e verificáveis em que o autoaprendizado pode levar a uma inteligência elevada.
2. Multimodalidade, em que a IA se envolve com o mundo real para aprender.
3. A própria linguagem natural, que é fundamental para a inteligência semelhante à humana.
Estamos abertos a todas as possibilidades.
An Yong: O que você imagina como o fim do jogo para os grandes modelos de IA?
Liang Wenfeng: Haverá empresas especializadas que fornecerão modelos e serviços básicos, formando uma longa cadeia de valor de divisões especializadas. Mais participantes surgirão para atender às diversas necessidades da sociedade em cima dessas bases.
Todas as estratégias são produtos do passado
An Yong: No ano passado, o cenário de startups de grande porte da China passou por muitas mudanças. Por exemplo, Wang Huiwen[3] que era muito ativo no início, saiu no meio do caminho, enquanto os novos participantes estão começando a se diferenciar.
Liang Wenfeng: Wang Huiwen assumiu todas as perdas sozinho, permitindo que os outros saíssem ilesos. Ele tomou uma decisão que foi muito desfavorável para si mesmo, mas benéfica para todos os outros. Eu realmente admiro sua integridade.
An Yong: Onde você concentra atualmente a maior parte de sua energia?
Liang Wenfeng: Meu foco principal é a pesquisa da próxima geração de modelos grandes. Ainda há muitos desafios não resolvidos.
An Yong: Muitas outras startups de IA insistem em equilibrar o desenvolvimento de modelos e aplicações, já que os líderes técnicos não são permanentes. Por que a DeepSeek está confiante em se concentrar apenas na pesquisa? É porque seus modelos ainda estão defasados?
Liang Wenfeng: Todas as estratégias são produtos da geração passada e podem não ser válidas no futuro. Discutir a lucratividade futura da IA usando a lógica comercial da era da Internet é como comparar os primeiros dias da Tencent com a General Electric ou a Coca-Cola – é basicamente esculpir um barco para marcar a posição de uma espada, uma abordagem ultrapassada.
An Yong: A Huanfang tinha fortes genes tecnológicos e inovadores, e seu crescimento parecia relativamente tranquilo. É por isso que você continua otimista?
Liang Wenfeng: A Huanfang, até certo ponto, fortaleceu nossa confiança na inovação impulsionada pela tecnologia, mas nem tudo foi tranquilo. Passamos por um longo processo de acumulação. As pessoas só viram o que aconteceu depois de 2015, mas, na verdade, estávamos trabalhando nisso há 16 anos.
An Yong: Retornando à inovação original: Com a desaceleração da economia e o esfriamento do capital, isso sufocará a P&D inovadora?
Liang Wenfeng: Não necessariamente. A reestruturação do cenário industrial da China dependerá cada vez mais da inovação de tecnologia profunda. À medida que as oportunidades de lucro rápido desaparecerem, mais empresas adotarão a inovação real.
An Yong: Então você está otimista em relação a isso?
Liang Wenfeng: Cresci na década de 1980 em uma cidade de quinta categoria em Guangdong. Meu pai era professor de escola primária. Na década de 1990, havia muitas oportunidades de ganhar dinheiro em Guangdong. Muitos pais vinham à nossa casa e argumentavam que estudar era inútil. Mas agora, olhando para trás, as perspectivas mudaram. Ganhar dinheiro não é tão fácil como costumava ser – nem mesmo dirigir um táxi é mais uma opção viável. Em apenas uma geração, as coisas mudaram.
A inovação radical só aumentará no futuro. Ela não é amplamente compreendida agora porque a sociedade como um todo precisa aprender com a realidade. Quando essa sociedade começar a comemorar o sucesso dos inovadores de tecnologia profunda, as percepções coletivas mudarão. Precisamos apenas de mais exemplos do mundo real e de tempo para permitir que esse processo se desenvolva.
Referências
[1] Huanfang: Uma empresa de investimentos quantitativos e um dos primeiros apoiadores do DeepSeek.
[2] MoE: Mixture of Experts, uma arquitetura que melhora a eficiência do modelo ativando sub-redes especializadas.
[3] Wang Huiwen: Cofundador da Meituan, que entrou brevemente na corrida da IA em 2023 antes de sair.
Fonte: https://thechinaacademy.org/interview-with-deepseek-founder-were-done-following-its-time-to-lead/
Be First to Comment