Por dentro dos atrasos da Intel na entrega de um novo microprocessador crucial

Em maio passado, Sandra Rivera, alta executiva da a gigante dos chips Intelrecebi algumas notícias alarmantes.

Os engenheiros trabalharam por mais de cinco anos para desenvolver um novo e poderoso microprocessador para realizar tarefas de computação em data centers e estavam confiantes de que finalmente haviam acertado o produto. Mas sinais de uma falha técnica potencialmente séria surgiram durante uma reunião matinal regular para discutir o projeto.

A questão era tão problemática que Sapphire Rapids, o codinome do microprocessador, teve de ser adiado – o último de uma série de contratempos para um dos produtos mais importantes da Intel em anos.

“Ficamos muito desanimados”, disse Rivera, vice-presidente executiva responsável pelo centro de dados e grupo de inteligência artificial da Intel. “Foi uma decisão dolorosa.”

O lançamento do Sapphire Rapids acabou sendo adiado de meados de 2022 para terça-feira, quase dois anos depois do esperado. O longo desenvolvimento do produto — que combina quatro chips em um único pacote — destaca alguns dos desafios enfrentados por um esforço de recuperação da Intel quando o Os Estados Unidos estão tentando afirmar seu domínio na tecnologia de computador fundamental.

Desde a década de 1970, a Intel é líder nas pequenas fatias de silício que executam a maioria dos dispositivos eletrônicos, mais conhecida por uma variedade chamada microprocessadores, que atuam como cérebros eletrônicos na maioria dos computadores. Mas a empresa do Vale do Silício nos últimos anos perdeu sua liderança de longa data em tecnologia de fabricação, o que ajuda a determinar a velocidade de computação dos chips.

Patrick Gelsinger, que se tornou o executivo-chefe da Intel em 2021, prometeu restaurar sua vantagem de fabricação e construir novas fábricas nos Estados Unidos. Ele foi uma figura importante enquanto o Congresso debatia e legislação aprovada no verão para reduzir a dependência dos EUA da fabricação de chips em Taiwan, que a China reivindica como seu território.

O desenvolvimento acidentado do Sapphire Rapids tem implicações para saber se a Intel pode se recuperar para entregar chips futuros no prazo. Esse é um problema que pode afetar dezenas de fabricantes de computadores e provedores de serviços em nuvem, sem mencionar os milhões de consumidores que acessam serviços online que provavelmente são movidos pela tecnologia Intel.

“O que queremos é uma cadência estável que seja previsível”, disse Kirk Skaugen, vice-presidente executivo de vendas de servidores da Lenovo, uma empresa chinesa que está planejando 25 novos sistemas baseados no novo processador. “Sapphire Rapids é o começo de uma jornada.”

Para a Intel, a pressão está alta. Junto com a queda na demanda por chips usados ​​em computadores pessoais, a empresa enfrenta forte concorrência nos chips para servidores, que são seus negócios mais lucrativos. Essa questão preocupou Wall Street, com o valor de mercado da Intel despencando mais de US$ 120 bilhões desde que Gelsinger assumiu o cargo.

Em um evento on-line na terça-feira para discutir Sapphire Rapids, que leva o nome de uma parte do rio Colorado, os clientes da Intel descreveram planos de usar o processador, que, segundo eles, traria benefícios específicos para tarefas de inteligência artificial. O produto, formalmente chamado de processador Intel Xeon Scalable de 4ª geração, foi apresentado junto com outra adição atrasada à família de chips Xeon. Esse produto, anteriormente conhecido como Ponte Vecchio, foi projetado para acelerar trabalhos especiais e ser usado junto com Sapphire Rapids em computadores de alto desempenho.

Em uma entrevista, Gelsinger disse que a Sapphire Rapids tinha tudo para ser um sucesso, apesar dos atrasos. Ele escolheu a Sra. Rivera em 2021 para assumir a unidade de desenvolvimento, onde ela está usando as lições da experiência para mudar a forma como a Intel projeta e testa seus produtos. Ele disse que a Intel realizou várias análises internas sobre o que aconteceu com Sapphire Rapids e “ainda não terminamos”.

O Sapphire Rapids começou em 2015, com discussões entre um pequeno grupo de engenheiros da Intel. O produto foi a primeira tentativa da empresa em uma nova abordagem no design de chips. As empresas agora empacotam rotineiramente dezenas de bilhões de minúsculos transistores em cada pedaço de silício, mas concorrentes como Microdispositivos Avançados e outros começaram a fabricar processadores a partir de vários chips agrupados em embalagens plásticas.

Os engenheiros da Intel criaram um projeto com quatro chips, cada um com 15 “núcleos” de processador que agem como calculadoras individuais para trabalhos de computação de uso geral. A empresa também decidiu incluir blocos extras de circuitos para tarefas especiais – incluindo inteligência artificial e criptografia – e para se comunicar com outros componentes, como chips que armazenam dados.

A interação entre tantos elementos é “muito complexa”, disse Shlomit Weiss, que lidera conjuntamente o grupo de engenharia de design da Intel. “A complexidade costuma trazer problemas.”

A equipe do Sapphire Rapids lutou contra bugs, falhas causadas por erros de projeto ou falhas de fabricação que podem fazer com que um chip faça cálculos incorretos, funcione lentamente ou pare de funcionar. Eles também foram afetados por atrasos no processo de fabricação do produto.

Mas em dezembro de 2019, os engenheiros atingiram um marco chamado “tape-in”. É quando os arquivos eletrônicos contendo um projeto completo vão para uma fábrica para fazer chips de amostra.

Os chips de amostra chegaram no início de 2020, quando o Covid-19 forçou bloqueios. Os engenheiros logo conseguiram que os núcleos de computação do Sapphire Rapids se comunicassem, disse Nevine Nassif, engenheiro-chefe do projeto. Mas mais trabalho do que o esperado permaneceu.

Uma tarefa importante era a “validação”, um processo de teste no qual a Intel e seus clientes executam software em chips de amostra para simular tarefas de computação e detectar bugs. Depois que as falhas são encontradas e corrigidas, os projetos podem voltar para a fábrica para fazer novos chips de teste, o que normalmente leva mais de um mês.

Repetir esse processo levou a prazos perdidos. Nassif disse que o Sapphire Rapids foi projetado para combater o processador Milan da AMD, lançado em março de 2021. Mas ainda não estava pronto em junho, quando a Intel anunciou um adiamento até o próximo ano para permitir mais validação.

Foi quando Rivera interveio. O executivo de longa data da Intel construiu com sucesso um negócio em produtos de rede antes de ser nomeado em 2019 como diretor de pessoal.

“Tivemos que recuperar nosso mojo de execução”, disse Gelsinger. “Eu precisava de alguém que corresse para o fogo e resolvesse esse negócio para mim.”

Em outubro de 2021, Rivera e um alto executivo de design estabeleceram reuniões semanais de status do Sapphire Rapids, realizadas todas as segundas-feiras às 7h. .

Então veio a descoberta da falha em maio passado. A Sra. Rivera não quis descrevê-lo em detalhes, mas disse que afetou o desempenho do processador. Em junho, ela usou um evento para investidores para anunciar um atraso de pelo menos um quarto, o que empurrou a Sapphire Rapids para depois do lançamento de um chip concorrente da AMD em novembro.

“Estávamos prontos para embarcar”, disse Nassif. O atraso final “foi tão triste devido a todo o esforço que foi feito para isso”.

A Sra. Rivera tirou uma série de lições dos contratempos. Uma delas era simplesmente que a Intel incluiu muitas inovações no Sapphire Rapids, em vez de entregar um produto menos ambicioso antes.

Ela também concluiu que a equipe deveria ter passado mais tempo aperfeiçoando e testando seu projeto usando simulações de computador. Encontrar bugs antes que eles estejam em chips de amostra é mais barato e possibilitaria a remoção de recursos para simplificar o produto, disse Rivera. Desde então, ela passou a reforçar as habilidades de simulação e validação da Intel.

“Costumávamos ter muito desse tipo de músculo que deixávamos atrofiar”, disse Rivera. “Agora estamos reconstruindo.”

Ela também determinou que a Intel tinha programado mais produtos do que seus engenheiros e clientes poderiam lidar facilmente. Então, ela simplificou o roteiro do produto, incluindo adiar um sucessor do Sapphire Rapids para 2024 a partir de 2023.

De forma mais ampla, Rivera e outros executivos da Intel pressionaram a organização a desenvolver melhores processos para documentar problemas técnicos e compartilhar essas informações dentro e fora da empresa.

Alguns clientes da Intel dizem que a comunicação melhorou.

“Correu tudo bem? Não”, disse Skaugen, da Lenovo, que já comandou o negócio de chips para servidores da Intel. “Mas fomos surpreendidos muito menos do que no passado.”

Leave a Reply

Your email address will not be published. Required fields are marked *