Huawei Cloud apresentou a IA serverless no KubeCon EU 2024
25 de Março de 2024
No KubeCon + CloudNativeCon Europe 2024, realizado em Paris em 21 de março, Dennis Gu, arquiteto-chefe da Huawei Cloud, destacou em um discurso intitulado "Nativo da nuvem versus IA: Potencializando a era inteligente com inovação contínua de código aberto", onde a integração de tecnologias nativas da nuvem e de IA é crucial para impulsionar a transformação de setores. A Huawei Cloud planeja continuar inovando em projetos de código aberto e colaborando com desenvolvedores para fomentar a era inteligente.
Dennis Gu, arquiteto-chefe da Huawei Cloud
A IA apresenta os desafios-chave para o paradigma nativo da nuvem.
Nos últimos anos, as tecnologias nativas da nuvem revolucionaram os sistemas de TI tradicionais e aceleraram os avanços digitais em áreas como a Internet e os serviços governamentais. O nativo da nuvem introduziu novas possibilidades, como vendas ultrarrápidas e operações ágeis, como o DevOps, por meio da governança de microsserviços. Essas mudanças tiveram um impacto significativo na vida das pessoas, e o crescimento rápido e a ampla adoção de IA, incluindo modelos em larga escala, tornaram-se essenciais para a inteligência setorial.
Segundo uma pesquisa da Epoch em 2023, o poder computacional necessário para modelos básicos aumentou em 10 vezes a cada 18 meses, o que é cinco vezes mais rápido do que a taxa de crescimento prevista pela Lei de Moore para computação em geral. O surgimento dessa "Nova Lei de Moore" devido à IA e à prevalência de modelos de IA em larga escala apresenta desafios para as tecnologias nativas da nuvem. Em seu discurso, Dennis Gu destacou os seguintes pontos principais:
· A baixa média de utilização de GPU/NPU aumenta o custo de treinamento e inferência de IA.
· Falhas frequentes em clusters de treinamento de modelos grandes diminuem a eficiência do treinamento.
· Configuração complexa de modelos em larga escala resulta em requisitos de desenvolvimento de IA altamente exigentes.
· Implementação de inferência de IA em grande escala apresenta o risco de atrasos imprevisíveis no acesso do usuário final e envolve potenciais questões de privacidade de dados.
A inovação da IA da Huawei Cloud oferece aos desenvolvedores ideias para superar desafios.
O aumento do tamanho dos modelos de IA demanda mais poder computacional, criando desafios para as tecnologias nativas da nuvem, mas também gera oportunidades para inovação no setor. Dennis Gu compartilhou histórias sobre a inovação de IA da Huawei Cloud, oferecendo aos desenvolvedores um ponto de referência para enfrentar os desafios.
A Huawei Cloud utilizou o KubeEdge, uma plataforma de computação de borda nativa da nuvem, para criar uma plataforma de agendamento e gerenciamento de múltiplos robôs. Com essa plataforma, os usuários podem usar comandos de linguagem natural para dizer à plataforma o que fazer, e o sistema coordenará múltiplos robôs na borda para realizar tarefas complexas. O sistema é projetado com uma arquitetura de três partes (nuvem, nó de borda e robô) para abordar desafios como compreensão de linguagem natural, agendamento e gerenciamento eficientes de múltiplos robôs, além de gerenciamento de acesso de robôs de tipos diferentes. Ele usa modelos grandes para executar comandos de linguagem natural e realiza previsão de tráfego, atribuição de tarefas e planejamento de rotas. A arquitetura em três partes melhora significativamente a flexibilidade da plataforma de robôs, aumenta a eficiência de gerenciamento em 25%, reduz o tempo necessário para implementação do sistema em 30% e diminui o tempo necessário para implementar novos robôs de meses para dias.
Para uma plataforma líder de compartilhamento de conteúdo na China com mais de 100 milhões de usuários ativos por mês, seu principal serviço é recomendações na página inicial. Essa funcionalidade é alimentada por um modelo com quase 100 bilhões de parâmetros. Para treinar esse modelo, a plataforma usa um cluster de treinamento com milhares de nós de computação, incluindo centenas de ps e workers para uma única tarefa de treinamento. Portanto, há uma grande demanda por melhor agendamento de topologia, alto desempenho e alta taxa de transferência. O Volcano, um projeto de código aberto, melhora o suporte para cargas de trabalho de IA ou Machine Learning no Kubernetes e oferece uma variedade de gerenciamento de tarefas e políticas avançadas de agendamento. O Volcano incorpora algoritmos como agendamento com reconhecimento de topologia, empacotamento e agendamento consciente de Contrato de Nível de Serviço (SLA), resultando em uma melhoria de 20% no desempenho geral de treinamento e uma redução significativa na complexidade de O&M para a plataforma.
A IA serverless está à frente do desenvolvimento nativo da nuvem.
Muitas empresas e desenvolvedores enfrentam o desafio de executar aplicações de IA de forma eficiente e confiável, minimizando os custos operacionais. A Huawei Cloud desenvolveu uma solução para esse problema, identificando os principais requisitos das plataformas de IA nativas da nuvem e introduzindo um novo conceito chamado IA serverless.
Durante seu discurso, Dennis Gu explicou que a IA serverless é projetada para simplificar tarefas complexas de treinamento e inferência com recomendações inteligentes de políticas paralelas, facilitando o seu uso para os desenvolvedores. Ela também inclui uma função de expansão automática adaptável de GPU/NPU que ajusta dinamicamente a alocação de recursos com base em mudanças na carga de trabalho em tempo real, garantindo uma execução eficiente de tarefas. Além disso, existe um cluster de GPU/NPU resistente a falhas na IA serverless, eliminando as preocupações de desenvolvedores com falhas de hardware que poderiam interromper os serviços. Mais importante ainda, a IA serverless é compatível com as principais estruturas de IA, permitindo que os desenvolvedores integrem facilmente suas ferramentas e modelos de IA existentes.
A IA serverless também é um desenvolvimento muito significativo para os provedores de serviços em nuvem. A IA serverless oferece múltiplos benefícios, como melhor utilização de GPU/NPU, cargas de trabalho híbridas mais eficientes para treinamento, inferência e desenvolvimento, além de computação verde por meio de uma melhor eficiência energética, permitindo redução de custos com eletricidade. Além disso, a IA serverless permite o compartilhamento de GPU/NPU entre múltiplos locatários em espaços ou tempos diferentes, melhorando a taxa de reutilização de recursos. O aspecto mais significativo da IA serverless é a sua capacidade de fornecer Garantia de qualidade em serviços (QoS) e SLAs garantidos para tarefas de treinamento e inferência, possibilitando um serviço estável e de alta qualidade.
No sub-fórum, especialistas técnicos da Huawei Cloud observaram que as cargas de trabalho de IA ou Machine Learning em execução no Kubernetes têm aumentado constantemente. Como resultado, várias empresas estão criando plataformas de IA nativas da nuvem em vários clusters do Kubernetes que se espalham por data centers e uma gama diversificada de tipos de GPU. O Karmada e o Volcano podem agendar de forma inteligente cargas de trabalho de GPU em vários clusters, permitindo transferência de falhas e garantindo consistência e eficiência dentro e entre clusters. Eles também podem equilibrar a utilização de recursos em todo o sistema e a QoS de cargas de trabalho com diferentes prioridades para superar os desafios de gerenciar ambientes de GPU grandes e heterogêneos.
O Karmada oferece gerenciamento automático, imediato e confiável de aplicações em cenários multinuvem e de nuvem híbrida. Um número crescente de usuários está usando o Karmada para criar soluções adaptáveis e eficazes em ambientes de produção. O Karmada foi oficialmente atualizado para o projeto de incubação da CNCF em 2023, e a comunidade espera que mais parceiros e desenvolvedores se juntem a ela.
O Volcano Gang Scheduling é uma solução para treinamento distribuído de IA e cenários de Big Data, ele aborda os problemas de espera interminável e impasse em tarefas de treinamento distribuído. Com agendamento de topologia de tarefa e reconhecimento de I/O, o atraso de transmissão de tarefas de treinamento distribuídas é minimizado, melhorando o desempenho de treinamento em 31%. Além disso, minResources resolve a contenção de recursos entre o driver Spark e o executor em cenários de alta concorrência, otimizando o grau de paralelismo e melhorando o desempenho em 39,9%.
Dennis Gu acredita que a chave para melhorar a produtividade da IA está na agilidade das tecnologias nativas da nuvem e na inovação das plataformas de computação de IA heterogêneas. A Huawei Cloud está dedicada à inovação de código aberto e objetiva trabalhar com colegas do setor para iniciar uma nova era de inteligência.