Proteção de sobrecargas em data centers

Em um ambiente com dois cabos de alimentação (“dual-corded”), a perda de energia de um deles fará com que a carga seja transferida para o outro, podendo criar uma condição de sobrecarga e falha. Este artigo explica o problema e como resolvê-lo, fornecendo um conjunto de regras para garantir que um ambiente com dois caminhos de alimentação (“dual-path”) tenha tolerância a falhas.

Neil Rasmussen, da APC by Schneider Electric

Data: 20/08/2016

Edição: RTI Agosto 2016 - Ano XVII - N^o 195

Compartilhe:

O principal objetivo de uma arquitetura elétrica com dois cabos de alimentação (“dual-corded”) ou dois caminhos de alimentação (“dual-path”) é garantir a continuidade das operações de TI durante uma falha de parte do sistema de distribuição de energia, fornecendo um caminho alternativo de alimentação de energia. Nessa topologia, os dispositivos TI têm duas entradas de energia separadas e são projetados para continuar a operar quando um dos cabos perde a alimentação. O sistema de distribuição de energia alimenta um ambiente de TI “dual-corded” através de dois caminhos separados, que podem se juntar em algum ponto, ou seja, no painel de distribuição, na saída do UPS, no conjunto de manobra ou na conexão principal com a concessionária.

Na arquitetura de alguns data centers, os dois caminhos se estendem até dentro do sistema de distribuição da rede primária e são supridos por subestações separadas ou até mesmo por linhas de alta tensão separadas. Na maioria dos data centers com dois caminhos de alimentação, esse sistema “dual-path” é estendido até o quadro de distribuição. Nesse caso, um gerador de emergência é usado para fornecer redundância quando houver apenas uma única alimentação da rede da concessionária.

Quando há uma falha no sistema de distribuição ou até mesmo na fonte de alimentação de um dispositivo TI, o sistema de TI dual-corded é projetado para manter a carga de TI em operação. Embora isso seja conceitualmente simples, algumas regras e esquemas de monitoramento têm que ser estabelecidos para assegurar a sua operação correta. Em primeiro lugar, este artigo mostra o comportamento dos dispositivos TI nesse ambiente; em seguida, explica as condições que precisam ser atendidas para garantir a disponibilidade esperada; e finalmente, fornece estratégias sobre como gerenciar um ambiente dual-corded.

Um sistema dual-path corretamente implementado e verificado fornece tolerância a falhas e permite a manutenção simultânea de qualquer ponto do sistema de potência. Isto é verdadeiro mesmo que não haja conexões cruzadas entre os caminhos de alimentação e mesmo se um dos caminhos não tiver UPS. Muitos usuários implementam a arquitetura dual-path, mas não confiam que vá operar quando necessário, conforme evidenciado pelo uso de chaves de transferência estáticas e conexões cruzadas para manutenção. É uma prática comum de projeto garantir o fornecimento de energia para ambos os caminhos durante muitos tipos de falhas, mesmo na manutenção. Contudo, essa segurança extra não será necessária se o sistema com duplo caminho de alimentação funcionar corretamente. Se for corretamente implementado e verificado, ele vai tolerar a perda de um caminho sem incidentes, permitindo que os projetos de data centers sejam mais simples e menos dispendiosos.

Comportamento do dispositivo TI dual-corded

Fig. 1 Um servidor que têm três entradas de energia e não atende à condição dual-corded

Admite-se que um dispositivo de TI dual-corded tenha capacidade de operar corretamente quando alimentado por qualquer um dos dois cabos. No entanto, essa consideração sobre o comportamento dos dispositivos nem sempre é correta. Em um ambiente de TI dual-corded, é necessário primeiro estabelecer se os dispositivos realmente satisfazem a condição dual-corded. Mais de 95% de todos os dispositivos de TI dual-corded existentes operam corretamente com apenas um cabo (“single-corded ”). As razões para alguns dispositivos não operarem corretamente de acordo com a arquitetura dual-corded incluem:

O dispositivo foi especificamente implementado com dois cabos não para efeito de redundância, mas como forma de obter mais potência para o dispositivo TI usando múltiplas fontes de alimentação. Existem inúmeras razões para que um dispositivo TI possa usar várias fontes, em vez de uma maior, como: o dispositivo foi projetado para ser expansível ao longo do tempo, incluindo o recurso de adicionar mais potência; o dispositivo não tem uma tomada especial de alta potência, e usa duas fontes de alimentação com tomadas convencionais para solução dessa questão.
O dispositivo possui três cabos de alimentação e requer dois deles para operar corretamente. Não há nenhuma maneira de conectar os três cabos nos dois caminhos de alimentação de forma que o dispositivo sobreviva à falha de qualquer caminho (ele pode sobreviver à falha do caminho com um cabo conectado, mas não vai sobreviver com os dois cabos conectados).
O dispositivo foi implementado com dois cabos para redundância sob configurações normais, mas sob uma configuração interna plena, a carga de energia é maior do que uma única fonte pode fornecer; logo, a condição dual-corded só é adequada para dispositivos parcialmente configurados. Embora isso pareça ser uma falha de projeto, já ocorreu em alguns equipamentos de rede onde cartões plug-in mais novos não existiam na época do projeto do chassi. Nessa situação, muitos fornecedores lançaram fontes de alimentação atualizadas com maior potência nominal, mas a responsabilidade em garantir que a configuração atenda à condição dual-corded é do usuário.
O dispositivo foi concebido como dual-corded, mas uma fonte de alimentação falhou e tal condição não foi percebida ou corrigida. O dispositivo está agora operando como um single-corded e será desenergizado quando houver perda da alimentação de energia do caminho remanescente.
O dispositivo é dual-corded, mas os dois cabos foram inadvertidamente conectados no mesmo caminho de alimentação. Ele vai operar normalmente, mas será desenergizado quando houver interrupção do caminho que alimenta os dois cabos. Essa é uma ocorrência comum, particularmente em data centers onde existem diversas pessoas com direitos de acesso e troca de equipamentos.
O dispositivo não é dual-corded, mas sim um single-corded, e foi implementado em um ambiente com dois caminhos de alimentação (“dual-path”). Se o comportamento compatível com dual-corded for necessário, isso pode ser feito pela instalação de uma pequena chave de transferência para montagem em rack em um ou em alguns dispositivos. Como alternativa, se a carga single-corded for elevada, o comportamento compatível com dual-corded pode ser realizado pela instalação de uma chave estática, alimentando um terceiro caminho especial para uma zona ou racks single-corded.

Dois tipos de dispositivo

A maioria dos dispositivos de TI dual-corded opera com os dois cabos alimentando fontes de energias ou grupos separados. Dentro do dispositivo de TI, as saídas das fontes de alimentação são combinadas. Sob operação normal, os requisitos de potência das cargas de TI são compartilhados entre as duas fontes de alimentação (ou dois bancos de fontes de alimentação). Embora essa partilha não seja precisamente equilibrada, cada fonte (ou banco de fontes) suporta tipicamente 50% +/10% da carga. Quando há interrupção de energia em um caminho devido à falha, toda a carga do dispositivo de TI é imediatamente suprida pela fonte remanescente. Como o requisito de potência computacional do dispositivo de TI não varia durante uma falha de energia, o caminho de alimentação de energia que não falhou verá sua participação normal de 50% da potência da carga de TI aumentar para 100%. Além disso, alguns equipamentos de TI podem acelerar os ventiladores quando uma fonte de alimentação cai. Logo, o requisito de potência total de um dispositivo de TI pode, na verdade, aumentar até 15% durante esse evento. Portanto, é razoável planejar um aumento de 10% na carga para a interrupção de um caminho. Naturalmente, o caminho de alimentação de energia (e a própria fonte de alimentação) tem que estar preparado para aceitar essa mudança no degrau de carga, sem que haja mau funcionamento.

No entanto, há outro tipo de carga de TI menos comum, onde a potência da carga não é “compartilhada” pelos cabos de entrada. Nesse caso, (que representa menos de 5% de todos os dispositivos TI dual-corded), o dispositivo de TI absorve toda a energia de um cabo sob operação normal e chaveia para o outro cabo quando houver falha na alimentação de entrada primária. Esse tipo de dispositivo, baseado no “chaveamento de potência”, fornece toda a redundância esperada em um ambiente dual-corded, mas tem duas propriedades incomuns que precisam ser consideradas durante a implementação e operação:

Quando são instalados dispositivos de TI dual-corded do tipo “compartilhamento de potência”, a potência em ambos os caminhos permanece uniformemente equilibrada à medida que os dispositivos são instalados. Contudo, quando dispositivos TI do tipo “chaveamento de potência” são instalados, a alimentação de energia vai depender de qual tomada está conectada em cada caminho. Se as tomadas forem conectadas aleatoriamente, a potência deverá ser pouco equilibrada entre os dois caminhos. Porém, se houver um padrão como, por exemplo, conectar o cabo do lado esquerdo do dispositivo de TI no caminho de alimentação da esquerda, poderá ocorrer uma condição de desequilíbrio no caminho de alimentação que tem a maior parte ou mesmo toda a carga. Embora a discussão anterior explique que o caminho subutilizado vai subitamente precisar suprir toda a carga de TI na falha do caminho primário, os operadores percebendo o caminho subutilizado podem incorretamente assumir que mais cargas possam ser ali colocadas, quando na verdade esse caminho tem que ser reservado para garantir a operação correta da redundância do sistema. Portanto, a existência de carga de TI dual-corded do tipo “chaveamento de potência” precisa ser corretamente identificada e planejada no projeto e operação do data center.

Fig. 2 Exemplo de uma chave de transferência para montagem em rack

Esses dispositivos comutam rapidamente quando ocorre a falha de um caminho. A potência no lado ativo remanescente aumenta rapidamente (alguns milissegundos) para seu novo valor ao assumir toda a potência da carga do dispositivo de TI. Contudo, os dispositivos de TI do tipo “chaveamento de potência” se comportam um pouco diferente. Neles, há um pequeno atraso de até 25 milissegundos antes de ocorrer o chaveamento para o caminho ativo. Durante esse período, as fontes de alimentação estão desenergizadas e têm que sobreviver com a energia armazenada nos capacitores internos. Quando a transição estiver concluída, o fluxo de potência precisa alimentar a carga de TI, como também recarregar os capacitores de armazenamento da fonte de alimentação. Como resultado, pode haver uma breve condição em que a carga na fonte ativa aumente para 150% da carga de TI exigida, ou até mais, por até 50 milissegundos. Se um número elevado de dispositivos de TI do tipo “chaveamento de potência” for instalado da mesma forma, isso pode causar uma sobrecarga nos sistemas de alimentação e provocar um trip indesejado do disjuntor, criando uma queda de carga. A sobrecarga transitória é bastante reduzida se os dispositivos do tipo “chaveamento de potência” forem instalados de forma que seus cabos de alimentação primária não estejam todos concentrados em um caminho de alimentação de energia.

Para minimizar os problemas acima mencionados, é importante saber se os dispositivos dual-corded são do tipo “chaveamento de potência”; em caso afirmativo, é preciso confirmar se estão deliberadamente instalados em um padrão alternativo para que a carga permaneça equilibrada em ambos os caminhos de alimentação de energia.

Se um dispositivo não atender à condição dual-corded porque tem três entradas de potência, tal como o dispositivo mostrado na figura 1, ele pode operar em um ambiente dual-corded e tirar proveito dos caminhos de energia redundantes através de uma das seguintes técnicas:

Tratar o dispositivo como single-corded e conectar todos os três cabos em uma chave de transferência para montagem em rack projetada para tal finalidade.
Conectar uma fonte no caminho A, uma no caminho B e a terceira em uma chave de transferência para montagem em rack. Se houver vários desses dispositivos, eles podem compartilhar uma chave de transferência apropriadamente dimensionada.

A figura 2 mostra um exemplo de uma chave de transferência para montagem em rack de 2 kW projetada para essa finalidade (unidades de maior capacidade também estão disponíveis).

Eficiência

Ocasionalmente, é questionado se a concentração de cargas em um caminho de um ambiente dual-path aumenta ou diminui a eficiência energética do sistema, quando comparada ao balanceamento de carga. Análises efetuadas mostram que, num sistema de potência onde ambos os caminhos são do mesmo projeto, o balanceamento vai aumentar a eficiência de distribuição, mas o ganho é uma pequena fração porcentual. Portanto, não há desvantagem para o balanceamento nesse caso. Contudo, há sistemas onde um caminho tem maior eficiência, como, por exemplo, quando é protegido por UPS e o outro vem da alimentação de energia bruta da concessionária (“raw utility power”). Nesses casos, se possível, obviamente é mais eficiente concentrar a carga no caminho da energia bruta da concessionária.

Codificação por cores

Em um sistema com dispositivos de TI cujos cabos devem ser conectados nos caminhos 1 e 2 ou numa chave de transferência, torna-se difícil seguir os vários cabos para garantir que estejam conectados corretamente. Esse problema pode ser complicado se os cabos de reserva fornecidos com os dispositivos de TI forem muito mais longos do que o necessário, criando uma quantidade significativa de fios dentro do rack. Isso pode dificultar muito o rastreamento dos cabos para confirmar as respectivas conexões. Para a solução desse problema, os cabos dos dispositivos TI podem ser substituídos por cabos de alimentação de comprimento apropriado com codificação de cores, conforme mostrado na figura 3.

Para uma identificação correta dos cabos de alimentação dos equipamentos de TI por código de cores são necessárias três cores. No sistema apresentado na figura 3, os cabos são codificados em: azul (caminho A), vermelho (caminho B) e preto (dispositivo single-corded).

Quando apenas um caminho é protegido por UPS e o outro vem da energia da concessionária (às vezes referido como sistema de potência Tier 3), o caminho azul é o com UPS. No exemplo da figura, o dispositivo single-corded é alimentado pelo caminho com UPS. Mas, conforme descrito anteriormente, ele também pode ser alimentado por uma chave de transferência para montagem em rack (ou chave de transferência estática central), caso em que o cabo de TI preto é conectado à chave de transferência. Observe que o uso de cabos de comprimento adequado facilitou a inspeção dos cabos de alimentação, reduzindo a confusão de cabos de energia que pode bloquear o fluxo de ar. Adicionalmente, os cabos mostrados na figura 3 são equipados com dispositivos de bloqueio para que não possam ser puxados para fora, além de uma indicação visual amarela que permite às equipes técnicas rapidamente identificar qualquer cabo que não esteja totalmente encaixado.

Requisitos do sistema de distribuição

Considerando as características da carga de TI dual-corded, podemos agora descrever como o sistema de distribuição de energia tem que ser projetado e gerenciado para a redundância esperada.

O sistema de distribuição de energia precisa garantir que uma falha em qualquer ponto de um caminho não cause a falha do segundo caminho. O fato de um data center estar atualmente operando corretamente sob condições normais não garante que um caminho de alimentação vá operar corretamente quando houver falha do outro caminho.

A falha de um caminho resultará no aumento gradual da carga no caminho alternativo. A magnitude desse degrau, e onde ele ocorre, vai depender da natureza da falha no caminho de alimentação com defeito. A seguir, dois exemplos importantes sobre o degrau de carga:

A falha de um caminho no circuito de derivação para o gabinete de um rack, normalmente, resultará na duplicação da carga de potência no circuito do caminho alternativo para esse gabinete. No entanto, disjuntores alimentando múltiplas PDUs no caminho remanescente podem apenas perceber um pequeno aumento porcentual na potência.
A falha de um caminho no UPS central, normalmente, resultará na duplicação da carga de potência em cada circuito do caminho alternativo para cada gabinete. Além disso, todos os disjuntores alimentando PDUs no caminho remanescente também perceberão uma duplicação da potência.

Em todos os casos, é necessário assegurar, por meio de um projeto e práticas de operação, que qualquer falha de um caminho não cause uma condição de sobrecarga em qualquer ponto do caminho alternativo. Embora pareça muito complicado, isso pode ser assegurado através da compreensão de alguns princípios simples:

Se cada caminho for projetado para que cada ponto seja capaz de fornecer toda a energia dos equipamentos, então, ele não pode ser sobrecarregado.
Se procedimentos ou sistemas forem implementados para assegurar que os dispositivos de TI nunca sejam instalados de forma a exceder os valores de projeto do sistema de distribuição, então, nenhuma sobrecarga vai ocorrer.

Esses princípios simples são fáceis de serem definidos em um projeto, mas difíceis de serem garantidos no ambiente dinâmico de um data center. Em geral, há duas formas de implementação:

Efetuar uma análise do pior caso para cada adição, mudança ou alteração, visando garantir que nenhuma condição exceda qualquer valor de projeto. Isso exige diversas informações que podem ser difíceis de se obter sobre os dispositivos de TI, requer tempo e expertise em engenharia e pode resultar em um projeto muito conservador, onde a capacidade do data center é significativamente subutilizada. Essa abordagem é mais apropriada para uma instalação de grande porte com equipamentos de TI homogêneos.
Implementar o monitoramento do sistema de distribuição, fornecendo dados relativos às margens de segurança operacional e emitindo alarmes quando adições, mudanças ou alterações causarem a aproximação dos limites operacionais de diferentes pontos do sistema de distribuição. Essa é a abordagem mais prática no ambiente dinâmico de data centers.

Para implementar uma estratégia de monitoramento, cada fase de cada circuito é monitorada para garantir que não seja sobrecarregado no caso de qualquer falha no caminho de alimentação alternativo. Em um ambiente dual-path ideal, observe que a carga de qualquer caminho pode, quando muito, ser duplicada para qualquer falha no caminho alternativo. Logo, é necessário o monitoramento para garantir que nenhum circuito seja carregado além de 50% dos valores nominais de projeto. No entanto, em um data center que inclui algumas cargas de switches e outras com maior consumo de energia, o desligamento de uma fonte de alimentação exige uma margem extra de segurança para garantir que não haja sobrecarga de circuitos. Experiências mostram que o monitoramento de circuitos para um limite prático de 40% da carga de projeto é suficiente para garantir uma operação confiável durante qualquer falha nos caminhos. O sistema de monitoramento vai reportar sobrecargas para que possam ser identificadas durante a instalação ou operação do equipamento, permitindo que os operadores tomem medidas para redução da carga.

Em um ambiente de TI homogêneo, onde a carga é composta de muitos dispositivos similares, o limite de monitoramento deve ser estabelecido pela medição do desempenho de um dispositivo de TI representativo. Se ele não apresentar um aumento de potência quando da perda de um caminho, o limite de monitoramento pode ser definido em 50%. Para cada aumento de 1% observado no consumo de energia, o limite de monitoramento deve ser reduzido em 0,5%. Por exemplo, se a carga chegar a 110% quando houver falha de um cabo, o limite de monitoramento deve ser ajustado em 45%.

Embora pareça complicado implementar o monitoramento da margem em centenas de circuitos de ramais de um data center, esse é um recurso padrão de muitas PDUs de racks; a emissão de relatórios é uma função “out of the box” incluída em algumas soluções de gestão da infraestrutura de data centers (DCIM “Data data centers (DCIM “Data Center Infrastructure Management”). Quando o sistema em questão for implementado, os usuários terão confiança suficiente para efetuar manutenção simultânea, permitindo a interrupção de um caminho para um rack, pod, sala ou até mesmo de toda a instalação.

Regras para a redundância desejada

Fig. 3 Melhoria no arranjo dos cabos de energia usando cabos de comprimento apropriado com codificação de cores

Algumas regras são necessárias para implementação da redundância dual-path:

Verificar se os dispositivos instalados operam corretamente como dual-corded com capacidade failover. Se isso não for garantido pelo fornecedor, considere efetuar testes dos dispositivos no local antes da implantação.

Verificar se algum sistema e procedimento foi implementado para monitorar e corrigir falhas na alimentação de energia dos dispositivos dual-corded. A maioria dos dispositivos de TI possui esses recursos, mas frequentemente os alarmes não são adequadamente monitorados ou roteados para gerar uma ação de resposta.

Estabelecer procedimentos de instalação e controle de alterações para assegurar que os dois cabos de cada dispositivo dual-corded sejam conectados em diferentes caminhos de alimentação de energia.

Certifique-se que os dois cabos estejam conectados na mesma fase (ou par de fases) em cada uma das duas PDUs de rack e, de forma ideal, ao mesmo grupo de tomadas de saída de cada uma das duas PDUs de rack. Implemente codificação dos cabos por cores, assegurando que os eles tenham o comprimento apropriado para a aplicação.

Verificar as cargas single-corded do data center, confirmar se elas são críticas e, quando apropriado, fornecer suporte dual-path, usando chaves de transferência automáticas baseadas em rack ou chaves estáticas grandes (para clusters ou zonas de dispositivos single-corded).
Saber quais dispositivos, se houver, são da configuração do tipo “chaveamento de potência” e assegurar que existe um processo para garantir que as entradas de potência primária de diferentes dispositivos não estejam concentradas em um caminho de alimentação, mas sim distribuídas entre todos os caminhos de forma equilibrada.
Implementar um esquema de monitoramento em cada fase de cada circuito do data center e em todos os níveis do sistema de distribuição para fornecer dados sobre as correntes operacionais, permitindo verificar se elas estão se aproximando do limite de 40% do nível de projeto. Nesse caso, emitir alarmes quando qualquer corrente de operação exceder 40% do nível de projeto. Verificar as margens antes de adições, mudanças e alterações para evitar que qualquer corrente de operação aumente acima de 50% dos valores nominais de projeto.
Considerar a implementação de um protocolo de verificação onde racks ou grupos de racks sejam periodicamente inspecionados para a verificação de conexões de cabos apropriadas, testando-os individualmente mediante o desligamento de cada fonte de alimentação. Ao testar apenas uma pequena seção do data center, selecionando o momento mais adequado para os testes, as consequências de uma falha são limitadas. Essa prática aumenta enormemente a confiança no sistema dual-path.

Conclusão

Este artigo fornece informações sobre a operação de dispositivos de TI dual-corded, além de considerações sobre como implementá-los em data centers para tolerância a falhas de um caminho de alimentação de energia.

Embora muitos dispositivos tenham múltiplos cabos de alimentação, eles não se comportam todos da mesma maneira, e nem todos vão operar corretamente quando conectados a apenas um cabo de alimentação. Um projeto redundante eficaz para tolerância a falhas exige a garantia, por meio de testes ou projeto, de que cada dispositivo atenda ao requisito de operação no modo single-cord.

Inevitavelmente, algum dispositivo que não seja dual-corded precisará ser implantado em um data center dualpath. Nesse caso, alguns benefícios da operação dual-corded podem ser obtidos alimentando-os por uma chave de transferência baseada em rack projetada para essa finalidade ou por uma chave estática fixa, se houver inúmeros dispositivos para serem alimentados.

A presença de dois caminhos de alimentação não garante redundância, e a perda de um caminho pode causar uma sobrecarga e falha no caminho alternativo, a não ser que adições, mudanças e alterações ao longo do tempo não tenham violado os critérios de projeto do sistema.

A solução para assegurar a tolerância a falhas é monitorar cada fase de cada circuito do data center para garantir que nenhum deles seja carregado além de 40%/50%. Esse monitoramento parece complexo devido ao número de circuitos, mas é uma função padrão de algumas PDUs de racks e software DCIM. Ao seguir o conjunto de regras simples descritas neste artigo, os usuários podem assegurar um sistema dual-path com níveis de redundância e disponibilidade planejados.