Proteção de sobrecargas em data centers


Em um ambiente com dois cabos de alimentação (“dual-corded”), a perda de energia de um deles fará com que a carga seja transferida para o outro, podendo criar uma condição de sobrecarga e falha. Este artigo explica o problema e como resolvê-lo, fornecendo um conjunto de regras para garantir que um ambiente com dois caminhos de alimentação (“dual-path”) tenha tolerância a falhas.


Neil Rasmussen, da APC by Schneider Electric

Data: 20/08/2016

Edição: RTI Agosto 2016 - Ano XVII - No 195

Compartilhe:

O principal objetivo de uma arquitetura elétrica com dois cabos de alimentação (“dual-corded”) ou dois caminhos de alimentação (“dual-path”) é garantir a continuidade das operações de TI durante uma falha de parte do sistema de distribuição de energia, fornecendo um caminho alternativo de alimentação de energia. Nessa topologia, os dispositivos TI têm duas entradas de energia separadas e são projetados para continuar a operar quando um dos cabos perde a alimentação. O sistema de distribuição de energia alimenta um ambiente de TI “dual-corded” através de dois caminhos separados, que podem se juntar em algum ponto, ou seja, no painel de distribuição, na saída do UPS, no conjunto de manobra ou na conexão principal com a concessionária.

Na arquitetura de alguns data centers, os dois caminhos se estendem até dentro do sistema de distribuição da rede primária e são supridos por subestações separadas ou até mesmo por linhas de alta tensão separadas. Na maioria dos data centers com dois caminhos de alimentação, esse sistema “dual-path” é estendido até o quadro de distribuição. Nesse caso, um gerador de emergência é usado para fornecer redundância quando houver apenas uma única alimentação da rede da concessionária.

Quando há uma falha no sistema de distribuição ou até mesmo na fonte de alimentação de um dispositivo TI, o sistema de TI dual-corded é projetado para manter a carga de TI em operação. Embora isso seja conceitualmente simples, algumas regras e esquemas de monitoramento têm que ser estabelecidos para assegurar a sua operação correta. Em primeiro lugar, este artigo mostra o comportamento dos dispositivos TI nesse ambiente; em seguida, explica as condições que precisam ser atendidas para garantir a disponibilidade esperada; e finalmente, fornece estratégias sobre como gerenciar um ambiente dual-corded.

Um sistema dual-path corretamente implementado e verificado fornece tolerância a falhas e permite a manutenção simultânea de qualquer ponto do sistema de potência. Isto é verdadeiro mesmo que não haja conexões cruzadas entre os caminhos de alimentação e mesmo se um dos caminhos não tiver UPS. Muitos usuários implementam a arquitetura dual-path, mas não confiam que vá operar quando necessário, conforme evidenciado pelo uso de chaves de transferência estáticas e conexões cruzadas para manutenção. É uma prática comum de projeto garantir o fornecimento de energia para ambos os caminhos durante muitos tipos de falhas, mesmo na manutenção. Contudo, essa segurança extra não será necessária se o sistema com duplo caminho de alimentação funcionar corretamente. Se for corretamente implementado e verificado, ele vai tolerar a perda de um caminho sem incidentes, permitindo que os projetos de data centers sejam mais simples e menos dispendiosos.

Comportamento do dispositivo TI dual-corded

Fig. 1 Um servidor que têm três entradas de energia e não atende à condição dual-corded

Admite-se que um dispositivo de TI dual-corded tenha capacidade de operar corretamente quando alimentado por qualquer um dos dois cabos. No entanto, essa consideração sobre o comportamento dos dispositivos nem sempre é correta. Em um ambiente de TI dual-corded, é necessário primeiro estabelecer se os dispositivos realmente satisfazem a condição dual-corded. Mais de 95% de todos os dispositivos de TI dual-corded existentes operam corretamente com apenas um cabo (“single-corded ”). As razões para alguns dispositivos não operarem corretamente de acordo com a arquitetura dual-corded incluem:

Dois tipos de dispositivo

A maioria dos dispositivos de TI dual-corded opera com os dois cabos alimentando fontes de energias ou grupos separados. Dentro do dispositivo de TI, as saídas das fontes de alimentação são combinadas. Sob operação normal, os requisitos de potência das cargas de TI são compartilhados entre as duas fontes de alimentação (ou dois bancos de fontes de alimentação). Embora essa partilha não seja precisamente equilibrada, cada fonte (ou banco de fontes) suporta tipicamente 50% +/10% da carga. Quando há interrupção de energia em um caminho devido à falha, toda a carga do dispositivo de TI é imediatamente suprida pela fonte remanescente. Como o requisito de potência computacional do dispositivo de TI não varia durante uma falha de energia, o caminho de alimentação de energia que não falhou verá sua participação normal de 50% da potência da carga de TI aumentar para 100%. Além disso, alguns equipamentos de TI podem acelerar os ventiladores quando uma fonte de alimentação cai. Logo, o requisito de potência total de um dispositivo de TI pode, na verdade, aumentar até 15% durante esse evento. Portanto, é razoável planejar um aumento de 10% na carga para a interrupção de um caminho. Naturalmente, o caminho de alimentação de energia (e a própria fonte de alimentação) tem que estar preparado para aceitar essa mudança no degrau de carga, sem que haja mau funcionamento.

No entanto, há outro tipo de carga de TI menos comum, onde a potência da carga não é “compartilhada” pelos cabos de entrada. Nesse caso, (que representa menos de 5% de todos os dispositivos TI dual-corded), o dispositivo de TI absorve toda a energia de um cabo sob operação normal e chaveia para o outro cabo quando houver falha na alimentação de entrada primária. Esse tipo de dispositivo, baseado no “chaveamento de potência”, fornece toda a redundância esperada em um ambiente dual-corded, mas tem duas propriedades incomuns que precisam ser consideradas durante a implementação e operação:

Quando são instalados dispositivos de TI dual-corded do tipo “compartilhamento de potência”, a potência em ambos os caminhos permanece uniformemente equilibrada à medida que os dispositivos são instalados. Contudo, quando dispositivos TI do tipo “chaveamento de potência” são instalados, a alimentação de energia vai depender de qual tomada está conectada em cada caminho. Se as tomadas forem conectadas aleatoriamente, a potência deverá ser pouco equilibrada entre os dois caminhos. Porém, se houver um padrão como, por exemplo, conectar o cabo do lado esquerdo do dispositivo de TI no caminho de alimentação da esquerda, poderá ocorrer uma condição de desequilíbrio no caminho de alimentação que tem a maior parte ou mesmo toda a carga. Embora a discussão anterior explique que o caminho subutilizado vai subitamente precisar suprir toda a carga de TI na falha do caminho primário, os operadores percebendo o caminho subutilizado podem incorretamente assumir que mais cargas possam ser ali colocadas, quando na verdade esse caminho tem que ser reservado para garantir a operação correta da redundância do sistema. Portanto, a existência de carga de TI dual-corded do tipo “chaveamento de potência” precisa ser corretamente identificada e planejada no projeto e operação do data center.

Fig. 2 Exemplo de uma chave de transferência para montagem em rack

Esses dispositivos comutam rapidamente quando ocorre a falha de um caminho. A potência no lado ativo remanescente aumenta rapidamente (alguns milissegundos) para seu novo valor ao assumir toda a potência da carga do dispositivo de TI. Contudo, os dispositivos de TI do tipo “chaveamento de potência” se comportam um pouco diferente. Neles, há um pequeno atraso de até 25 milissegundos antes de ocorrer o chaveamento para o caminho ativo. Durante esse período, as fontes de alimentação estão desenergizadas e têm que sobreviver com a energia armazenada nos capacitores internos. Quando a transição estiver concluída, o fluxo de potência precisa alimentar a carga de TI, como também recarregar os capacitores de armazenamento da fonte de alimentação. Como resultado, pode haver uma breve condição em que a carga na fonte ativa aumente para 150% da carga de TI exigida, ou até mais, por até 50 milissegundos. Se um número elevado de dispositivos de TI do tipo “chaveamento de potência” for instalado da mesma forma, isso pode causar uma sobrecarga nos sistemas de alimentação e provocar um trip indesejado do disjuntor, criando uma queda de carga. A sobrecarga transitória é bastante reduzida se os dispositivos do tipo “chaveamento de potência” forem instalados de forma que seus cabos de alimentação primária não estejam todos concentrados em um caminho de alimentação de energia.

Para minimizar os problemas acima mencionados, é importante saber se os dispositivos dual-corded são do tipo “chaveamento de potência”; em caso afirmativo, é preciso confirmar se estão deliberadamente instalados em um padrão alternativo para que a carga permaneça equilibrada em ambos os caminhos de alimentação de energia.

Se um dispositivo não atender à condição dual-corded porque tem três entradas de potência, tal como o dispositivo mostrado na figura 1, ele pode operar em um ambiente dual-corded e tirar proveito dos caminhos de energia redundantes através de uma das seguintes técnicas:

A figura 2 mostra um exemplo de uma chave de transferência para montagem em rack de 2 kW projetada para essa finalidade (unidades de maior capacidade também estão disponíveis).

Eficiência

Ocasionalmente, é questionado se a concentração de cargas em um caminho de um ambiente dual-path aumenta ou diminui a eficiência energética do sistema, quando comparada ao balanceamento de carga. Análises efetuadas mostram que, num sistema de potência onde ambos os caminhos são do mesmo projeto, o balanceamento vai aumentar a eficiência de distribuição, mas o ganho é uma pequena fração porcentual. Portanto, não há desvantagem para o balanceamento nesse caso. Contudo, há sistemas onde um caminho tem maior eficiência, como, por exemplo, quando é protegido por UPS e o outro vem da alimentação de energia bruta da concessionária (“raw utility power”). Nesses casos, se possível, obviamente é mais eficiente concentrar a carga no caminho da energia bruta da concessionária.

Codificação por cores

Em um sistema com dispositivos de TI cujos cabos devem ser conectados nos caminhos 1 e 2 ou numa chave de transferência, torna-se difícil seguir os vários cabos para garantir que estejam conectados corretamente. Esse problema pode ser complicado se os cabos de reserva fornecidos com os dispositivos de TI forem muito mais longos do que o necessário, criando uma quantidade significativa de fios dentro do rack. Isso pode dificultar muito o rastreamento dos cabos para confirmar as respectivas conexões. Para a solução desse problema, os cabos dos dispositivos TI podem ser substituídos por cabos de alimentação de comprimento apropriado com codificação de cores, conforme mostrado na figura 3.

Para uma identificação correta dos cabos de alimentação dos equipamentos de TI por código de cores são necessárias três cores. No sistema apresentado na figura 3, os cabos são codificados em: azul (caminho A), vermelho (caminho B) e preto (dispositivo single-corded).

Quando apenas um caminho é protegido por UPS e o outro vem da energia da concessionária (às vezes referido como sistema de potência Tier 3), o caminho azul é o com UPS. No exemplo da figura, o dispositivo single-corded é alimentado pelo caminho com UPS. Mas, conforme descrito anteriormente, ele também pode ser alimentado por uma chave de transferência para montagem em rack (ou chave de transferência estática central), caso em que o cabo de TI preto é conectado à chave de transferência. Observe que o uso de cabos de comprimento adequado facilitou a inspeção dos cabos de alimentação, reduzindo a confusão de cabos de energia que pode bloquear o fluxo de ar. Adicionalmente, os cabos mostrados na figura 3 são equipados com dispositivos de bloqueio para que não possam ser puxados para fora, além de uma indicação visual amarela que permite às equipes técnicas rapidamente identificar qualquer cabo que não esteja totalmente encaixado.

Requisitos do sistema de distribuição

Considerando as características da carga de TI dual-corded, podemos agora descrever como o sistema de distribuição de energia tem que ser projetado e gerenciado para a redundância esperada.

O sistema de distribuição de energia precisa garantir que uma falha em qualquer ponto de um caminho não cause a falha do segundo caminho. O fato de um data center estar atualmente operando corretamente sob condições normais não garante que um caminho de alimentação vá operar corretamente quando houver falha do outro caminho.

A falha de um caminho resultará no aumento gradual da carga no caminho alternativo. A magnitude desse degrau, e onde ele ocorre, vai depender da natureza da falha no caminho de alimentação com defeito. A seguir, dois exemplos importantes sobre o degrau de carga:

Em todos os casos, é necessário assegurar, por meio de um projeto e práticas de operação, que qualquer falha de um caminho não cause uma condição de sobrecarga em qualquer ponto do caminho alternativo. Embora pareça muito complicado, isso pode ser assegurado através da compreensão de alguns princípios simples:

Esses princípios simples são fáceis de serem definidos em um projeto, mas difíceis de serem garantidos no ambiente dinâmico de um data center. Em geral, há duas formas de implementação:

Para implementar uma estratégia de monitoramento, cada fase de cada circuito é monitorada para garantir que não seja sobrecarregado no caso de qualquer falha no caminho de alimentação alternativo. Em um ambiente dual-path ideal, observe que a carga de qualquer caminho pode, quando muito, ser duplicada para qualquer falha no caminho alternativo. Logo, é necessário o monitoramento para garantir que nenhum circuito seja carregado além de 50% dos valores nominais de projeto. No entanto, em um data center que inclui algumas cargas de switches e outras com maior consumo de energia, o desligamento de uma fonte de alimentação exige uma margem extra de segurança para garantir que não haja sobrecarga de circuitos. Experiências mostram que o monitoramento de circuitos para um limite prático de 40% da carga de projeto é suficiente para garantir uma operação confiável durante qualquer falha nos caminhos. O sistema de monitoramento vai reportar sobrecargas para que possam ser identificadas durante a instalação ou operação do equipamento, permitindo que os operadores tomem medidas para redução da carga.

Em um ambiente de TI homogêneo, onde a carga é composta de muitos dispositivos similares, o limite de monitoramento deve ser estabelecido pela medição do desempenho de um dispositivo de TI representativo. Se ele não apresentar um aumento de potência quando da perda de um caminho, o limite de monitoramento pode ser definido em 50%. Para cada aumento de 1% observado no consumo de energia, o limite de monitoramento deve ser reduzido em 0,5%. Por exemplo, se a carga chegar a 110% quando houver falha de um cabo, o limite de monitoramento deve ser ajustado em 45%.

Embora pareça complicado implementar o monitoramento da margem em centenas de circuitos de ramais de um data center, esse é um recurso padrão de muitas PDUs de racks; a emissão de relatórios é uma função “out of the box” incluída em algumas soluções de gestão da infraestrutura de data centers (DCIM “Data data centers (DCIM “Data Center Infrastructure Management”). Quando o sistema em questão for implementado, os usuários terão confiança suficiente para efetuar manutenção simultânea, permitindo a interrupção de um caminho para um rack, pod, sala ou até mesmo de toda a instalação.

Regras para a redundância desejada

Fig. 3 Melhoria no arranjo dos cabos de energia usando cabos de comprimento apropriado com codificação de cores

Algumas regras são necessárias para implementação da redundância dual-path:

Verificar se os dispositivos instalados operam corretamente como dual-corded com capacidade failover. Se isso não for garantido pelo fornecedor, considere efetuar testes dos dispositivos no local antes da implantação.

Verificar se algum sistema e procedimento foi implementado para monitorar e corrigir falhas na alimentação de energia dos dispositivos dual-corded. A maioria dos dispositivos de TI possui esses recursos, mas frequentemente os alarmes não são adequadamente monitorados ou roteados para gerar uma ação de resposta.

Estabelecer procedimentos de instalação e controle de alterações para assegurar que os dois cabos de cada dispositivo dual-corded sejam conectados em diferentes caminhos de alimentação de energia.

Certifique-se que os dois cabos estejam conectados na mesma fase (ou par de fases) em cada uma das duas PDUs de rack e, de forma ideal, ao mesmo grupo de tomadas de saída de cada uma das duas PDUs de rack. Implemente codificação dos cabos por cores, assegurando que os eles tenham o comprimento apropriado para a aplicação.

Conclusão

Este artigo fornece informações sobre a operação de dispositivos de TI dual-corded, além de considerações sobre como implementá-los em data centers para tolerância a falhas de um caminho de alimentação de energia.

Embora muitos dispositivos tenham múltiplos cabos de alimentação, eles não se comportam todos da mesma maneira, e nem todos vão operar corretamente quando conectados a apenas um cabo de alimentação. Um projeto redundante eficaz para tolerância a falhas exige a garantia, por meio de testes ou projeto, de que cada dispositivo atenda ao requisito de operação no modo single-cord.

Inevitavelmente, algum dispositivo que não seja dual-corded precisará ser implantado em um data center dualpath. Nesse caso, alguns benefícios da operação dual-corded podem ser obtidos alimentando-os por uma chave de transferência baseada em rack projetada para essa finalidade ou por uma chave estática fixa, se houver inúmeros dispositivos para serem alimentados.

A presença de dois caminhos de alimentação não garante redundância, e a perda de um caminho pode causar uma sobrecarga e falha no caminho alternativo, a não ser que adições, mudanças e alterações ao longo do tempo não tenham violado os critérios de projeto do sistema.

A solução para assegurar a tolerância a falhas é monitorar cada fase de cada circuito do data center para garantir que nenhum deles seja carregado além de 40%/50%. Esse monitoramento parece complexo devido ao número de circuitos, mas é uma função padrão de algumas PDUs de racks e software DCIM. Ao seguir o conjunto de regras simples descritas neste artigo, os usuários podem assegurar um sistema dual-path com níveis de redundância e disponibilidade planejados.