10 maneiras de aumentar a disponibilidade do sistema de energia


As empresas podem reduzir de forma significativa a exposição ao tempo de inatividade de energia ao adotar mudanças comprovadas para seus processos de negócio e práticas de gestão do sistema de energia elétrica. Este artigo discute as 10 melhores práticas para a construção e manutenção de uma infraestrutura de data center com alta disponibilidade de energia.


John Collins, Gerente de Linha de Produto da Eaton e Naser Ali, Gerente de Segmento de Data Centers da Eaton EMEA

Data: 02/03/2017

Edição: RTI Janeiro 2017 - Ano XVII, No200

Compartilhe:

Este artigo discute as 10 melhores práticas, normalmente subutilizadas, para a construção e manutenção de uma infraestrutura de data center com alta disponibilidade de energia.

Gestão de processos e negócios

1) Quebrar as barreiras organizacionais

Na maioria das empresas, dois departamentos separados contribuem para a gestão do data center: TI e facilities. O departamento de TI supervisiona a infraestrutura de computadores do data center, assim como as aplicações e, normalmente, reporta-se ao CIO da empresa. O departamento de facilities lida com energia e refrigeração e, normalmente, reporta-se ao COO ou vice-presidente de infraestrutura. Essa estrutura organizacional dividida aumentou a burocracia nas grandes empresas, muitas vezes resultando em falta de comunicação entre as pessoas responsáveis, por manter as cargas em trabalho e as pessoas responsáveis por fornecer energia e refrigeração para elas.

Historicamente, a comunicação inadequada entre os departamentos de TI e facilities tem causado pouco perigo à disponibilidade do data center. Até recentemente, as cargas de trabalho e requisitos de energia, mesmo nos maiores data centers, foram modestos o suficiente para que os gerentes de TI pudessem reposicionar segurança aos servidores e distribuir cargas de trabalho da melhor forma, sem colocar pressão excessiva sobre os sistemas elétricos ou de refrigeração.

As infraestruturas de servidores, no entanto, são cada vez maiores, mais quentes e requisitam mais energia o tempo todo. Além disso, a adoção generalizada de servidores blade e virtualização, os quais simplificam a administração de hardware e aumentam as taxas de utilização do servidor, assim como aumentam drasticamente o cálculo de densidades e geração de calor, só acelerou essas tendências. Os data centers, com cargas de trabalho ou hardware flexíveis, alastrando-se cada vez mais hoje em dia sem a consultoria de um engenheiro de facilities, poderiam resultar na alimentação elétrica e sistemas HVAC sobrecarregados e, consequentemente, derrubar serviços essenciais.

Infelizmente, porém, enquanto os próprios data centers têm evoluído significativamente nos últimos anos, as estruturas organizacionais não têm acompanhado esse crescimento. Os departamentos de TI e facilities continuam como ilhas que não conseguem se comunicar adequadamente sobre questões operacionais importantes.

Melhor prática: Para diminuir a incidência de inatividade relacionado à energia, as empresas devem estabelecer procedimentos claramente definidos e documentados de como e quando os gestores de TI e gerentes de facilities devem consultar uns aos outros antes de implementar modificações no data center.

Para melhorar ainda mais a comunicação entre os departamentos de TI e de facilities, as empresas também devem considerar mudar seu organograma organizacional de modo que TI e facilities se reportem ao mesmo nível executivo. Isso pode fazer cumprir a interação entre o pessoal dos departamentos de forma mais fácil, sujeitando-os a um conjunto de expectativas e a uma estrutura de comunicação comum.

2) Concentrar-se nos valores a longo prazo ao invés de custos de curto prazo

Em muitas empresas, as prioridades de curto e longo prazo estão em conflito durante a construção ou renovação de um data center. Altos executivos geralmente convencem os responsáveis pela construção de data centers a reduzir custos e o tempo de entrega. Como resultado, os participantes da cadeia de suprimentos, tais como engenheiros, empreiteiros e gerentes de projeto, em projetos de construção de data centers, tendem a escolher equipamentos com base no fornecedor que apresentou o preço mais acessível e prometeu a entrega mais rápida.

Os responsáveis pela operação dos data centers, no entanto, têm um conjunto diferente de prioridades que, muitas vezes, são mais alinhadas com os interesses de longo prazo da empresa. Hardware de baixo custo, de fato, economiza durante a construção do data center. Mas se esse equipamento de preço acessível não atender às especificações operacionais, conforme definido no projeto arquitetônico original, ele pode acabar custando muito mais para a organização, ao longo do tempo, com a redução da eficiência e disponibilidade.

Essa situação é agravada pela prática da concorrência entre três licitantes. Quando um engenheiro é obrigado a abrir licitação para a compra de grandes equipamentos, o operador do data center sofre. Muitas vezes, o produto de menor desempenho é o mais barato pela extração das suas características para reduzir os custos.

Melhor prática: Executivos com poder de análise e decisão sobre a construção ou projeto de reforma do data center devem examinar cuidadosamente as decisões de aquisição que os gerentes de produto e empreiteiros estão fazendo, para garantir que ninguém promova riscos em longo prazo para uma economia em curto prazo. Eles também devem comunicar claramente a importância de cumprir rigorosamente as especificações operacionais originais, mesmo que isso signifique gastar um pouco mais durante o processo de construção.

As empresas podem também querer definir metas e objetivos para os gerentes de facilities da construção, que colocam menos ênfase na redução de custos em curto prazo. Recompensas às equipes de construção para terem uma abordagem em longo prazo podem diminuir o incentivo em cortar custos, de forma a impactar diretamente sobre a vida útil de um data center.

3) Adotar processos de trabalhos padronizados

Os departamentos de TI estão cada vez mais utilizando estruturas padronizadas de melhores práticas, como o ITIL - Information Technology Infrastructure Library para ajudá-los a sistematizar e melhorar os processos de trabalho. Desenvolvido pelo governo britânico, na década de 1980, o ITIL define formas específicas, eficazes e replicáveis para lidar com gerenciamento de incidentes, operações de service desk e outras tarefas comuns de TI. As organizações que seguem as orientações do ITIL geralmente apreciam o melhor controle sobre os ativos de TI, capacitando-os a diagnosticar e tratar mais facilmente as interrupções. A situação se agrava à medida que o ITIL foi projetado para um ambiente mais estático e linear, no qual a mudança era mais física e menos rápida.

Infelizmente, poucos departamentos de facilities empregam processos rigorosos e uniformes de manutenção, como os definidos pelo ITIL, contando apenas com procedimentos ad hoc e os conhecimentos acumulados de gerentes de facilities. Como resultado, os padrões de manutenção de sistemas de energia e refrigeração são muitas vezes inferiores ou menos consistentes do que para os sistemas de TI, resultando em maior tempo de inatividade.

Melhores práticas: Embora processos completos e comprovados, tais como o do ITIL, ainda precisem ser desenvolvidos, departamentos de facilities podem e devem tomar medidas para desenvolver e documentar seus próprios processos padronizados. A realização de atividades essenciais de forma consistente pode reduzir significativamente a probabilidade de avarias de sistemas de energia e refrigeração, ao mesmo tempo em que aumenta a produtividade dos departamentos técnicos de facilities.

4) Considerar a facilidade de reparo junto com a confiabilidade quando avaliar componentes do sistema de energia

As pessoas costumam usar “disponibilidade” e “confiabilidade” de forma intercambiável. De fato, as duas palavras têm significados relacionados, mas são distintas.

Confiabilidade, medida pelo tempo médio entre falhas do sistema, ou MTBF, é um dos dois principais componentes da disponibilidade. A outra é o tempo médio necessário para reparar um dado sistema quando ele falhar, ou MTTR. A fórmula para a disponibilidade é como se segue:

Disponibilidade = MTBF/(MTBF + MTTR)

Um servidor, switch ou a fonte de alimentação podem ser altamente confiáveis, na medida em que raramente se experimenta um tempo de inatividade. Ainda assim, não são altamente disponíveis porque eles têm uma média de tempo alta para o reparo. No entanto, os departamentos de TI, muitas vezes, ignoram completamente o tempo de reparo para avaliar a disponibilidade de um sistema.

Para conferir como essa característica pode comprometer a disponibilidade do data center, considere o caso hipotético de uma empresa tentando decidir-se por usar lâmpadas fluorescentes comuns ou um sistema de iluminação LED mais sofisticado em sua nova sede corporativa. O sistema LED é altamente confiável, uma vez que raramente tem problemas mecânicos. Mas quando os problemas acontecem, se as lâmpadas de LED de reposição não são mantidas em estoque local ou disponíveis a partir de fornecedores locais, substituí-las pode ser um processo demorado. As lâmpadas fluorescentes, por outro lado, têm um MTBF de aproximadamente 6000 horas, tornando-se significativamente menos confiáveis. Mas a sua substituição é tipicamente um processo rápido e relativamente barato, uma vez que é considerado um produto padrão. Tomando a confiabilidade e o tempo médio de reparação em conta, então, as lâmpadas fluorescentes podem realmente proporcionar uma melhor disponibilidade do que o sistema LED. Como a iluminação LED está cada vez mais onipresente em data centers, isto se torna, obviamente, um problema a menos.

A mesma lógica se aplica aos componentes de infraestrutura de sistemas de energia. Sistemas projetados para funcionar sem problemas por longos períodos, sem interrupção, não podem fornecer alta disponibilidade se repará-los for uma operação demorada.

Melhor prática: Ao avaliar os componentes do sistema de energia, as empresas devem olhar para os produtos que são altamente confiáveis e rapidamente reparados. Em particular, eles devem investigar cuidadosamente a rapidez e a eficácia de um determinado fabricante de sistema de energia para atender seus produtos. Quantos engenheiros de serviço o fabricante emprega, onde estão localizados e quão rapidamente eles podem estar em seu data center após uma falha? Há suporte 24x7 disponível? Os engenheiros de serviços conhecem os produtos a fundo? Será que eles têm acesso a outras equipes técnicas, caso não consigam resolver o problema? Até mesmo o sistema de energia mais bem feito e confiável pode oferecer pouca disponibilidade se o fabricante não puder enviar um profissional responsável pela manutenção adequadamente treinado e equipado, logo após uma avaria.

As empresas também devem procurar produtos com estoque disponível e projetos modulares. No caso de um módulo falhar em determinado sistema, outros módulos podem compensá-lo automaticamente, aumentando o MTBF da unidade-mãe. Além disso, os módulos de reposição tendem a ser mais facilmente obtidos do que componentes convencionais e são geralmente fáceis o suficiente para um ou dois técnicos realizarem a instalação rapidamente. O resultado é menor MTTR e, consequentemente, melhor disponibilidade.

Fig. 1 - Em um esquema organizacional otimizado, TI, facilities e executivos compartilham informações de forma aberta e tomam decisões de forma colaborativa

5) Implementar a monitoração em toda a empresa e diagnósticos proativos

Ao contrário da crença popular, alguns sistemas falham, sem aviso prévio, salvo em caso de catástrofes. É que suas advertências muitas vezes passam despercebidas, uma vez que os sistemas de monitoração existentes são de natureza reativa.

Por exemplo, imagine que um UPS falhe tarde da noite, derrubando o seu data center. Há boas chances de que, nos dias ou horas que antecederam a falha, o UPS estivesse emitindo sinais sugestivos de problemas futuros. Talvez o UPS ou as baterias estivessem começando a superaquecer ou apresentar baixo desempenho, por exemplo. No entanto, se os gerentes de facilities não estiverem monitorando os indicadores de performance do sistema, eles provavelmente não irão saber sobre o colapso iminente até o momento em que ele ocorreu.

Melhores práticas: Os mais recentes produtos de gestão empresarial podem ajudar as empresas a monitorar e administrar proativamente equipamentos de missão crítica, incluindo sistemas de energia, sistemas ambientais e de vida/segurança. Mas mesmo o melhor software de nada adianta se não for feita a monitoração. Assim, enquanto a implantação do sistema de monitoração de energia e software de diagnóstico é um começo importante, os departamentos de facilities também devem garantir que seus processos de trabalho estejam padronizados para consulta ao software e possam responder rapidamente aos sinais de perigo. Amarrar esse software de monitoração tanto para o ITSM - IT Service Management quanto para o BSM - Business Service Management torna mais fácil correlacionar eventos e repará-los de forma proativa contra possíveis quedas.

Práticas do sistema de energia elétrica

6) Criar planos de contingência holística

Cada data center está subordinado aos fornecedores externos de energia elétrica, combustível e água. E cada um desses provedores externos promove a interrupção do serviço em algum ponto no tempo. A questão é saber se você está ou não preparado para a crise quando ela ocorrer.

A maioria dos data centers mantém planos de contingência para lidar com a perda de energia ou de água. No caso de falta de energia, esses planos normalmente envolvem a utilização de um gerador a diesel até que o serviço elétrico seja restaurado. Mas o que fazer se, entre 24 e 48 horas, o estoque de combustível se esgotar antes que a eletricidade se restabeleça?

Essa é precisamente a situação que inúmeras organizações enfrentaram no nordeste dos EUA e parte do Canadá, em agosto de 2003, quando um grande apagão deixou cerca de 55 milhões de pessoas sem energia por vários dias. Muitas empresas, incluindo um grande prestador de serviços financeiros, tiveram esgotado o suprimento de combustível diesel do gerador antes da energia elétrica ser restabelecida. Ao contrário da maioria das empresas, no entanto, o prestador de serviços financeiros tinha uma grande reserva de dinheiro para ocasiões emergenciais como esta. Como resultado, conseguiu obter o combustível adicional necessário apesar da demanda disparada, enquanto outras empresas correram para buscar fundos ou financiamentos.

Novas tecnologias como as dos equipamentos de TI ou mesmo sub- componentes também estão disponíveis, como o balanceamento de energia de servidores e os estados de hibernação para CPUs. Orquestrá-los, bem como consolidar as máquinas virtuais em um número menor de hosts físicos para serviços críticos priorizados, podem ser ferramentas adicionais para uma melhor sobrevivência em emergências. Depois, há todo o conceito de continuidade de negócios na nuvem que depende do ponto de recuperação e os objetivos de tempo de recuperação, bem como a tolerância à latência.

Melhor prática: Departamentos de TI e de facilities têm controle direto sobre muitos dos problemas que podem causar a queda de um data center. Mas, mesmo os mais bem projetados e cuidadosamente construídos são vulneráveis a problemas, que estão fora do controle da organização. As empresas, portanto, devem pensar de forma abrangente sobre questões externas que poderiam impactar seus data centers e pesar, cuidadosamente, os custos e os benefícios de se preparar para eles.

Por exemplo, o armazenamento de combustível diesel e água suficientes para os chillers para cinco dias ao invés de dois dias pode ser caro, mas é significativamente menos caro do que três dias de inatividade. E as chances de perder o controle por mais de 48 horas pode ser maior do que você pensa: quando uma enorme tempestade de gelo atingiu a Inglaterra e Nova York, em dezembro de 2008, por exemplo, mais de 100 mil pessoas ainda estavam sem energia elétrica quase uma semana depois.

Executar a automação dos servidores, mover máquinas virtuais e ter acesso irrestrito são coisas para se pensar.

Quando se trata de planejamento de contingência, então, “esperar o melhor, mas esperar o pior” é uma regra que vale ouro.

7) Garantir um ambiente de trabalho seguro

Arcos voltaicos (explosões de fogo que podem resultar de um curto- circuito em equipamentos elétricos de alta potência) matam centenas de trabalhadores a cada ano nos EUA e ferem permanentemente outros milhares. Podem, também, causar estragos financeiros sob a forma de multas, ações judiciais e danos a equipamentos caros. No entanto, muitos operadores de data centers estão perigosamente familiarizados com as causas e os perigos graves que acarretam os arcos elétricos.

Nos EUA, as concessionárias normalmente fornecem energia em 480 V. A maioria dos data centers dos EUA, no entanto, opera entre 120/208 V. Tem havido uma tendência crescente na indústria para fornecer tensões CA superiores para racks de equipamentos de TI, a fim de eliminar os transformadores que convertem 480 V para 120/208 V.

Em um circuito de 120/208 V, arcos tendem a se dissipar, então os incidentes raramente são capazes de causar ferimentos fatais ou permanentemente incapacitantes. Em um circuito de 400 V, pelo contrário, um curto-circuito acidental pode iniciar um arco voltaico que não se dissipa. Como resultado, arcos elétricos em circuitos de 400 V rotineiramente provocam explosões poderosas marcadas por um calor abrasador, fumaça tóxica, luz ofuscante, barulho ensurdecedor e ondas de pressão devastadoras. Sem proteção adequada, os trabalhadores expostos a tais explosões podem sofrer queimaduras de terceiro grau, pulmões colapsados, perda de visão, tímpanos rompidos, perfurações e, até mesmo, a morte.

Melhor prática: Ocorrências de arcos voltaicos merecem atenção dos profissionais de data center. Aqui estão listadas as seis estratégias mais eficazes para reduzir a frequência, gravidade e nocividade dos incidentes com arco voltaico:

8) Adotar uma topologia de sistema de energia adequada para as suas necessidades

A topologia do sistema de energia tem um grande impacto sobre os custos de aquisição, despesas operacionais, confiabilidade e tempos médios de reparo. Quanto mais redundância se construir em um determinado data center, mais ele vai custar para construir e operar, porém vai se recuperar mais rápido de uma interrupção.

O Uptime Institute, uma organização de pesquisa independente que presta serviços para proprietários e operadores de data centers empresariais, definiu quatro topologias de sistema de energia para instalações de missão crítica que ilustram este princípio (tabela I). A topologia Tier I ou II é relativamente mais barata do que uma topologia Tier III ou IV, mas também fornece menor confiabilidade e disponibilidade.

Melhor prática: Não há uma resposta única e correta quando se trata de escolher uma topologia de sistema de energia. As organizações devem corresponder a topologia de acordo com as suas circunstâncias e necessidades, que são movidas, principalmente, pela criticidade das aplicações de TI às infraestruturas de data centers.

Por exemplo, uma topologia Tier II pode ser ideal para um data center que hospeda um aplicativo web, assumindo vários sites de backup disponíveis, porque os usuários não reclamam se, ocasionalmente, encontrarem alguns segundos de latência. Em Wall Street, no entanto, segundos de latência podem resultar em milhões de dólares perdidos. Então, em um data center que hospeda um aplicativo de negociação financeira seria sensato utilizar uma topologia Tier IV.

Em alguns casos, os operadores estão construindo data centers individuais com vários níveis de confiabilidade. Em geral, os data centers globais podem ser construídos com um padrão Tier II, entretanto data centers com mais aplicações críticas merecem uma proteção extra do Tier III ou IV, simplesmente pela adição de linhas de energia, sistemas e soluções de refrigeração para realizar a redundância extra.

9) Substituir equipamentos obsoletos

Anomalias na energia elétrica podem afetar a forma como equipamentos eletrônicos sensíveis operam e até incluir falhas de componentes que podem ter impactos significativos sobre uma empresa inteira.

Os data centers utilizam UPS para se proteger contra anomalias de energia. Tais sistemas limpam sistemas elétricos “sujos” e fornecem energia de emergência durante as interrupções. Data centers com sistemas UPS com 10 anos ou mais normalmente serão transformados com base nos circuitos de conversão de energia de última geração. Como resultado, ambas as performances, elétrica e de eficiência, foram menores do que o ideal. Atualmente, os UPS têm eliminado os transformadores caros e ineficientes e melhorado os circuitos de conversão de energia. Alguns UPS são ainda capazes de funcionar nos modos de alta eficiência, alcançando 99% de eficiência - uma melhora de 15% a 20% com base em perfis reais de carga de data center.

Melhor prática: A substituição de sistemas UPS antigos por modelos mais novos é uma forma de baixo risco e custo para aumentar a confiabilidade e a eficiência operacional. Na verdade, programas de descontos são oferecidos para compensar o custo de instalação dos novos UPS para incentivar os operadores de data center a fazer a substituição para economizar energia. Essa mesma possibilidade também existe em outras partes do data center. Utilizar acionamentos de velocidade variável e implementação de iluminação LED também podem economizar energia sem diminuir a confiabilidade.

10) Auditar os sistemas de energia

A maioria dos gerentes de data centers pensa que sabe o que os seus sistemas de energia são capazes de entregar. Mas poucos, no entanto, realmente sabem. Isso porque a maioria das empresas não consegue auditar sua infraestrutura de energia em uma base regular.

Somente por meio de auditoria dos sistemas de energia e dos processos operacionais usados para apoiá-los, é possível estabelecer parâmetros máximos de carga do seu data center, de forma concreta. Baseando-se, ao invés disso, apenas nas especificações dos produtos e nas garantias contratadas, você pode expor o data center ao risco de capacidades deficientes no momento em que precisar colocar novas cargas de trabalho de TI em produção, mas não poderá devido à alimentação insuficiente.

Melhor prática: Promova auditoria em seus sistemas de energia cuidadosa e regularmente. Atualize todos os desenhos de construção, esquemas, manuais de operação, bem como os equipamentos de facilities que devem ser substituídos ou atualizados.

Conclusão

Manter a disponibilidade em data centers grandes, aquecidos e complexos, atualmente, é mais difícil e mais estrategicamente vital do que nunca, especialmente considerando a economia global, as pressões de sustentabilidade, além da diminuição da força de trabalho. As empresas já utilizam uma variedade de tecnologias e processos para assegurar que os sistemas de TI de missão crítica tenham acesso à energia limpa e confiável. No entanto, a maioria das organizações poderia reduzir ainda mais a sua exposição ao tempo de inatividade, adotando as melhores práticas discutidas neste artigo. Algumas dessas práticas, reconhecidamente, exigem investimentos adicionais em um novo hardware ou software. Mas outras são tão simples quanto a possibilidade de os departamentos de TI e facilities se comunicarem.

É claro que as 10 melhores práticas aqui discutidas dificilmente esgotam as inúmeras formas das empresas de protegerem seus data centers das interrupções de serviço relacionadas com a energia. Organizações sérias que avaliam a disponibilidade do data center devem continuamente estudar de perto instalações de ponta para identificar novos processos e tecnologias a serem adotadas. O tempo gasto em tal tarefa é retorno certo em forma de novas ideias para assegurar as operações de data centers contínuos.