Disponibilidade, capacidade e eficiência de data centers

Este artigo explica as cinco principais razões para o aumento descontrolado dos custos dos data centers, introduzindo, em seguida, os indicadores de desempenho ACE – Disponibilidade, Capacidade e Eficiência e o processo de modelagem contínua. Essas duas ferramentas podem ajudar os proprietários e operadores de data center a economizarem milhões de dólares anualmente por data hall.

Akhil Docca, Dave King e Steve Davies, da Future Facilities

Data: 25/09/2016

Edição: RTI Setembro 2016 - Ano XVI - N^o 196

Compartilhe:

Os operadores e proprietários de data centers estão buscando cada vez mais soluções para diminuir os custos total de propriedade e por kW de carga de TI e o tempo de inatividade.

Tendo isso em mente, em qualquer negócio ou tipo de data center, há um forte desejo de minimizar um ou mais dos seguintes itens:

Aumento dos custos previstos
TCO - Custo Total de Propriedade.
Custo por quilowatt ($/kW) da carga de TI.
Tempo de inatividade

Fig. 1 - Plano detalhado dos custos de um típico data center Tier III. O TCO esperado nunca coincide com o TCO real

Em uma indústria onde o valor previsto de TCO é ultrapassado, em média, por cerca de US$ 27 milhões por MW, o índice $/kW dispara e fica fora de controle dentro de poucos anos após a entrada em operação e o custo médio do tempo de inatividade é US$ 627 mil dólares por incidente, os operadores e proprietários querem soluções.

O planejamento inadequado e o uso ineficiente de energia, refrigeração e espaço representam uma ameaça significativa aos seus esforços de diminuir os custos. No entanto, é exatamente esse fato que muitas vezes força a tomada de decisão – construir uma nova instalação para aliviar a pressão causada pela difícil situação ou investir em uma ampla atualização da instalação. Nenhuma “solução” é atrativa; portanto, por que os operadores e proprietários frequentemente estão em uma posição onde suas aspirações nunca são realizadas?

Este artigo não apenas responde a esta questão, mas também oferece uma solução para o futuro.

Primeiro, identificamos os cinco maiores contribuintes do aumento de custos e tempo de inatividade. Em seguida, apresentamos a melhor oportunidade de reduzir esses problemas por meio da adoção de uma solução simples e de baixo custo: os indicadores de desempenho ACE – Disponibilidade, Capacidade e Eficiência.

Esses indicadores são uma forma exclusiva de avaliação e visualização de três indicadores críticos do desempenho de um data center, baseando-se no mapeamento de dados dos conjuntos de ferramentas DCIM – Gerenciamento da infraestrutura do data center em um modelo de instalação virtual 3D. Com esse processo automático executado, a distribuição do fluxo de ar e temperatura no espaço é simulada. Essa convergência de dados de DCIM e modelagem preditiva é denominada modelagem preditiva para DCIM.

Esses indicadores de desempenho podem ser usados desde o início até a operação, considerando a inter-relação dinâmica das três variáveis ACE, que ditam basicamente o nível de operação de um data center e, por extensão, os respectivos custos de operação:

Disponibilidade (A) de TI, incluindo períodos de falha da alimentação e refrigeração.
Qual a capacidade (C) disponível para instalar, alimentar e refrigerar TI adicional.
Eficiência (E) do fornecimento da refrigeração para a TI.

Com os indicadores de desempenho ACE introduzidos e explicados, concluímos apresentando um processo de negócio simples, onde eles podem ser facilmente aplicado: modelagem contínua.

O desafio do data center

Entre os vários desafios que um operador ou proprietário enfrenta na gestão de um data center estão a restrição do TCO, redução de $/kW e minimização do tempo de inatividade.

Fig. 2 - Uma tela do Tetris: os blocos (representando TI) são todos conhecidos antecipadamente, facilitando sua colocação

O desafio é ilustrado em nosso exemplo de uma instalação com carga de TI de um 1 MW (megawatt). Vamos selecionar o TCO estimado para efetuar o exemplo. Em tal instalação, o TCO deve ser de US$ 32 milhões ao longo de 15 anos. A realidade, contudo, é completamente diferente: os custos dispararam atingindo US$ 59 milhões de dólares (figura 1). Observando a figura, o que aconteceu para os custos quase dobrarem? Em resumo, há uma discrepância entre a capacidade física realmente aplicada.

Portanto, está claro que os data centers têm potencial para ser um buraco negro financeiro. Mas por que isto ocorre? A resposta é simples: devido à inadequação da disponibilidade, capacidade e/ou eficiência. Isso ocorre devido a cinco causas principais, descritas a seguir.

Projetistas e a cadeia do projeto

Quando o operador/proprietário publica um edital de licitação para o respectivo data center, ele está inconscientemente criando um ambiente onde um único produto (a instalação) está sendo fornecido por vários fornecedores independentes.

Esses fornecedores, muitas vezes, não conversam entre si, levando à ocorrência de problemas durante a construção e após a entrega do data center. Isso vai prejudicar a capacidade física, provocar eventuais períodos de inatividade e ineficiência da refrigeração a longo prazo.

Aspiração vs. realidade: O projeto nunca é compatível com as operações de TI

Há um grande gap entre os requisitos de projeto desejados e a realidade da instalação construída. O proprietário paga por uma coisa, mas na verdade recebe muito menos.

O orçamento global do data center (Capex e Opex) é financiado com base na capacidade de preencher a instalação com TI para 100% da carga do projeto. De acordo com o Gartner e 451 Group, essa condição é simplesmente não realista. Na verdade, essas duas empresas independentes concordam que a maioria dos data centers terá efetivamente uma “utilização da capacidade” de apenas 70%. A maioria dos data centers modernos projetados para missão crítica experimenta baixa utilização da capacidade.

Fig. 3 - Uma tela do Tetris: os blocos têm diferentes formas, significando diferentes configurações de TI

A baixa utilização da capacidade aumenta os custos associados ao uso do espaço de piso, infraestrutura, operação e energia para uma determinada carga de TI. Combinados, esses custos elevam drasticamente o TCO e custo/kW, conforme mostrado na figura 1.

A causa raiz do gap é esta: quando um data center é especificado, são usados parâmetros de nível muito elevado (kW de TI total ou kW de TI por rack, por exemplo). Baseando-se nesses parâmetros, as consultorias apresentam um projeto sensato que atende aos requisitos de disponibilidade, capacidade e eficiência. No entanto, os projetistas trabalharam com base em hipóteses não consistentes com a operação real de um data center.

A realidade é esta: a expansão de TI durante as operações nunca é compatível com as considerações do projeto original; haverá variações ao longo do tempo de acordo com as necessidades de mudança do negócio. Em resumo, há uma disparidade entre o projeto esperado da instalação e seu desempenho operacional real.

Para entender exatamente por que a utilização da capacidade é tão baixa. A figura 2 representa a fase de projeto do ciclo de vida do data center: todos os blocos (representando os equipamentos de TI) são conhecidos antecipadamente, o que torna o jogo previsível. No entanto, a figura 3 reflete a realidade de um data center operacional: os blocos não apenas são diferentes daqueles usados no projeto, mas também chegam com muito pouco tempo de sobra. A pressão do tempo para colocá-los na placa causa a fragmentação do espaço e capacidade.

Não é possível para um projeto conceitual garantir o desempenho durante a operação normal devido à variação de TI e à expansão tática da instalação ao longo do tempo.

Operações em silos

Fig. 4 - O data center foi projetado tendo em mente um requisito de refrigeração específico. Após entrar em operação, se a demanda de refrigeração coincidir com o fornecimento de refrigeração, então espaço, potência e refrigeração não serão fragmentados

Operações em silos Um data center é um sistema complexo de múltiplas camadas que atende às necessidades de várias partes (“stakeholders”) com interesses mutuamente exclusivos. As operações de TI, imóveis corporativos, engenharia de instalações, etc., todos planejam e executam ações em seus respectivos silos, influenciando profundamente o desempenho da instalação.

Tais operações baseadas em silos levam a processos operacionais fragmentados, que, por sua vez, provocam a fragmentação da capacidade física. A seguir, três exemplos são apresentados:

As equipes de compras que ditam para as equipes de TI quais equipamentos podem ser adquiridos não estão preocupadas com detalhes como a direção do fluxo de ar de refrigeração. Como resultado, as áreas de TI e de instalação vão receber uma implantação que realmente não “é adequada” ao data center.
As medidas de economia de energia são iniciadas pela equipe de instalação. Isso, frequentemente, traz problemas de refrigeração que podem ter um efeito profundo sobre a disponibilidade e capacidade.
Com a virtualização, as equipes de TI podem executar mais aplicativos em um único pacote de hardware. Além disso, elas também possuem mais capacidade de mover aplicativos onde for necessário com base nas taxas de utilização. Isso cria cargas de calor variáveis na instalação variáveis na instalação devido à utilização do servidor. A equipe de instalação precisa responder efetivamente a essas variações de carga dos equipamentos.

Falta de controle da capacidade

A capacidade física é ditada pelos recursos menos disponível (espaço, potência, refrigeração ou rede) e é vinculada à TI conectada no data center. No entanto, existe um grande equívoco de que rastrear a potência é igual, ou equivalente, a conhecer quanto de capacidade física ainda resta – isso não é verdade.

As ferramentas DCIM, que executam múltiplas funções incluindo o rastreamento de ativos e gestão do fluxo de trabalho, fornecem meios eficientes para o monitoramento e controle de espaço e potência. Como resultado, os operadores e proprietários estão investindo fortemente nessas soluções. Ao fazer nessas soluções. Ao fazer isso, contudo, eles estão correndo o risco de se sentirem tranquilos em uma falsa sensação de segurança.

Os recursos são fragmentados devido às implantações de TI que são drasticamente desviadas da intenção do projeto, resultando no uso assíncrono de recursos. Por exemplo, quando a refrigeração é utilizada mais rapidamente do que espaço e potência, o data center atinge o fim de sua vida muito mais rápido do que o previsto – o recurso menos disponível (refrigeração) não está mais disponível.

Para resumir, DCIM não pode:

Modelar e rastrear a disponibilidade de refrigeração.
Relacionar as distribuições de espaço, potência, refrigeração e TI umas com as outras para mostrar a capacidade.
Prever o impacto dos futuros planos de TI na potência e refrigeração coletivamente.

TI variável dentro de uma infraestrutura fixa

A atualização do hardware de TI, que acontece a cada poucos meses ou anos, é outra variável que compromete a tentativa de reduzir o TCO. Não é realista esperar que uma infraestrutura fixa se adapte às mudanças constantes dos requisitos de software e hardware de TI.

Essas atualizações resultam das necessidades crescentes dos negócios que demandam desempenho e disponibilidade para ambos os clientes internos e externos durante o maior tempo possível. O hardware de TI mais recente pode ter requisitos completamente diferentes para os recursos de espaço, potência e refrigeração, os quais podem nunca ter sido computados pelo projeto original. Os efeitos dessas mudanças de equipamentos são apenas visíveis muito mais tarde nas operações, quando ocorrem os pontos quentes.

Fig. 5 - O que realmente acontece quando o data center entra em operação é que equipamentos reais demonstram exigir muito mais (ou menos) refrigeração. Isso pode prejudicar o fluxo de ar de refrigeração, espaço adjacente e potência

Um exemplo de tal ruptura é que a maioria dos projetos assume padrões de fluxo de ar nos equipamentos de TI “da frente para trás” (figuras 4 e 5). No entanto, não é incomum ter equipamentos de TI que exigem mais (ou menos) refrigeração do que o previsto. De forma similar a refrigeração, o hardware de TI pode muitas vezes exigir mais do que dois cabos de alimentação, que é novamente um desvio da intenção do projeto, mas ambos “violam” as diretrizes que foram estabelecidas quando o data center foi projetado, exigindo uma medida corretiva operacional.

Em resumo, a imprevisibilidade dos equipamentos de TI, juntamente com a necessidade de corrigir os problemas imediatamente, agrava a questão de $/kW.

O que pode ser feito a este respeito?

Efetue a medição do desempenho do data center usando os indicadores ACE e, em seguida, a modelagem contínua.

A forma mais abrangente para medir o desempenho do data center está no uso dos indicadores de desempenho ACE. Eles são detalhados tanto numérica quanto graficamente, permitindo uma interpretação visual dos resultados. Atualmente, eles estão sendo usados pelos principais operadores/proprietários de data centers de todo o mundo para avaliar, melhorar e manter o ambiente.

Esses indicadores vão reduzir os custos totais quase da mesma forma que a virtualização e a computação em nuvem estão sendo usadas para otimizar o valor de cada servidor físico de um data center. A utilização de ACE exige que você comece a pensar e agir de acordo com uma premissa simples: qualquer coisa que você faça, use a modelagem preditiva para simular alterações antes de implementar as mudanças no seu data center. Esse é um processo que chamamos de modelagem contínua.

Indicadores de desempenho ACE

Projetados para serem utilizados em qualquer ponto do ciclo de vida do data center, desde o início até a operação, os indicadores ACE permitem visualizar o gap no desempenho - a diferença entre o que você pagou e o que você realmente pode obter de sua instalação.

Uma vez conhecido esse gap é possível tomar decisões baseadas em melhores informações: quais variáveis devem ser protegidas, o que sacrificar, onde economizar e como reduzir o impacto das mudanças na engenharia que prejudicam o ACE.

Os indicadores de desempenho ACE podem ser usados para uma variedade do “e se”. Por exemplo, e se você pudesse?:

Quantificar a disponibilidade do servidor efetuando uma modelagem preditiva da falha na refrigeração e alimentação.
Quantificar a carga extra de TI conectada que seu data center pode acomodar.
Visualizar o fluxo de ar e temperatura e quantificar sua eficiência de refrigeração.
Executar essas três questões simultaneamente e, em seguida, avaliar o desempenho global em um indicador abrangente.

Estudo de caso

Em 2012, um grande banco de investimento contratou serviços de avaliação e implementação para um data center Tier IV de 2044 metros quadrados, eficientemente gerenciado com ferramentas DCIM e monitoramento online totalmente integradas.

O objetivo foi avaliar o gap no desempenho, fornecer escolhas sobre como reduzir e equilibrar esse gap e, em seguida, implementar as mudanças solicitadas.

Para esse data center, a disponibilidade do servidor tinha sido bem preservada, mas a capacidade e a eficiência da refrigeração foram prejudicadas como resultado de alterações táticas a partir da carga de projeto.

O cliente decidiu proteger a disponibilidade. Isso propiciou escolher a priorização dos ganhos da eficiência de refrigeração ou capacidade, ou enfatizar ambas igualmente.

A escolha foi enfatizar igualmente C e E:

Disponibilidade aumentada: para 100% enquanto simultaneamente são reduzidos os custos de refrigeração.
Capacidade recuperada: 350 kW (10%), ou US$ 8,75 milhões.
Economia obtida com a eficiência: US$ 1,15 milhão (4000 toneladas de CO 2) anualmente – redução de 15% no PUE.

As modernas instalações de missão crítica têm de resistir ao teste do tempo. Elas precisam também estar preparadas para enfrentar as constantes mudanças tecnológicas e a exigência por capacidade de computação maior e variada, bem como a pressão para minimizar o tempo de inatividade.

A implantação de hardware de TI mais recente e concebido de forma diferente representa a principal causa de fragmentação dos recursos (espaço, potência e refrigeração). Isso força o planejamento e a construção de novos data centers muito mais cedo, impondo gastos de Capex muito antes do que o esperado.

Os indicadores de desempenho ACE podem ser usados efetivamente tanto pelos projetistas de data centers, para entregar o melhor projeto possível, quanto pelo operador/proprietário, para comparar o desempenho atual do data center com o projeto original através de:

Redução do tempo de inatividade pela melhoria da disponibilidade.
Controle da capacidade perdida ($/kW e TCO) pelo aumento da capacidade.
Redução das contas de energia pelo aumento da eficiência.

O controle das três variáveis ACE integradas no curto prazo requer os indicadores de avaliação do desempenho ACE (uma prática de trabalho que permite ao operador/proprietário escolher um equilíbrio entre disponibilidade, capacidade e eficiência). A longo prazo, isso exige modelar continuamente todas as futuras alterações na TI do data center e layouts da instalação antes de se comprometer com as mesmas.