Observability
Telecommunications

Telefónica: Alimentando a busca pela Rede de Fornecimento de Conteúdo de classe mundial

Um pouco sobre a empresa

Com mais de 350 milhões de clientes, a Telefónica é uma das maiores empresas de telecomunicações e provedora de rede móvel do mundo. Com sede em Madri, na Espanha, suas operações multinacionais se estendem pela Europa e Américas.

Teve início como uma empresa de telecomunicações pública, fornecendo serviços de comunicação básicos ao público em geral. Atualmente, a Telefónica oferece conectividade abrangente e múltipla, que é entregue através de suas próprias redes. A empresa atualmente fornece serviços a 276 milhões de clientes móveis, mais de nove milhões de usuários de fibra/cabo e mais de oito milhões de clientes de TV paga.

Criando uma Rede de Fornecimento de Conteúdo (CDN) de classe mundial

A marca Telefónica foi construída ao fornecer serviços robustos e confiáveis a seus clientes. Uma parte essencial disso é o resultado do foco contínuo da empresa em inovação, para garantir a qualidade dos serviços em suas redes.

Nos últimos anos, a proliferação da nova voz, internet e serviços de vídeo ampliaram dramaticamente a complexidade da metodologia de fornecimento da Telefónica. Isso levou a um aumento acentuado no volume de registros diversos e métricas de dados criados tanto para fornecimento quanto para consumo de serviços. Como resposta, empresas de telecomunicações de todos os tamanhos investiram pesadamente em gerenciamento de infraestrutura. Muitas dessas soluções foram desenvolvidas para fornecer insight operacional em partes específicas dessa infraestrutura. Entretanto, ainda faltava uma forma de extrair, unificar e analisar os dados que estavam espalhados entre os vários sistemas diferentes. E fazer isso em tempo real.

Como muitas outras do setor, a Telefónica criou seus próprios sistemas internos, que eram complicados, custosos para manter e que ofereciam pouquíssima flexibilidade técnica. Além disso, só compreendiam os incidentes após a ocorrência, e a latência era problemática. O sistema interno fornecia um repositório de dados, mas não havia uma forma significativa de analisar os dados ou agir com base nos novos insights.

A Telefónica encontrou a solução com no Elastic Stack, que lhes permitia combinar e analisar diferentes fontes de dados sem a necessidade de um formato de dados unificado. A Telefónica está inovando para criar uma plataforma de gerenciamento de dados que forneça acesso em tempo real ao valor operacional e comercial dos dados que possuem, levando a uma melhor experiência geral de cliente.

Descobrindo o poder do Elastic Stack

Líder Técnico de Monitoramento de Vídeo Global, Álvaro Aldana e sua equipe da Unidade de Vídeo Global da Telefónica, tem experimentado iterações iniciais na Rede de Fornecimento de Conteúdo (CDN) da empresa, incluindo o monitoramento usando um conjunto de soluções proprietárias e de código aberto. O objetivo era começar a escalar o portfólio de serviços para integrar mais clientes ao passo que utilizando insight oculto nos dados de registros e métricos para manter o desempenho. Com o rápido crescimento do Vídeo sob Demanda (VoD), serviços móveis e internet, a equipe de Álvaro sabia que precisariam de uma solução mais sofisticada e altamente escalável que permitisse a ingestão instantânea e análise em tempo real dos dados de diversas fontes. Após experimentar várias opções, o Elastic Stack foi selecionado como o ideal para remover desenvolvimentos ad-hoc e trazer a plataforma para uma escala empresarial.

Em poucos meses, a equipe reprojetou a plataforma para ingerir transações de cliente e registros de transmissão de vídeo no Elasticsearch para obter insight sobre o desempenho de consumo e serviço. Por exemplo, eles poderiam ver quais canais seus clientes estavam assistindo, assim como finalmente ver as estatísticas e latências de taxa de bits associadas — dados que eram constantemente subestimados antes da adoção do Elastic Stack. Não apenas eles poderiam ver a composição da audiência de visualização da Telefónica e quais conteúdos eles estavam assistindo como também poderiam monitorar a parte da visualização que ocorria ao vivo ou sob demanda em geografias particulares e em horários específicos do dia.

Analisando dados de registros e anormalidades em escala

Dados de registro fornecem informações valiosas sobre o que está acontecendo em grandes redes. Os registros armazenam informações de todos os eventos ocorridos no sistema, como login, interação de usuário e erros como registros baseados em texto intermitente. Quanto mais sistemas e formatos, maior é o desafio.

A Telefónica encontrou no Elasticsearch a ferramenta perfeita para monitoramento e análise de grandes volumes de dados com formatos diferentes e percebeu a força da localização de anomalias, detecção de tendências e previsão de dados.

O segredo para o real aprimoramento de desempenho está na progressão do monitoramento básico de registros para a análise em grande escala da empresa. Agora, podemos explorar nossos dados de formas novas e diferentes em uma plataforma escalável e passar para um modelo onde estamos inovando e otimizando ao invés de monitorar e manter.

– Álvaro Aldana, Líder Técnico de Monitoramento de Vídeo Global, Telefónica

Ao poder explorar dados de registro em tempo real (independentemente do formato de registro original), a equipe pode facilmente explorar novos relacionamentos e correlações conforme surgem novas ideias. Essa nova liberdade encontrada para explorar não só permitiu à Telefónica que passasse da solução de problemas para a otimização do sistema como se revelou uma função nova e ainda maior para análise de dados em negócios mais amplos.

Por exemplo, a equipe pode facilmente ver o número de erros ocorrendo em cada fragmento de vídeo e compará-lo ao uso de infraestrutura. Esse tem sido um desenvolvimento crucial, pois a equipe agora pode dizer instantaneamente quais servidores são mais usados, por qual motivo e onde concentrar os recursos de engenharia. Ao aumentar o volume e a variedade de dados ingeridos, consultados, analisados e armazenados, eles podem relatar potenciais problemas às equipes de operações com um maior nível de insight, resolver questões de uma forma mais proativa e eficiente e otimizar o desempenho da rede em tempo real.

Desde a incorporação do Elasticsearch à CDN em 2014, a Telefónica viu uma explosão no conteúdo consumido conforme novos usuários aderem à plataforma. O número de clientes da Telefónica dobrou ao longo dos últimos três anos e, como resultado, a equipe continuou a experimentar.

Em específico, a equipe de Álvaro expandiu para a detecção de anomalias com base no conteúdo dos registros. A equipe está usando o aprendizado de máquina Elastic para analisar padrões em outros registros da organização. Mais especificamente, registros da plataforma de vídeo ponta a ponta da Telefónica: atividade de codificação/decodificação, fluxo de trabalho de conteúdo e outras atividades de servidor de fora do núcleo CDN. Os recursos de aprendizado de máquina da Elastic modelam automaticamente o comportamento das tendências de dados e periodicidade do Elasticsearch, entre outros. Antes de ativar os recursos de aprendizado de máquina, eles não podiam detectar facilmente essas anomalias. Detectar os fatores que influenciam essas anomalias permitiu aos engenheiros identificar os problemas mais rapidamente, simplificar a análise de causa raiz e reduzir os falsos positivos. Isso melhorou todos os itens acima, assim como protegeu seus padrões de qualidade de serviço.

Vemos uma grande promessa para a aplicação do aprendizado de máquina da Elastic no estado em diversos casos de uso. Na verdade, já está nos ajudando bastante no registro de gerenciamento de serviços, ao identificar novos problemas dentro do fornecimento de conteúdo e transmissão de serviços que, em outros casos, estariam ocultos. Esses problemas ocultos podem prejudicar a nossa imagem, portanto, poder identificar essas pequenas questões em tempo real com o Elasticsearch significa que estamos muito mais responsivos, os serviços de fornecimento de conteúdo funcionam bem e a nossa reputação de qualidade é mantida.

– Álvaro Aldana, Líder Técnico de Monitoramento de Vídeo Global, Telefónica

Conforme a Telefónica viu um aumento consistente no consumo de seus serviços digitais, percebeu que precisava analisar e armazenar maiores volumes de dados. Era necessário acessar de 15 a 25 dias de dados em comparação aos 3 dias que eles tinham historicamente. A equipe estava particularmente interessada em tornar a plataforma facilmente disponível para os desenvolvedores e sem quedas de desempenho quando um usuário realizava uma consulta maior.

Além disso, em menos de quatro meses a Telefónica passou da solução anterior de registro de plataforma de vídeo para o Elasticsearch, compreendendo o sistema de forma holística, vendo as anomalias com recursos de aprendizagem de máquina e economizando ao mesmo tempo.

Álvaro e seus colegas trabalharam lado a lado com as equipes de campo e suporte da Elastic para construir e ajustar a plataforma, testando e expandindo o mix de hardware para encontrar a combinação perfeita.

Tudo se resume à como ela se integra com outras soluções — especificamente, com o fornecedor anterior — e na facilidade de configuração. Ao trabalhar em colaboração com a Elastic, pudemos ajustar cada componente da plataforma ao ponto de vermos grandes melhorias. O desempenho da plataforma acelerou-se significativamente: nos permitiu processar 200.000 documentos por segundo, tudo alcançado através do ajuste fino e da parceria com a equipe de suporte da Elastic.

– Álvaro Aldana, Líder Técnico de Monitoramento de Vídeo Global, Telefónica

Resultados

A equipe relatou melhorias imediatas na força de processamento da plataforma, mas os avanços mais notáveis foram nos processos operacionais. Agora, Álvaro pode ver, em tempo real, se um patch de software é eficaz ou como uma nova atualização está afetando o tempo para um fragmento de vídeo ser exibido ao visualizador final. A Elastic tornou isso possível, o que representa o benefício mais notável para a Telefónica.

Antes da Elastic, a Telefónica tinha um subconjunto de métricas de serviço limitado baseado em processos em lote. Agora, as equipes de desenvolvimento de CDN podem ver, em tempo real, os KPIs totalmente consolidados e criar painéis em tempo real para tomada de decisão imediata.

«Poder ver as alterações em tempo real transformou a forma em que gerenciamos a CDN e é algo que não era possível antes de começarmos a trabalhar com o Elastic Stack», observou Álvaro. «Nós podemos melhorar rapidamente pois temos um poderoso ecossistema de ferramentas incorporadas no Elasticsearch. Nós fomos capazes de nos desenvolver rapidamente, expandir as soluções em que se integra para que, agora, o Elastic Stack esteja firmemente no núcleo do nosso quadro operacional».

A inovação em torno da combinação de dados de registro e aprendizagem de máquina fornece à Telefónica uma visão holística da sua CDN, passando-a de um modelo de gerenciamento e manutenção para a otimização da rede — o que é fundamental para melhorar o serviço em geral. Usar a Elasticsearch permite aos administradores encontrar anomalias e identificar causalidades mais rápido. Também se tornou possível modelar e analisar grandes volumes de dados históricos, não apenas para aprender de erros passados como também para identificar padrões, tendências, precursores e sinais de alerta.

Futuro

O foco da Telefónica em desempenho de rede é, de acordo com a equipe, a fundação e o segredo para manter a lealdade do cliente tanto agora quanto no futuro. A empresa expandirá a implementação do Elastic Stack para suas aplicações de plataforma de vídeo como portais de cliente, gerenciamento de direitos digitais, gerenciamento de conteúdo e provisionamento de cliente. Mas, de acordo com Álvaro, é o conjunto de tecnologias que permitirá à Telefónica permanecer competitiva, não importando o quanto o setor de telecomunicações mude e as necessidades do cliente evolua.

«Somente ao inovar em torno do desempenho de rede — e passando para um modelo de otimização em vez de simples monitoramento — nós vamos construir o tipo de rede que os nossos clientes vão confiar. Confiabilidade e resiliência continuarão sendo nosso foco principal à medida que crescemos e entregamos nosso portfólio de serviços de maneiras novas e interessantes», concluiu Álvaro. «O que a Elastic nos trouxe é uma plataforma altamente sensível e inteligente que nos dá o poder de responder em tempo real e nos preparar para o crescimento.»

Clusters da Telefónica

  • Número de clusters
    1
  • Número de nós
    10
  • Número total de documentos
    30.176.007.552
  • Tamanho total dos dados
    27 TB
  • Taxa de ingestão diária
    Cerca de 1 a 1,5 TB ao dia