Descripción general de la empresa
Con más de 350 millones de clientes, Telefónica es una de las principales empresas de telecomunicaciones y uno de los proveedores de telefonía móvil más importantes del mundo. Su sede se encuentra en Madrid (España) y opera en Europa y en América.
Tras sus inicios como empresa pública de telecomunicaciones encargada de proporcionar servicios de comunicación básicos al público general, en la actualidad Telefónica ofrece un catálogo integral de conectividad y reproducción múltiple a través de sus redes de propiedad exclusiva. La empresa ofrece servicios de telefonía móvil a unos 276 millones de clientes y cuenta con más de nueve millones de suscriptores de fibra/cable y más de 8 millones de clientes de televisión de pago.
El desarrollo de una red de entrega de contenido de categoría mundial
La marca Telefónica se ha desarrollado gracias a la prestación de servicios sólidos y fiables a sus clientes. Una parte esencial de esta labor es el resultado del trabajo continuo de Telefónica en materia de innovación, con el fin de garantizar la calidad del servicio en todas sus redes.
A lo largo de los últimos años, la proliferación de los nuevos servicios de voz, Internet y vídeo ha incrementado de forma considerable la complejidad de la metodología de entrega de Telefónica. Esto ha llevado a un incremento notable del volumen de logs de diferentes datos y métricas relacionados tanto con la prestación del servicio como con su consumo. En respuesta a esta nueva realidad, las empresas de telecomunicaciones, tengan el tamaño que tengan, han invertido mucho dinero en la gestión de infraestructuras. Muchas de estas soluciones se han desarrollado para obtener una visión operativa sobre partes específicas de dichas infraestructuras. Sin embargo, lo que no existía hasta el momento era una forma de extraer, unificar y analizar datos pertenecientes a diferentes sistemas en tiempo real.
Al igual que muchos otros agentes del sector, Telefónica había desarrollado sus propios sistemas internos, que eran complejos, con un mantenimiento costoso y que ofrecían muy poca flexibilidad desde el punto de vista técnico. Asimismo, estos sistemas solo permitían analizar los incidentes una vez que se habían producido y, además, había problemas de latencia. El sistema interno ofrecía un repositorio de datos, aunque sin la posibilidad de analizarlos o adoptar medidas en función de estos.
Telefónica encontró la solución que necesitaba de la mano de Elastic Stack. Este software permitió a la empresa combinar y analizar diferentes fuentes de datos sin tener que disponer de un formato de datos unificado. Telefónica está trabajando para crear una plataforma de gestión de datos que ofrezca acceso en tiempo real al valor operativo y comercial de los datos que posee. Todo ello permitirá mejorar la experiencia general del cliente.
La potencia de Elastic Stack
Álvaro Aldana, director técnico de supervisión de vídeo a escala global, y su equipo de la unidad de vídeo global de Telefónica, han estado experimentado con las versiones iniciales de la red de entrega de contenido de la empresa, incluida la supervisión mediante una combinación de soluciones de código abierto y de tecnología exclusiva. El objetivo era comenzar a ampliar el catálogo de servicios para conseguir más clientes, al mismo tiempo que se utilizaban los datos de métricas y logs ocultos para mantener el rendimiento. Con el rápido crecimiento de los servicios de vídeo bajo demanda, comunicación móvil e Internet, el equipo de Álvaro era consciente de que necesitaban una solución sofisticada y altamente escalable que permitiera el procesamiento instantáneo y el análisis en tiempo real de los datos procedentes de diferentes fuentes. Tras evaluar diferentes opciones, se eligió Elastic Stack como la opción ideal para eliminar los desarrollos ad hoc y llevar la plataforma a una escala empresarial.
En pocos meses, el equipo rediseñó la plataforma para que pudiera admitir las transacciones de los clientes y los logs de transmisión de vídeo en Elasticsearch, con el fin de obtener información sobre el consumo realizado y el rendimiento del servicio. Por ejemplo, fue posible examinar los canales que estaban viendo los clientes, así como los datos sobre latencia y las estadísticas de tasas de transmisión asociadas. Esta información se había pasado por alto de forma sistemática antes de la adopción de Elastic Stack. Ahora, el equipo no solo podía ver la composición de la audiencia de Telefónica y el contenido que estaban viendo, sino que además podían supervisar la proporción de visualización que tenía lugar en directo o bajo demanda en regiones geográficas específicas y en momentos concretos del día.
Análisis de los datos de logs y de las anomalías a escala
Los datos de logs proporcionan información valiosa sobre lo que sucede en redes de gran tamaño. Estos incluyen todos los eventos que tienen lugar dentro de un sistema, como, por ejemplo, inicios de sesión, interacciones de usuarios y errores en forma de logs de texto intermitentes. Cuanto mayor es el número de sistemas y formatos, más complejo es el reto.
Telefónica concluyó que Elasticsearch era la herramienta ideal para supervisar y analizar grandes volúmenes de datos con diferentes formatos, así como para encontrar anomalías, detectar tendencias y realizar previsiones.
El secreto para la verdadera mejora del rendimiento radica en la progresión desde la supervisión de logs básica hasta el análisis a gran escala de la actividad de negocio. Ahora podemos explorar nuestros datos de formas nuevas y diferentes, en una única plataforma escalable, así como pasar a un modelo en el que podemos innovar y optimizar en lugar de limitarnos a realizar tareas de supervisión y mantenimiento.
Al poder explorar los datos de logs en tiempo real (independientemente de su formato), el equipo puede explorar con facilidad nuevas relaciones y correlaciones y tener nuevas ideas rápidamente. Esta nueva libertad de exploración no solo ha permitido a Telefónica pasar de la resolución de problemas a la optimización de sistemas, sino que además ha revelado que el análisis de datos ocupa una posición mayor dentro de la actividad de negocio global.
Por ejemplo, el equipo puede consultar fácilmente el número de errores que se producen en cada fragmento de vídeo y compararlo con el uso de la infraestructura. Este desarrollo ha sido esencial, ya que ahora el equipo puede determinar qué servidores presentan las mayores tasas de uso, el motivo y dónde deben centrarse los recursos del equipo de ingeniería. Al incrementar el volumen y la variedad de los datos admitidos, consultados, analizados y almacenados, pueden notificar cualquier posible problema a sus equipos de operaciones con un mayor nivel de detalle, resolver incidencias de una forma más proactiva y eficiente, así como optimizar el rendimiento de la red en tiempo real.
Desde la incorporación de Elasticsearch a la red de entrega de contenido en 2014, Telefónica ha experimentado una explosión en el volumen de contenido consumido, a medida que nuevos usuarios se han unido a la plataforma. El número de clientes de Telefónica se ha duplicado a lo largo de los últimos tres años y, por ello, el equipo ha seguido experimentando en este ámbito.
En concreto, el equipo de Álvaro ha incrementado su actividad en lo relacionado con la detección de anomalías en función del contenido de los logs. Para ello, están utilizando las características de aprendizaje automático de Elastic (Machine Learning) para analizar patrones en otros logs de la organización. En concreto, nos referimos a los asociados a la actividad integral de la plataforma de vídeo: actividad de codificado/decodificado, flujo de trabajo de contenido y otras actividades de servidor que tienen lugar fuera del núcleo principal de la red de entrega de contenido. Las características de aprendizaje automático de Elastic modelan de forma automática el comportamiento de las tendencias de datos de Elasticsearch, su periodicidad y mucho más. Antes de la activación de estas funciones, el equipo no podía detectar con facilidad estas anomalías. La detección de los factores que tenían influencia sobre estas anomalías permitió que los ingenieros detectasen las incidencias más rápido, al mismo tiempo que agilizaba el análisis de causas raíz y se reducía el número de falsos positivos. Todo esto ha mejorado los aspectos anteriores y contribuido a mantener sus estándares de calidad de servicio.
El aprendizaje automático de Elastic es muy prometedor para una amplia gama de casos de uso. De hecho, nos está ayudando mucho con los logs asociados a la gestión del servicio, al permitirnos identificar problemas nuevos en los servicios de transmisión y entrega de contenido que podrían quedar ocultos de otro modo. Estas incidencias no visibles pueden afectar de forma negativa a nuestra imagen, por lo que ser capaces de identificar estos pequeños problemas en tiempo real con Elasticsearch nos permite mejorar nuestro tiempo de respuesta, asegurarnos de que la plataforma de entrega de servicios funciona correctamente y garantizar el mantenimiento de nuestra reputación de calidad.
A medida que Telefónica experimentaba un crecimiento sostenido del volumen de consumo en su servicio digital, se comprendió que era necesario analizar y almacenar volúmenes de datos cada vez mayores. La empresa necesitaba acceder a unos 15-25 días de datos, unos valores mucho mayores a los 3 días que había almacenado hasta la fecha. En concreto, el equipo estaba especialmente interesado en conseguir que la plataforma fuera accesible para los desarrolladores sin que se produjeran problemas de rendimiento cuando un usuario realizase una consulta de gran tamaño.
Asimismo, en menos de cuatro meses, Telefónica cambió desde una solución previa de logs para la plataforma de vídeo a Elasticsearch, lo que le permitió comprender el sistema de una forma más holística, examinar las anomalías gracias a características de aprendizaje automática y ahorrar costes de forma simultánea.
Álvaro y sus compañeros han colaborado estrechamente con los equipos de trabajo sobre el terreno y asistencia de Elastic para desarrollar y ajustar la plataforma, así como para probar y ampliar su combinación de hardware hasta encontrar la combinación ideal.
La clave es el grado de integración con otras soluciones (sobre todo con las de nuestro proveedor anterior) y la facilidad de configuración. Al colaborar con Elastic, hemos podido ajustar cada componente de la plataforma hasta un punto en el que hemos podido apreciar mejoras considerables. El rendimiento de la plataforma se ha acelerado considerablemente y ahora podemos procesar hasta 200 000 documentos por segundos. Esto es posible gracias al proceso de ajuste que hemos podido llevar a cabo en colaboración con el equipo de asistencia de Elastic.
Los resultados
El equipo indica que se han producido cambios positivos de forma inmediata en la potencia de procesamiento de la plataforma, aunque las mejoras más destacadas han tenido lugar en los procesos operativos. Ahora, Álvaro puede ver, en tiempo real, si un parche de software es efectivo o si una nueva actualización está afectando al tiempo necesario para mostrar un fragmento de vídeo al usuario final. Todo esto ha sido posible gracias a Elastic.
Antes de usar Elastic, Telefónica contaba con un subconjunto de métricas de servicio limitadas basadas en procesos de lotes. En la actualidad, los equipos de desarrollo de la red de entrega de contenido pueden ver, en tiempo real KPI completamente consolidados y desarrollar paneles en tiempo real para tomar decisiones de forma inmediata.
«Poder examinar los cambios en tiempo real ha transformado la forma en la que gestionamos la red de entrega de contenido. Es algo que no era posible hasta que comenzamos a trabajar con Elastic Stack», indicó Álvaro. «Podemos mejorar con rapidez porque disponemos de un potente ecosistema de herramientas desarrolladas en Elasticsearch. Hemos podido llevar a cabo un proceso de desarrollo rápido y ampliar las soluciones en las que se integra. ¿El resultado? Elastic Stack ocupa un lugar esencial en nuestra estructura de trabajo operativa».
Los procesos de innovación basados en la combinación de datos de logs y del aprendizaje automático están proporcionando a Telefónica una visión global sobre su red de entrega de contenido, lo que le ha permitido pasar de un modelo de administración y mantenimiento a uno de optimización de red: algo que resulta esencial para la mejora general del servicio. El uso de Elasticsearch permite a los administradores encontrar anomalías y detectar los problemas más rápido. Asimismo, es posible modelar y analizar grandes volúmenes de datos históricos no solo para aprender de fallos pasados, sino también para identificar patrones, tendencias, precursores y señales de advertencia.
El futuro
El equipo cree que la estrategia de Telefónica sobre el rendimiento de red es la base y el secreto para garantizar la fidelización del cliente, tanto ahora como en el futuro. Por ello, van a ampliar la implementación de Elastic Stack a las aplicaciones de la plataforma de vídeo, entre las que se incluyen portales para clientes, gestión de derechos digitales, administración de contenido y aprovisionado de clientes.
«Solo a través de la innovación en lo relacionado con el rendimiento de la red, así como pasando a un modelo de optimización en lugar de la mera supervisión, seremos capaces de desarrollar el tipo de red en la que confiarán nuestros clientes. La fiabilidad y la resistencia van a seguir siendo nuestros principales prioridades a medida que crecemos y ofrecemos nuestro catálogo de servicios mediante métodos nuevos e interesantes», concluye Álvaro. «Elastic nos ha aportado una plataforma inteligente y con un excelente grado de detección que nos ofrece la posibilidad de responder en tiempo real y de estar mejor preparados para crecer».
Clústeres de Telefónica
- Número de clústeres1
- Número de nodos10
- Número total de documentos30,176,007,552
- Tamaño de datos total27TB
- Índice de indexación diariaAprox. 1-1,5 TB por día