可观测性
电讯

Telefónica: 助世界级内容交付网络的搜索

公司概览

Telefónica 的客户数量超过 3.5 亿,是全球最大的电信公司和移动网络提供商之一。公司总部位于西班牙马德里,业务运营遍及欧美各地。

Telefónica 创立之初是一家公共电信公司,向公众提供基本的通信服务,现在已经发展成为通过完全自有网络提供全面的多重播放和连接服务的企业。公司目前为 2.76 亿移动客户提供服务,有九百多万光纤/有线订阅用户以及八百多万付费电视客户。

构建世界级内容交付网络 (CDN)

Telefónica 品牌植根于为客户提供强大可靠的服务,其核心之一在于 Telefónica 不断致力于创新,以确保其网络的整体服务质量。

在过去几年,新型语音、互联网和视频服务的激增极大增加了 Telefónica 提供其服务的方式的复杂性。这使得围绕服务提供和消费产生的各种日志与指标数据量急剧增加。对此,各种规模的电信公司在基础架构管理方面投下巨资,制定了许多解决方案来提供对该基础架构特定部分运营的分析信息。但这些方案都无法提取、整合和分析分布在多个不同系统中的数据,更不用说实时完成全部这些功能。

与业内其他许多公司相似,Telefónica 创建了自行设计的系统,这些系统繁琐复杂、成本高,而技术灵活性非常低。另外,这些系统对发生的问题只能做到后知后觉,延迟性是个很大问题。此内部系统可提供数据存储库,但并没有任何有意义的方法来分析数据,或者根据新的分析结果采取措施。

Telefónica 通过 Elastic Stack 找到了有效的解决方案,该方案能够合并与分析不同的数据源,而无需统一的数据格式。Telefónica 不断创新以创建数据管理平台,实时挖掘所拥有数据的运营和商业价值,从而改善整体客户体验。

了解 Elastic Stack 功能

全球视频监控技术总监 Álvaro Aldana 以及其在 Telefónica 全球视频部门的团队一直在试验公司内容交付网络 (CDN) 的早期迭代,包括组合使用开源与专属解决方案对其进行监控。目的在于开始扩展服务组合以吸引更多客户,同时利用对日志和指标数据的分析结果保证服务水准。随着视频点播 (VoD)、移动和互联网服务的快速发展,Alvaro 的团队知道他们需要一个功能全面、高扩展性的解决方案,以便对来自多个源的数据进行即时采集和实时分析。在尝试数个方案之后,该团队最终选择了 Elastic Stack,彻底摒弃了临时随机的开发模式,并将平台发展成企业级别。

短短数月内,团队重新设计了平台,以将客户交易和视频流日志采集到 Elasticsearch 中,从而获得对消费和服务性能的分析结果。例如,他们能知道客户正在观看的频道并最终获取到相关比特率统计数据和延迟,而这些都是采用 Elastic Stack 之前一直被忽略的信息。该团队不仅能知道 Telefónica 的观众构成及其正在观看的内容,还可监测特定区域和一天中特定时间进行实时观看或点播观看的比例。

大规模分析日志数据和异常情况

日志数据可提供大型网络内部与相互之间所发生情况的有价值信息。日志将系统中发生的所有事件(例如登录、用户互动以及错误)记录为间歇性文字记录。系统和格式越多,挑战越复杂。

Telefónica 最终发现 Elasticsearch 是监控和分析大规模不同格式数据的最佳工具,并可及时发现异常、分析趋势和预测数据。

促使性能真正提高的原因在于系统从基本的日志监控发展到对整个企业进行大规模分析。我们现在能够在可扩展的平台内以新的不同方式对数据进行分析,相应模式可帮助我们不断创新和优化,而不仅仅是监控和维护。

– Álvaro Aldana, Telefónica 全球视频监控技术总监

通过实时分析日志数据(支持任何源日志格式)功能,团队只要有了新想法,就能轻松快速地分析新的关系和相关性。这种全新的自由探索分析功能不仅使 Telefónica 从解决问题转向系统优化,还让数据分析能够在更广泛的业务中发挥更重要的新作用。

例如,团队能轻松知道每个视频片段发生的错误数量,并将此信息与基础架构使用情况进行比较。这个功能非常重要,团队现在能立即分辨出负荷最大的服务器、导致此情况的原因以及应集中使用技术资源的地方。采集、查询、分析与存储的数据量和种类增加后,团队可通过更高级别的分析向运营团队报告潜在问题,更积极高效地解决问题并实时优化网络性能。

自 2014 年 Telefónica 将 Elasticsearch 引入 CDN 以来,新用户不断加入平台,内容消费量出现爆炸式增长。Telefónica 的客户数量单单在过去三年就增加了一倍,因此团队要不断尝试引入新功能。

尤其特别的是,Alvaro 的团队已发展到根据日志内容检测异常。他们目前正在使用 Elastic Machine Learning 分析组织其他日志的模式,更具体地说,是来自 Telefónica 的端到端视频平台的日志:编码/解码活动、 内容工作流以及核心 CDN 以外的其他服务器活动。Elastic Machine Learning 功能会自动将 Elasticsearch 数据趋势、周期等行为进行建模。在引入 Machine Learning 功能之前,他们无法轻易地检测到这些异常。检测对这些异常的影响因素使得其工程师可更快地找到问题,简化根本原因分析并减少误判。这极大改善了上述所有情况,并维护了其服务质量标准。

我们看到 Elastic Machine Learning 的应用非常广阔,适用于各种用例。事实上,它已经给予我们很大帮助,解决了服务管理日志问题 — 识别内容交付中出现的新问题,并提供可能无法通过其他方式实现的服务。如果无法发现和解决这些问题,将极大损害我们的形象。通过 Elasticsearch 实时识别这些细小的问题,意味着我们能够更快地作出响应,更好地提供内容交付服务,从而维护我们的高质量声誉。

– Álvaro Aldana, Telefónica 全球视频监控技术总监

随着数字服务需求的稳步增长,Telefónica 意识到需要分析和存储更大量的数据。他们需要访问 15-25 天的数据,而其过往只保留 3 天的历史记录。团队特别希望在用户进行大量查询时,开发人员能轻松使用该平台,而性能不会下降。

此外,在不到四个月的时间里,Telefónica 从先前视频平台日志的解决方案转换到 Elasticsearch,可更长时间地保存系统记录,并通过 Machine Learning 功能找到异常,同时节省成本。

Alvaro 及同事与 Elastic 现场和支持团队展开紧密合作,不断测试和扩展硬件组合以找到最佳组合方式,共同打造出平台并将其调整到最佳状态 。

关键在于如何很好地与其他解决方案特别是以前的供应商进行整合,以及如何简单地进行配置。与 Elastic 进行合作后,我们能对平台的每个部分进行调整,直到产生重大改进。平台性能得到显著提升:通过不断调整以及我们和 Elastic 支持团队的紧密合作,目前可实现每秒处理 200,000 个文档。

– Álvaro Aldana, Telefónica 全球视频监控技术总监

结果

团队报告称平台处理能力得到明显提升,但最显著的改进还是运营流程。Alvaro 现在能够实时了解软件补丁是否有效,或更新对视频片段提供给最终观看者所需时间的影响。Elastic 使这一切成为可能,同时也是 Telefónica 最显著的优势。

在引入 Elastic 之前,Telefónica 使用以批处理为基础的有限服务指标。如今,CDN 开发团队能实时了解完全整合的 KPI,并构建实时仪表板以供即时决策。

Alvaro 指出:“能够实时了解到相应的变化,这转变了我们管理 CDN 的方式。在我们使用 Elastic Stack 之前,这是根本不可能的。”我们能快速进行改进,因为我们拥有建立在 Elasticsearch 基础上的强大工具生态系统。我们能快速进行开发;将解决方案扩展到目前所整合的方案中,Elastic Stack 牢牢占据我们运营框架的核心地位。”

将日志数据与 Machine Learning 相结合进行的创新,使 Telefónica 能了解其 CDN 的历史记录,从管理和维护方式转向网络优化,这对改善整体服务至关重要。使用 Elasticsearch 能让管理员更快地发现异常并查明原因。另外还可以对大规模历史数据进行建模和分析,这样做不仅能从过去的问题中汲取经验教训,还能发现相应模式、趋势、预兆和警告信号。

未来

团队相信,Telefónica 专注于提升网络性能是维持现在以至未来客户忠诚度的基础和秘诀。他们将在视频平台应用中拓展实施 Elastic Stack,如客户门户网站、数字版权管理、内容管理及客户预配置。但 Alvaro 认为,无论电信行业与客户需求如何变化,技术融合会让 Telefónica 一直保持竞争力。

Alvaro 总结道:“只有围绕网络性能进行创新,并转向优化而非简单监控的模式, 我们才能打造客户信赖的网络。随着我们以有趣的新方式开发和提供服务组合,可靠性与适应力仍将是我们关注的重点。Elastic 给我们带来了高度敏感的智能化平台,能让我们作出实时响应,从而促进业务的发展。“

Telefónica 集群

  • 集群数目
    1
  • 节点数目
    10
  • 文档总数
    30,176,007,552
  • 总数据量
    27TB
  • 每日采集量
    每日约 1-1.5TB