从 Splunk 迁移至ES ,Elastic助力新东方低成本、高效率应对数据增长
“Elastic Stack给新东方的运维和信息安全提供了一个强大的数据支撑能力,对业务来讲则是提供了一个更高效的查询引擎。“
———新东方集团运维团队负责人 王威
- l 日志管理低成本、高效率——改用 Elastic 之后,日志处理量从使用 Splunk 时的每天70-100G提升到700-800G,而且成本大幅降低。
- l 问题定位快速准确,提升运维话语权——收集数据范围广泛,多维指标关联分析能够更快地找出问题,缩短解决时间,提升运维的话语权。
- l 标准基础服务加速研发迭代与创新——ES标准基础服务让开发人员无需自己搭建架构,专注于产品迭代与创新。
- l 毫秒级查询引擎迅速、精准——ES支持近实时的高并发数据量搜索,让查询更迅速、精准。
公司概览
新东方是中国最全面的民办教育服务提供商,线下网络囊括全国100多所学校、超过1360个学习中心,业务覆盖中国91个城市。近几年,这家运营近30年的“老牌教育公司”,为了能把优质服务扩展至更多的城市和学生,又重点发力OMO(Online-Merge-Offline,线上与线下融合)战略,累计已为超5540万人次学生提供服务。
从线下到线上,从传统教室到线上双师模式,对于新东方的整个技术系统,对于前端APP 和线上平台的响应能力,对于后端IT运维支撑与保障,都将带来一场史无前例的考验。
为何从 Splunk 改用 Elastic?
对于线上体验,学员们更加重视服务稳定和响应速度,而对于IT 运维团队来讲,他们则要不断监测和优化系统,保障平台日常安全稳定运转,以及大规模用户涌入平台时依然能够顺畅访问页面,因此,日志管理在其中发挥着重要作用。
在早期,新东方应用Splunk进行日志分析,为其提供业务洞见,当时每天处理数据量为70G-100G。但随着业务量和数据量增多,闭源的Splunk日志管理成本也在大幅提升,新东方一直在寻找Splunk的替代方案,以达到“量与成本”的平衡。
性价比更高的开源方案成为首选,而在开源文化中最流行和优秀的是ELK方案,恰好当时新东方应用的开源搜索引擎也出现了社区发展等问题,所以在2017年,新东方最终决定选择性能和扩展性更好的Elastic Stack,并尝试利用容器技术来进行管理,以降低ELK的总体拥有成本。 “如今,Elastic Stack日均处理数据量达到了700-800G,是应用Splunk时的8倍。”,王威介绍说。
而从业务角度讲,新东方对业务数据的搜索、查询和排序,此前一直依赖数据库,或在缓存里由工程师编写查询方法。但数据库性能较差,缓存中写也有相当大的难度,Elastic Stack提供了高性能的搜索、查询和排序能力,帮助新东方减少开发成本,同时提升开发系统的性能。
运维化“被动”为“主动”,提升话语权
对于IT 运维团队来讲,每天TB级以上的日志管理和全域、全流量安全感知是最基本的工作,他们要不断监测和优化系统,保障大规模用户涌入平台时系统能稳定运转。
在应用Elastic Stack之前,运维人员日志处理的多是事件触发性、故障处理型任务,若监控不报警则很难发现问题所在,处于非常被动的状态。而通过ES丰富的日志分析能力,运维人员收集数据的范围越来越广泛,包括系统、PV/UV(页面浏览量/访客数)、安全、规范、业务埋点和日志查询等等。
王威表示:“对这些多维指标和跟踪信息进行关联分析,我们能够更快地找出根本原因,如某接口的算法错误导致阻塞,并最终缩短解决时间,这大大提升了运维的话语权,更好地赋能一线研发人员。”
而安全分析的数据更加分散,各种边界、应用和主机设备中搜集出的网络流量镜像、WAF数据、Windows AD 域认证日志、SSH登陆日志和服务器性能数据等,利用ES将其进行汇集后,进行近实时全流量协议解析和分析,并基于特定逻辑进行安全事件、DDOS、病毒等预警之类的规则编排。“相比通过大数据技术进行安全分析,我们通过Elastic Stack完成安全分析的效率要高得多。” 王威介绍到。
ES 标准基础服务,让研发人员快速迭代与创新
从幼儿园、小学、中学、大学和出国留学,新东方几乎涉及了每一个教育领域,业务矩阵之复杂,国内几乎找不到第二家,这也决定了新东方的研发力量特别足,他们需要对各条产品线的每一个功能、每一个细节进行持续迭代和优化,解决一切影响用户体验和教学效果的问题。
作为一个PaaS平台中间件,Elastic Stack不仅提供高 SLA 保障、高性能和低成本,还起到架构规范和标准基础服务的作用,新东方的各研发团队只要申请内部槽位,无需自己搭建架构,就可即开即用,还免除了后续的版本升级、维护问题,开发效率大幅提升,有更多精力专注于迭代和创新。
“同时新东方的在线业务系统已经全面拥抱Elastic Stack,形成了写数据库读Elastic Stack的架构,对研发人员来讲就是简单、敏捷和标准!”,王威介绍说。
高效搜索引擎提升中台能力,让查询更迅速、精准
现在教育领域都在向业务中台化发展,中台能力就是能够为所有前台提供一个高效、快速的数据查询和服务支撑,对性能的要求相比单体系统要严格许多,新东方中台架构底层数据就构建在Elastic Stack上,整体脱离了对数据库的依赖。
对于学员来讲,要在几万门课程中查询所需的学区、校区、关注课程乃至心仪的老师;新东方则要通过搜索学员以往的学习历程,确定其销售规则和计算优惠策略,比如续费、扩报、抢座等。晚上8点是其线上平台的流量高峰,学员们都会在课程中心查询作业,并发量很高,还有针对优秀老师的报名抢座,搜索量级也会突增,所以匹配的查询请求需要毫秒级的时间响应。
王威表示:“诸多类似场景都在大量依赖Elastic Stack,产品支持近实时的高并发数据量搜索,让我们的查询更精准。现在新东方每天日均搜索数据量达1TB,并发查询每秒2.5万次。”
未来的 Elastic 路线图
从运维来讲,仅仅对日志进行分析和监控还远远不够的,很多故障解决需要结合APM数据进行综合分析,新东方正在探索应用Elastic APM模块和机器学习进一步提升AIOps智能运维能力。此外, 还会加强多集群的容灾能力,进一步提升ES服务的稳定性。
“应用Elastic商业版后,我们获得了更好的技术支持,确保了SLA稳定性,同时在频繁升级版本时避免的了风险发生,Elastic每次技术迭代都契合了行业需求,我们将会Elastic有长久的合作。”王威说到。