26 10월 2016 출시

Elasticsearch for Apache Hadoop 5.0 GA 출시

By James Baiera

Hadoop 사용자와 데이터 사용량이 많은 기업은 Elasticsearch for Apache Hadoop(ES-Hadoop라고도 함)의 완벽한 검색 및 분석 엔진을 통해 워크플로우를 실시간으로 향상시킬 수 있습니다. 바로 지금, 여러분이 기다려오던 순간입니다. (두구두구두구두구) 개발자와 데이터 사이언티스트 여러분, Elasticsearch for Apache Hadoop 5.0.0을 소개해드립니다!

몇 개의 초기 릴리스와 한가득한 피드백 게시물, 오랜 기다림 끝에 마침내 나왔습니다! Elastic Stack 5.0이 개발되면서 ES-Hadoop과 함께 결승선을 끊었습니다! 이번 릴리스에는 상당한 양의 안정성 개선, 버그 수정 및 새로운 멋진 기능들이 포함되었으며 여러분 모두가 만족하시길 바랍니다. 더 이상의 고난은 없습니다.

ES-Hadoop 5.0의 새로운 기능

이전 기능과 새로운 기능의 조화!

이보전진을 위해서는 일보후퇴가 필요한 경우가 때로 있습니다. 당사는 다양한 통합을 위해 여러 버전을 올렸습니다. 그 과정에서 이전 버전 일부에 대한 지원 기능을 제거했습니다. 이전 버전을 사용하는 경우, ES-Hadoop 5.0을 사용하기 전에 호환성 극대화를 위해 이전 프로그램들을 업데이트하는 것이 가장 좋습니다.

Hive 1.0을 맞이하고 Hive 0.13 및 0.14과 이별

Hive 1.0은 출시된 지 꽤 되었으면 대부분의 배포가 이미 Hive 1.0으로 이전했습니다. 이에 따른 코드 기반 정리 과정에서 Hive 0.13 및 Hive 0.14에 대한 지원 기능이 제거되었습니다.

안녕 Storm 1.x, 바이바이 Storm 0.9

Storm 지원 기능이 1.0.x로 업그레이드되었습니다. 현재 버전은 이전 버전인 Storm 0.9.x와 호환되지 않으므로, 이러한 버전에 대한 지원 기능을 제거해야만 했습니다.

안녕 Spark 2.0, 바이바이 Spark 1.0-1.2

Spark에 대한 지원 기능이 Spark 2.0 최신 버전으로 업데이트되었습니다. 이 버전의 Spark는 이전 버전의 Spark와 호환되지 않습니다. Spark 1.3-1.6에 대한 지원 기능은 [별도의 호환성 요소]로 유지하기로 결정했습니다. https://mvnrepository.com/​artifact/​org.elasticsearch/​elasticsearch-spark-13_2.10/​5.0.0 SparkSQL은 처음에 Spark 1.0-1.2에서 알파 구성 요소로 출시되었습니다. 그 이후 SparkSQL은 Spark 1.3에서 안정화되었으나, API가 크게 변경되었습니다. 서로 다른 3가지 버전의 Spark를 지원하는 것은 상당히 소모적입니다. 이로 인해 Spark 1.0-1.2에 대한 지원 기능을 제거하게 되었습니다.

HDFS 레파지토리

HDFS 레파지토리가 상당히 업그레이드되어 이제 Elasticsearch 지원 사항의 일부가 되었습니다. 이 업그레이드로 인해 ES-Hadoop 프로젝트에서 이를 제거했습니다. Elasticsearch 5.0의 HDFS 플러그인은 편리하게 패키징되어 있을 뿐만 아니라 더 긴밀히 통합되어 있습니다. 이러한 개선 과정에서 더 이상 지원되지도 않는 JVM SecurityManager 옵션을 비활성화할 필요가 없었습니다.

(Hadoop/Spark) + Slice API = 향상된 병렬 처리

Elasticsearch의 새로운 스크롤 슬라이스(Scroll Slicing) 기능을 지원하기 위해 상당한 부분이 변경되었습니다. 이제 입력 작업당 보려는 최대 도큐먼트 수를 지정할 수 있으며, 프레임워크가 입력 스플릿을 추가로 나눠서 병렬 컴퓨팅을 증대시킵니다. 공유라는 것은 멋지지 않습니까?

Ingest Node

Ingest Node라는 이 멋진 새 기능은 알파 릴리스에 제공되었으며 Elasticsearch v5.0에 제공됩니다. 당사는 “아! 우리가 항목들을 통합하는구나, 이 노드가 항목들을 통합하는구나. 가십거리를 나누기 위해 바로 브런치를 예약해야겠어.”라고 생각했습니다. ES-Hadoop 5.0이 출시됨으로써 이제 데이터를 보낼 ingest pipeline을 지정할 수 있을 뿐만 아니라 Ingest Node만을 대상으로 하여 불필요한 트래픽을 줄일 수 있습니다. 당사는 브런치, Ingest Node에 대한 여러분의 의견을 여전히 기다리고 있습니다. 연락 부탁드립니다!

Spark 스트리밍에 대한 기본 지원

Spark는 매우 빠르지만 데이터가 더 빨라야 할 때가 있습니다. 여러분 중 일부가 ES-Hadoop을 Spark Streaming에 사용한다는 것을 듣고 매우 즐거웠지만, 여러가지 한계에 부딪히고 있다는 소식에 마음이 아프기도 했습니다. 그래서 이와 관련하여 조치를 취하기로 결정을 내렸습니다. 이제 ES-Hadoop가 Spark Streaming의 DStream 사용을 기본적으로 지원합니다. Spark Streaming과 관련하여 가장 많이 보고된, 짧은 처리 시간 동안 연결 리소스가 부족해지는 문제에 대한 수정을 포함했습니다. TIMED_WAIT가 적어짐이 함께하고, Spark Streaming 작업에 장수와 번영을 기원합니다.

효과가 빠른 버그 방지 기능

컴퓨터는 어렵습니다. 당사는 문제를 보고해주는 커뮤니티의 동료들이 있다는 다행스러운 사실에 항상 감사하고 있습니다. ES-Hadoop 카피본을 열면 새로운 버그 수정 배치가 이미 적용되어 있을 것입니다. 이러한 버그에는 SparkSQL로 데이터 덮어쓰기, 네트워크 코드의 메모리 누수, 매핑의 “properties” 하위 필드 등이 다양하게 포함됩니다. 이러한 문제를 여기에 모두 나열하면 공간에 여유가 없을 것입니다. 활동하고 계신 버그 사냥꾼 여러분을 격려합니다. 이 모든 것들은 여러분을 위한 것입니다.

피드백

언제나 마찬가지로 Elasticsearch의 잘하고 있는 부분과 개선이 필요한 부분에 대한 사용자들의 의견을 듣고자 합니다. 시간이 있으실 때 Twitter, GitHub 또는 포럼에 의견을 남겨주세요. 운영 요원이 상시 대기중입니다.

Special Thanks

ES-Hadoop 팀은 지난 몇 달간 진행된 알파 및 베타 릴리스 과정에서 도움을 주신 모든 얼리어답터 분들께 특히 감사를 드립니다. 5.0은 여러분 덕분에 최고의 릴리스가 될 수 있었습니다. 품격을 계속 유지해주세요.