26 Oktober 2016 Veröffentlichungen

Elasticsearch für Apache Hadoop 5.0 GA veröffentlicht

Von James Baiera

Elasticsearch für Apache Hadoop, auch ES-Hadoop genannt, ermöglicht es Hadoop-Nutzern und Unternehmen mit großen Datenmengen, ihre Workflows um umfassende Echtzeit Such- und Analysefunktionen zu erweitern. Und Elasticsearch für Apache Hadoop 5.0.0 ist ab sofort verfügbar!

Nach mehreren Vorabversionen, einer Menge Feedback und einiger Wartezeit gibt es einen Release! Der Elastic Stack hat den Sprung auf 5.0 vollzogen und ES-Hadoop ist Teil davon! Diese Version enthält eine ganze Menge Stabilitätsverbesserungen, Fehlerbehebungen und neue Funktionen. Und damit kommen wir zu den Details in ES-Hadoop.

Was gibt es Neues in ES-Hadoop 5.0?

Aktualisierte Integrationen

Wir haben die Versionen für eine Reihe von Integrationen hochgestuft. Dabei mussten wir allerdings die Unterstützung für einige ältere Versionen einstellen. Wenn du ältere Versionen benutzt, solltest du sie vor dem Wechsel auf ES-Hadoop 5.0 aktualisieren, um maximale Kompatibilität zu gewährleisten.

Hive 1.0 ersetzt Hive 0.13 und 0.14

Hive 1.0 ist schon eine ganze Weile verfügbar und die meisten Distributionen haben den Wechsel bereits vollzogen. So haben auch wir die Unterstützung für Hive 0.13 und Hive 0.14 (zwei Versionen, die schwere Fehler enthalten) eingestellt und die Codebasis aufgeräumt.

Storm 1.x ersetzt Storm 0.9

Die Unterstützung für Storm hat ein Upgrade auf 1.0.x bekommen. Diese Version ist leider nicht rückwärtskompatibel zu Storm 0.9.x, weshalb die Unterstützung für diese Versionen eingestellt werden musste.

Spark 2.0 ersetzt Spark 1.0–1.2

Unsere Unterstützung für Spark wurde mit der aktuellen Veröffentlichung auf Spark 2.0 aktualisiert. Diese Spark-Version ist zu keiner vorigen Spark-Version rückwärtskompatibel. Wir haben uns entschieden, die Unterstützung für Spark 1.3–1.6 als separates Kompatibilitätsartefakt zur Verfügung zu stellen. SparkSQL wurde ursprünglich in Spark 1.0–1.2 als Alpha-Komponente veröffentlicht. Seitdem ist SparkSQL in Spark 1.3 stabil geworden, jedoch hat sich die API stark verändert. Die Unterstützung für drei verschiedene Spark-Versionen ist dann doch etwas zu viel. Darum haben wir die Unterstützung für Spark 1.0–1.2 eingestellt.

HDFS-Repository Plugin

Das HDFS-Repository Plugin hat ein umfassendes Upgrade erhalten und ist nun ordentlicher Bestandteil von Elasticsearch. Aufgrund dieses Upgrades haben wir das Plugin aus dem ES-Hadoop-Projekt herausgenommen. In Elasticsearch 5.0 wurde das HDFS-Plugin nicht nur mitgepackaged, sondern auch besser integriert. Eine dieser Verbesserungen ist zum Beispiel, dass ihr den JVM „Security Manager“ nicht mehr deaktivieren müsst – die Option existiert nämlich sowieso nicht mehr.

(Hadoop/Spark) + Slice API = mehr Parallelität

Es wurde eine grundlegende Änderung eingeführt, um die Verwendung der neuen Scroll-Slicing-Funktion von Elasticsearch zu unterstützen. Jetzt könnt ihr die Maximalanzahl der Dokumente angeben, die ihr pro Input-Task sehen wollt. Das Framework wird dann versuchen, die Inputs optimal zu splitten, um mehr Daten parallel zu verarbeiten.

Ingest Node

Ingest Node ist ein neuer Node-Typ in Elasticsearch 5.0. Und genau wie ES-Hadoop nimmt er Daten entgegen. Daher war es naheliegend, dass ihr mit der Veröffentlichung von ES-Hadoop 5.0 Ingest-Pipelines festlegen könnt. Und ihr könnt eure Datenübertragung genau auf diese Ingest-Nodes beschränken, um unnötigen Traffic zu vermeiden.

Native Unterstützung für Spark Streaming

Spark ist schnell, aber manchmal müssen die Daten noch schneller sein, wofür sich ES-Hadoop mit Spark Streaming anbietet. Leider gab es dabei einige Beschränkungen, an denen wir mittlerweile gearbeitet haben. ES-Hadoop bietet nun native Unterstützung für den Empfang von DStreams aus Spark Streaming. Außerdem haben wir einige Fehler rund um Spark Streaming behoben, die häufig für Probleme gesorgt haben: zu wenige Verbindungsressourcen bei kleinen Bearbeitungszeitfenstern. Mögt ihr nur wenige TIMED_WAITs haben und eure Spark-Streaming-Aufträge lang und in Frieden leben.

Weniger Bugs

Wir danken unserer tollen Community für ihre Hilfsbereitschaft, was das Melden von Problemen angeht. Wenn ihr eure neue ES-Hadoop-Version startet, sind die letzten Bugs bereits behoben. Diese Fehler reichen von Problemen mit der Datenüberschreibung bei SparkSQL und Speicherlecks im Netzwerkcode bis zu Unterfeldern namens „properties“ in eurem Mapping und noch vielen mehr. Wenn wir sie alle hier aufführen würden, hätten wir keinen Platz mehr für etwas Anderes.

Feedback

Wie immer freuen wir uns über Rückmeldungen von Benutzern, was funktioniert und was verbessert werden muss. Schreibt uns auf Twitter, GitHub oder im Forum.

Besonderer Dank

Wir vom ES-Hadoop-Team möchten uns besonders bei allen Early Adoptern bedanken, die uns in den vergangenen Monaten mit den Alpha- und Beta-Versionen geholfen haben. 5.0 ist die bestmögliche Version und das verdanken wir euch!