Das Stackable Data Platform (SDP) Release 23.11 ist jetzt öffentlich verfügbar! Dieses Mal liegt der Fokus auf verschiedenen Verbesserungen der Operational Excellence.
PodDisruptionBudgets, graceful shutdowns und signierte Produktimages tragen gemeinsam zur betrieblichen Ausfallsicherheit bei. Durch die Minimierung geplanter Ausfallzeiten, die Verwaltung kontrollierter Shutdowns und die Erhöhung der Produktsicherheit wird die Stabilität der Datenplattform erhöht, etwas, das in der heutigen dynamischen Datenlandschaft unverzichtbar ist.
Hier ist ein genauerer Blick auf die wichtigsten Funktionen, die dazu beitragen:
Kontinuierliche Verfügbarkeit
Verbesserte Geschäftsabläufe werden durch die Implementierung von Kubernetes-gestützten PodDisruptionBudgets erzielt. Diese Mechanismen für das geplante Ausfallzeitmanagement stellen sicher, dass kritische Rollen, einschließlich HDFS-Namensknoten und Trino-Worker, kontrolliert und ordnungsgemäß heruntergefahren werden können – sog. graceful shutdowns. Dieser Ansatz gewährleistet einen nahtlosen Übergang ohne Beeinträchtigung der Serviceverfügbarkeit und ermöglicht so die Aufrechterhaltung von Kontinuität und Zuverlässigkeit im Betrieb.
Zusätzliche Sicherheitsebene
SDP 23.11 führt die Signierung aller Stackable-Produktimages ein und ergänzt damit die in R 23.7 eingeführte Signierung von Operatoren um eine zusätzliche Sicherheitsebene. Dadurch wird nicht nur das Datenökosystem gestärkt, sondern auch die Betriebsrisiken erheblich gemindert. Indem wir die Authentizität und Integrität der Produktbilder sicherstellen, schützen wir Unternehmen vor potenziellen Bedrohungen und schaffen Vertrauen in die Zuverlässigkeit des Datenmanagements.
Neue produktspezifische Funktionen
Das Release enthält folgende neue produktspezifische Funktionen:
- Airflow: durch KubernetesExecutor ausgeführte Jobs für eine bessere Ressourcenverwaltung, ohne dass eine Queue erforderlich ist
- HBase: native Hadoop-Komprimierung für bessere Performance
- HBase: Einbindung von Operator-Tools für Verwaltung, Analyse und Cluster-Debugging
- HDFS: Unterstützung für FUSE, damit HDFS mit dem Mount-Befehl als Standarddateisystem gemountet werden kann
- Hive: aktualisierte Postgresql-Treiber mit SCRAM-Authentifizierung, um zu vermeiden, dass neuere Postgres-Versionen die MD5-Passwortverschlüsselung explizit aktivieren müssen
- Spark: alle Produktimages enthalten jetzt Pyspark, wodurch die Images harmonisiert werden
- Trino: Unterstützung für den neuen OPA-Authorizer zur Vorbereitung der Upstream-Integration
- Vector: Upgrade auf 0.33.0 für mehr Sicherheit und Fehlerbehebungen
- Alle Java-basierten Produkte: überschreibbare Java-Sicherheitseinstellungen. Für JVM-basierte Produkte (z. B. Druid, HBase, HDFS, Hive, Kafka, NiFi, Spark, Trino und ZooKeeper) ist es jetzt möglich, benutzerdefinierte Sicherheitseinstellungen bereitzustellen, die die Standardwerte überschreiben. Dadurch können Dinge wie z.B. DNS-Lookup-Caches gesteuer werden.
Neue Produktversionen
Die folgenden neuen Produktversionen werden jetzt unterstützt:
Produkt | Neue Version/en | Was ist neu ? |
---|---|---|
Airflow | 2.6.3, 2.7.2 | Fehlerbehebungen. |
Druid | 27.0.0 | Der Schwerpunkt liegt auf Stabilitäts- und Skalierungsverbesserungen, der Einführung von Smart Segment Loading zur Verwaltung von Datendateien bei der Skalierung der Datenbank, einer verbesserten automatischen Schemaerkennung und einer neuen Funktion für Abfragen aus dem Deep Storage. |
HBase | 2.4.17 | Neueste Patch-Version in der HBase 2.4.x-Reihe. |
HDFS | 3.2.4, 3.3.6 | Viele größere und kleinere Verbesserungen, siehe offizielles Änderungsprotokoll. |
Kafka | 2.8.2, 3.4.1, 3.5.1 | Fehlerbehebungen und bessere Handhabung der Offset-Synchronisierung beim Start und während Task-Commits für Mirror Maker 2 (MM2), Reduzierung unnötiger RPC-Aufrufe und Verwaltung häufiger Neuausgleiche in MM2. |
NiFi | 1.23.2 | Es wurden Repository-Beschädigung im Zusammenhang mit der Handhabung leerer FlowFiles behoben. |
OpenPolicyAgent | 0.57.0 | Die Rego-Syntax wurde aktualisiert, um allgemeine Referenzen in Regelköpfen sowie eine Mischung aus neuen Funktionen und Fehlerbehebungen zu ermöglichen. |
Spark | 3.4.1, 3.5.0 | Integriert neue PySpark- und SQL-Funktionalitäten wie die SQL IDENTIFIER-Klausel, die Unterstützung benannter Argumente, HyperLogLog-Annäherungsaggregationen und benutzerdefinierte Python-Tabellenfunktionen, optimiert gleichzeitig das verteilte Training mit DeepSpeed und führt die Wasserzeichenweitergabe und dropDuplicatesWithinWatermark-Operationen im strukturierten Streaming ein. |
Superset | 2.1.1, 3.0.1 | Neueste Patch-Version für die Superset 2.x-Linie. Apache Superset 3.0 verbessert drei Schlüsselbereiche: Verbesserung der Entwicklererfahrung durch Vereinfachung von Wartung und Tests, Verbesserung der Wartbarkeit der Codebasis durch Entfernung veralteter Funktionen und Reduzierung der Komplexität sowie Konsolidierung des Produkts durch sorgfältige Überprüfung und Refactoring für bessere Effizienz und Leistung. Einen Überblick über die neue Version findet sich hier. |
Trino | 428 | Konzentriert sich auf die Reduzierung der Speichernutzung für Abfragen mit GROUP BY-Klauseln und die Vereinfachung der Konfiguration der Writer-Anzahl. Außerdem werden Verbesserungen für verschiedene Konnektoren wie Delta Lake, Hive, Hudi und Iceberg eingeführt, z. B. die Reduzierung der Anzahl von Leseanforderungen zum Scannen kleiner Parquet-Dateien und die Einführung der Konfigurationseigenschaft parquet.small-file-threshold. |
ZooKeeper | 3.8.3 | Sicherheits- und Fehler-Behebungen. |
One More Thing…
SDP 23.11 enthält die frühe und experimentelle Vorschau des Stackable Cockpit , einem browserbasierten Verwaltungstool, das mit der Stackable-Datenplattform interagiert, um beispielsweise bereitgestellte Stacklets und deren Status anzuzeigen.
Wir freuen uns über Kommentare und Gedanken hierzu – gern direkt als Feedback !
Mehr über das Stackable Release
Weitere Details zum Release und dem Vorgehen zum Upgrade finden sich in den Release Notes bzw. der Änderungshistorie der einzelnen Operatoren:
Airflow, Druid, HBase, HDFS, Kafka, NiFi, OpenPolicyAgent, Spark, Superset, Trino, ZooKeeper