Neues von Elasticsearch: Elastic{ON} Tour 2018

Am 1. Februar 2018 fand im Sofitel in München die Elastic{ON}Tour 2018 mit ca. 400 Gästen statt. Vorgestellt wurden die Neuerungen des OpenSource-Stack von Elasticsearch, Logstash und Kibana 6.x. Ebenso wurden Unternehmensneuheiten von Elastic und die Cloud-Produkte präsentiert.

Elasticsearch ist erwachsen geworden

Elasticsearch ist eine Software, die Daten lokal speichert für die Suche und Analyse großer Datenmengen in Echtzeit. Mit Logstash lassen sich diese Daten vorher aufbereiten bzw. transformieren. Kibana stellt eine Web-Oberfläche mit Dashboards bereit.

Anwendungsbereiche sind unter anderem:

  • Suche für große Web-Anwendungen und Portale
  • Log Management / Analyse von Logs
  • Metriken für Performance Monitoring
  • Application Performance Monitoring
  • IT -Sicherheit
  • Eine Plattform für Datawarehouse / Data Analysis mit mehr als 1000 indizierten Attributen

Auf der Elastic{ON} Tour wurde die Entwicklung von Elasticsearch verglichen mit der Entwicklung eines Kindes hin zu einem Erwachsenen, der mit einigen Jahren Berufserfahrung Profi in seinem Gebiet ist.
Ich arbeite mit Elasticsearch seit Version 1.4 und kann dies bestätigen. Während Generation 1 eher noch mit einem Teenager zu vergleichen war, der noch die ein oder andere Schwierigkeit hat und Erfahrungen sammeln muss, kann man von Generation 2 schon als junger Erwachsener reden, der bereits die ersten Erfahrungen über das theoretische „Schulwissen“ hinaus gemacht hat. Seit Generation 5 hat Elasticsearch nun endgültig die Erwachsenen-Reife erreicht und steht problemlos auf eigenen Füßen.

Gleiches merkt man, wenn man die Besucher der Konferenz betrachtet:

Die Teilnehmer kamen unter anderem auch aus Großkonzernen wie Porsche, VW, Daimler etc. Dies klingt erstmal nicht ungewöhnlich, ist jedoch bei einer Veranstaltung rund um OpenSource-Lösungen nicht üblich, da große Unternehmen häufiger auf proprietäre Lösungen setzen. Elasticsearch hat sich im Laufe der Zeit allerdings zu einer dermaßen großen Plattform für Analysemöglichkeiten entwickelt, dass keiner an deren Einsatz vorbei kommt. Mit der Premium-Lizenz wurde ein Enterprise-Produkt für die Großkunden geschaffen, das Berechtigungen auf Field-Level, Machine Learning, Reporting, LDAP-Authentifizierung sowie, aufgrund des Clusters, eine hohe Verfügbarkeit bietet.

Weiterhin gibt es heute verschiedene Bestrebungen, Elasticsearch standardisiert zu nutzen. Unter anderem auf folgende Arten:

  • Der Hersteller bietet Hosted Elasticsearch in der Cloud an
    https://www.elastic.co/cloud
    https://www.elastic.co/cloud/as-a-service
  • Für große Konzerne mit Entwicklungsabteilungen, die Elasticsearch zur Analyse von Telemetriedaten, Metriken und Logs in Entwicklungsprojekten nutzen wird das Produkt ans Unternehmen angepasst, der Cloud-Anbieter kann jedoch beliebig gewechselt werden
  • Auch die Thinking Objects GmbH hat eine standardisierte Lösung entwickelt, die an individuelle Anforderungen angepasst werden kann: https://to.com/loesungen/troubleshooting-elastic-stack

Vorgestellt wurde auch eine Lösung aus der Telekommunikations-Branche zur Analyse von PCAP Dateien:
Bisher boten Hersteller von Kommunikations-Hardware verschiedene Lösungen zur Auswertung von Metadaten oder Steuersignalflüssen im Netz (z.B. Netzkommunikation beim Einschalten eines Mobiltelefons). Bei Änderungen der Netzstruktur oder bei neuen Auswertungen mussten die Hilfsmittel oft aufwendig von verschiedenen Herstellen angepasst werden. Heute lassen sich mit Tshark (der Terminalversion von Wireshark) diese PCAP-Daten nach JSON transferieren und in Elasticsearch speichern. Somit ist es möglich die Rohdaten des PCAP (im JSON-Format) in Kibana auszuwerten (siehe auch hier).

Neuere Technische Änderungen und Vorteile für Log Management

Die wichtigsten Verbesserungen im letzten Jahr lassen sich in folgende Kategorien einordnen:

  • Weniger Ressourcenverbrauch (insbesondere Ram und Speicherplatz); so ist es heute möglich, Instanzen mit nur 512MB zu betreiben sowie ganze Cluster mit 2GB – 8GB RAM
  • Mehr Stabilität der Software gegenüber Ausfällen oder bei der Installation von Updates
  • Effizienteres Speichern von Zahlen/Numbers, IP Adressen, Geo-Koordinaten
  • Wegfall von Typ-Informationen für indizierte Dokumente
  • Ganz neu: verteilte Suche über mehrere Cluster!
  • Weniger Ressourcen führen dazu, dass mehrere Elasticsearch-Instanzen in Docker-Containern auf einer Maschine laufen können.

Ebenso wird die Verarbeitung von Log Daten mit Logstash optimiert.
Diese Neuerungen verändern die Loganalyse nicht grundsätzlich, eröffnen aber neue  Möglichkeiten:

  1. Durch das effizientere Handling lassen sich nicht nur Log Daten speichern, sondern auch Metriken oder Ergebnisse vom Monitoring. So lassen sich CPU- und RAM-Auslastung im Dashboard darstellen und gleichzeitig können Fehlermeldungen auf dem Zeitstrahl dargestellt werden.
  2. Der verringerte Ressourcen-Bedarf, Containerisierung von Instanzen mit Docker und Cluster-übergreifende Suche in Elasticsearch bieten die Möglichkeit, Daten zu partitionieren. Gleichzeitig ist es möglich, je nach Nutzerkreis verschiedene Kibana-Instanzen bereitzustellen. Das hat Vorteile für den Datenschutz. Daten lassen sich typ-bezogen (Firewall, Proxy, Active Directory) und standort-bezogen in jeweils eigenen Elasticsearch-Clustern speichern. So ist es möglich, für unterschiedliche Nutzergruppen individuelle Auswertungen bereit zu stellen sowie Vorhaltezeiten zu definieren. Trotz der Partitionierung ist es ab jetzt gleichzeitig möglich eine Mastersicht auf alle Daten zu haben.

Elasticsearch und Kibana als SIEM-Erweiterung

Elasticsearch nutzt intern die Lucene Search Engine. Ich kenne verschiedene kommerzielle SIEM-Produkte, welche auch Elasticsearch und/oder Lucene einsetzen.
Mit den vorgestellten Verbesserungen ist es möglich, ein SIEM-System zu erweitern:
Viele SIEM-Systeme können bestimmte Daten per Syslog weiterleiten, welche sich mit Logstash und Elasticsearch ein zweites Mal analysieren lassen. Durch die Elasticsearch-Schnittstelle können diese Daten dann mit Kibana durchsucht bzw. auch durch neue Kundenprogramme analysiert werden. Spannend könnte dies sein im Bereich individueller IoT-Lösungen und nicht-personenbezogener Daten, also z.B. einem Netz von kleinen Wetter-stationen, welche Logs und Sensordaten liefern. Durch eine Kombination von SIEM und Datenanalyse lassen sich so Manipulationen der Sensoren oder der IT-Infrastruktur erkennen, während gleichzeitig und in Echtzeit eine komfortable Auswertung der Daten möglich ist.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

CAPTCHA *