Azure Data Lake Storage

aktualisiert 30/9/25 von Jyothsna Sarali

Wichtig:
Bevor Du eine der folgenden Connections erstellen kannst, musst Du folgende Dinge beachten:
1. Diese Art der Connections müssen separat lizenziert werden
2. Stelle sicher, dass alle Voraussetzungen erfüllt wurden: alle Informationen findest Du hier

Voraussetzungen

Das Speicherkonto für die Verbindung mit dab Nexus konfigurieren:

  1. Anmelden beim Azure-Portal und zum Azure-Speicherkonto navigieren. Im linken Bereich zu Datenverwaltung -> Datenschutz navigieren. Diese 3 Optionen deaktivieren: Vorläufiges Löschen für Blobs aktivieren, Vorläufiges Löschen für Container aktivieren und Unterstützung für Unveränderlichkeit auf Versionsebene aktivieren. Änderungen speichern.
  2. Data Lake Gen2 upgrade - Im Speicherkonto im linken Fensterbereich navigieren zu Einstellungen -> Data Lake Gen2-Upgrade. Es gibt 3 Schritte. Alle Schritte ausführen, um das Upgrade durchzuführen.

ADLS

  • Im Nexus auf Settings -> Connections dann auf + Connection klicken. Azure Data Lake Storage auswählen.
  • Name: Gib der neuen Verbindung einen Namen.

General

ADLS Endpoint URL - In Azure Portal gehen zu deinem ADLS-Speicherkont. Im linken Fensterbereich auf Datenspeicher -> Container gehen. Den Container auswählen. Im linken Fensterbereich Einstellungen -> Eigenschaften auswählen. Die URL kopieren. Dies ist die ADLS Endpoint URL. Das allgemeine Format lautet: https://<adlsstroageaccount>.blob.core.windows.net/<container>

  • Directory Structure
    Bestimmen auf welche Weise die Daten innerhalb des Azure Data Lake Storage-Containers organisiert werden sollen:
    • Flat - Dateien werden in einer flachen Hierarchie gespeichert, typischerweise in einem einzigen Ordner oder in wenigen Ordnern ohne tiefgehende Struktur. Es gibt keine Unterverzeichnisse, die eine zeitliche oder schrittweise Trennung darstellen.
    • Incremental - In ADLS Gen2 werden Ordner für Incremental strukturen meistens nach Datum oder Uhrzeit sortiert – zum Beispiel so was wie YYYY/MM/DD/HH/ oder einfach YYYYMMDD. Dadurch ist es für Datenpipelines sehr einfach, nur die neuen Dateien aus einem bestimmten Zeitraum zu verarbeiten.
  • File Format
    • CSV
    • Parquet

Authentication

Authentication Type

  • Service Principal - Schau dir den Artikel zu den Service Principal-Bereichen an – da steht drin, welche API-Berechtigungen du brauchst und welche Rollen du zuweisen musst. Dieser Schritt muss erledigt sein, bevor du den Service Principal richtig einrichten kannst.
    Geh im ADLS-Konto auf die Ebene vom Container oder Speicherkonto, klick auf Zugriffssteuerung (IAM) und füge dem Service Principal die Rollen Storage Account Contributer und Storage Blob Data Contributer hinzu.
    • Tenant ID - Im Azure-Portal unter Microsoft Entra Id -> Übersicht.
    • Client ID - Im Azure-Portal unter Microsoft Entra ID -> App-Registrierungen -> <dein app>. Dann zur App gehen und die Anwendungs-ID (Client) kopieren.
    • Client Secret - Im Microsoft Entra ID -> App registrations -> <dein App>. Geh zu deiner App. Klick auf Verwalten -> Zertifikate und Geheimnisse. Unter Geheime Clientschlüssel enthält der Wert.
  • Shared Access Signature
    • SAS Token - Wenn du die Shared Access Signature (SAS) verwenden willst, geh in deinem ADLS-Speicherkonto zu Sicherheit + Netzwerkbetrieb -> Shared Access Signature (SAS). Unter Zulässige Ressourcentypen musst du unbedingt Dienst Container Objekt anhaken.
      Klick auf SAS und Verbindungszeichenfolge generieren, um das SAS-Token zu erstellen. Danach einfach den Wert vom SAS-Token kopieren.
  • Access Key
    • Access Key - Geh im linken Menü zu Sicherheit + Netzwerkbetrieb -> Zugriffschlüssel. Unter key1 oder key2 findest du den Wert. Klick auf Schlüssel → Anzeigen und den Wert kopieren.


Wie haben wir das gemacht?


Powered by HelpDocs (opens in a new tab)

Powered by HelpDocs (opens in a new tab)