Configuration du stockage de fichiers

Télécharger (PDF)

Mise à jour2026-01-08
Temps de lecture : 5 minute(s)

Plusieurs services SystemLink Enterprise requièrent un fournisseur de stockage de fichiers.

La liste suivante contient les fournisseurs pris en charge :

Stockage Amazon S3
Stockage compatible avec Amazon S3
Stockage Blob Azure

Remarque Un fournisseur de stockage de fichiers compatible avec Amazon S3 doit implémenter l'intégralité de l'API Amazon S3. Pour en savoir plus, reportez-vous à la section Référence de l'API Amazon S3. Le service Data Frame ne prend pas en charge l'API XML interopérable GCS Amazon S3.

Les paramètres figurant dans les tableaux suivants pour le stockage Amazon S3 et Blob Azure sont généralement partagés entre plusieurs configurations. Ce partage s'effectue grâce à la syntaxe d'ancrage YAML dans les fichiers de valeurs Helm. Cette syntaxe offre un moyen pratique de partager une configuration commune dans l'ensemble de vos fichiers de valeurs. Vous pouvez remplacer ces valeurs par défaut par des valeurs personnalisées individuellement.

Fournisseurs de stockage Amazon S3 et compatibles Amazon S3

Remarque Vous pouvez crypter des objets dans un stockage Amazon S3 via SSE-S3 ou SSE-KMS avec une clé de compartiment. Pour en savoir plus, consultez Protection des données Amazon S3 à l'aide du cryptage.

Définissez la configuration suivante dans votre fichier de configuration Helm AWS/aws-supplemental-values.yaml ou OnPrem/storage-values.yaml. Pour en savoir plus sur le déploiement de configurations dans votre environnement, consultez Mise à jour de SystemLink Enterprise.

Vous pouvez configurer des références à des secrets dans les fichiers AWS/aws-secrets.yaml, OnPrem/storage-secrete.yaml ou directement sur le cluster. Pour en savoir plus sur la gestion des secrets nécessaires à la configuration du stockage de fichiers, consultez Secrets requis.

Tableau 9. Paramètres pour le stockage Amazon S3 et compatible et Amazon S3
Paramètres avant la version 2025-07	Paramètres après la version 2025-07	Détails
N'est pas applicable	dataframeservice.storage.type fileingestion.storage.type fileingestioncdc.highAvailability.storage.type feedservice.storage.type nbexecservice.storage.type	Cette valeur représente le type de stockage du service. Attribuez la valeur s3.
dataframeservice.s3.port fileingestion.s3.port feedservice.s3.port nbexecservice.s3.port	dataframeservice.storage.s3.port fileingestion.storage.s3.port feedservice.storage.s3.port nbexecservice.storage.s3.port	Cette valeur représente le numéro de port du service du fournisseur de stockage.
dataframeservice.s3.host fileingestion.s3.host feedservice.s3.host nbexecservice.s3.host	dataframeservice.storage.s3.host fileingestion.storage.s3.host fileingestioncdc.highAvailability.storage.s3.host feedservice.storage.s3.host nbexecservice.storage.s3.host	Cette valeur représente le nom d'hôte du service du fournisseur de stockage.
dataframeservice.s3.schemeName fileingestion.s3.scheme feedservice.s3.scheme nbexecservice.s3.scheme	dataframeservice.storage.s3.schemeName fileingestion.storage.s3.scheme feedservice.storage.s3.scheme nbexecservice.storage.s3.scheme	Cette valeur représente le schéma du service du fournisseur de stockage. Cette valeur est généralement https.
dataframeservice.s3.region fileingestion.s3.region feedservice.s3.region nbexecservice.s3.region	dataframeservice.storage.s3.region fileingestion.storage.s3.region fileingestioncdc.highAvailability.storage.s3.region feedservice.storage.s3.region nbexecservice.storage.s3.region	Cette valeur représente la région AWS où se trouve le compartiment S3.
dataframeservice.sldremio.distStorage	Inchangée	Traitez les marqueurs <ATTENTION>. Ces paramètres configurent le stockage distribué requis pour le service Data Frame.
dataframeservice.storage.s3.auth.secretName fileingestion.storage.s3.secretName feedservice.storage.s3.secretName nbexecservice.storage.s3.secretName	dataframeservice.storage.s3.auth.secretName fileingestion.storage.s3.secretName fileingestioncdc.highAvailability.storage.s3.secretName feedservice.storage.s3.secretName nbexecservice.storage.s3.secretName	Nom du secret contenant les identifiants pour se connecter au service du fournisseur de stockage.

À partir de la version 2025-11, fileingestioncdc ajoute les paramètres suivants.


Paramètre	Détails
fileingestioncdc.highAvailability.storage.s3.port	Cette valeur représente le numéro de port du service du fournisseur de stockage.
fileingestioncdc.highAvailability.storage.s3.scheme	Cette valeur représente le schéma du service du fournisseur de stockage. Cette valeur est généralement https.

Connexion des services à S3 via IAM

Attribuez un rôle IAM pour connecter les services à Amazon S3.

Votre système doit remplir les conditions préalables suivantes pour connecter chaque service via IAM.

Créez un compte pour chaque service en définissant la valeur Helm suivante : serviceAccount: create: true.
Remarque Les services Flink ne requièrent pas cette valeur Helm. L'opérateur Flink gère le compte service.

Créez une stratégie IAM avec la déclaration suivante :

"Action": [
  "s3:PutObject",
  "s3:ListBucket",
  "s3:GetObject",
  "s3:DeleteObject",
  "s3:AbortMultipartUpload"
],
"Effect": "Allow",
"Resource": [
  "<s3_bucket_ARN>/*",
  "<s3_bucket_ARN>"
]

Remarque L'espace réservé <s3_bucket_ARN> représente le nom de ressource Amazon pour le compartiment S3 du service.

Créez un rôle IAM qui applique la nouvelle stratégie IAM.
Remarque La plupart des rôles IAM utilisent la convention de nom suivante : <release-name>-<service-name>-role. Par exemple, systemlink-feedservice-role. Les services Flink ne suivent pas cette règle. Au lieu de cela, les rôles IAM pour les services Flink partagent la même configuration que l'opérateur Flink. Ces rôles utilisent la convention de nom suivante : <release-name>-flink-role.

Une fois ces conditions remplies, mettez à jour le fichier de valeurs Helm pour inclure les configurations suivantes.


Service	Configuration
Service DataFrame	Ce service ne prend pas en charge IAM actuellement.
Service de flux	feedservice: storage: s3: authType: "AWS_WEB_IDENTITY_TOKEN" feedservice: serviceAccount: annotations: eks.amazonaws.com/role-arn: "arn:aws:iam::<account-id>:role/<release-name>-feedservice-role"
Service d'ingestion de fichiers	fileingestion: storage: s3: authType: "AWS_WEB_IDENTITY_TOKEN" fileingestion: serviceAccount: annotations: eks.amazonaws.com/role-arn: "arn:aws:iam::<account-id>:role/<release-name>-fileingestion-role"
Ingestion de fichiers CDC	fileingestioncdc: highAvailability: storage: s3: authType: "AWS_WEB_IDENTITY_TOKEN" flinkoperator: flink-kubernetes-operator: jobServiceAccount: annotations: eks.amazonaws.com/role-arn: "arn:aws:iam::<account-id>:role/<release-name>-flink-role"
Service d'exécution de notebook	nbexecservice: storage: s3: authType: "AWS_WEB_IDENTITY_TOKEN" nbexecservice: serviceAccount: annotations: eks.amazonaws.com/role-arn: "arn:aws:iam::<account-id>:role/<release-name>-executions-role"

Fournisseurs de Stockage Blob Azure

Remarque Pour le compte de stockage utilisé par le service Data Frame, vous devez désactiver la suppression réversible d'objets blob et l'espace de noms hiérarchique.

Appliquez la configuration suivante dans le fichier de configuration Azure/azure-supplemental-values.yaml Helm pour le Stockage Blob Azure.

Vous pouvez configurer des références à des secrets dans le fichier Azure/azure-secrets.yaml ou directement sur le cluster. Pour en savoir plus sur le déploiement de ces configurations dans votre environnement, consultez Mise à jour de SystemLink Enterprise.

Remarque Le compte de stockage utilisé par le service Data Frame doit avoir désactivé la suppression réversible d'objets blob et l'espace de noms hiérarchique.

Tableau 10. Paramètres du Stockage Blob Azure
Paramètres à partir de la version 2025-07	Détails
dataframeservice.storage.type fileingestion.storage.type fileingestioncdc.highAvailability.storage.type feedservice.storage.type nbexecservice.storage.type	Cette valeur représente le type de stockage du service. Attribuez la valeur azur.
dataframeservice.storage.azure.blobApiHost fileingestion.storage.azure.blobApiHost fileingestioncdc.highAvailability.storage.azure.blobApiHost feedservice.storage.azure.blobApiHost nbexecservice.storage.azure.blobApiHost	Cette valeur représente l'hôte du stockage Blob Azure sans le nom du compte. Par exemple, vous pouvez attribuer la valeur blob.core.windows.net ou blob.core.usgovcloudapi.net. Si votre stockage n'utilise pas le port par défaut, ajoutez le port à la fin de l'hôte. Par exemple, blob.core.windows.net:1234.
dataframeservice.storage.azure.dataLakeApiHost	Cette valeur représente l'hôte et le port du stockage Azure Data Lake auquel se connecter sans le nom de compte. Par exemple, vous pouvez attribuer la valeur dfs.core.windows.net. Si votre stockage n'utilise pas le port par défaut, ajoutez le port à la fin de l'hôte. Par exemple : dfs.core.windows.net:1234.
dataframeservice.storage.azure.accountName fileingestion.storage.azure.accountName fileingestioncdc.highAvailability.storage.azure.accountName feedservice.storage.azure.accountName nbexecservice.storage.azure.accountName	Cette valeur représente le compte de stockage de votre service. NI recommande d'utiliser différents comptes de stockage pour différents services.

Limites et considérations financières pour le stockage de fichiers

Pour ajuster les limites et les coûts des services de stockage de fichiers, reportez-vous aux configurations suivantes.

Tableau 11. Considérations relatives au stockage de fichiers
Considération	Configuration
Réduire les coûts de stockage	Pour supprimer les chargements en plusieurs parties incomplets, attribuez la configuration appropriée à votre service. Si vous utilisez Amazon S3, attribuez la valeur AbortIncompleteMultipartUpload à vos compartiments S3. Remarque Le stockage Azure supprime automatiquement les blocs non validés au bout de sept jours. Pour les autres fournisseurs compatibles S3, reportez-vous à la documentation du fournisseur.
Ajuster le nombre de fichiers qu'un seul utilisateur peut télécharger par seconde	Configurez la valeur fileingestion.rateLimits.upload. Par défaut, la valeur est de 3 fichiers par seconde et par utilisateur. En équilibrant la charge entre les répliques, la vitesse effective est supérieure à la vitesse spécifiée.
Ajuster la taille de fichier maximale que les utilisateurs peuvent télécharger	Configurez la valeur fileingestion.uploadLimitGB. Par défaut, cette valeur est de 2 Go.
Ajuster le nombre de requêtes simultanées qu'un seul duplicata peut servir pour ingérer des données	Configurez la valeur dataframeservice.rateLimits.ingestion.requestLimit.

Contenu associé

Référence de l'API Amazon S3
Protection des données Amazon S3 avec cryptage
Mise à jour du SystemLink Enterprise
Modifiez la configuration ou effectuez une mise à niveau vers une version plus récente de l'application SystemLink Enterprise.
Secrets requis
Les secrets sont des objets Kubernetes qui permettent de stocker des informations confidentielles. Les secrets mentionnés dans cette rubrique sont requis et sont de type Opaque (sauf indication contraire).
Modèle Helm des valeurs SystemLink
Modèle Helm des valeurs supplémentaires pour SystemLink Azure
Modèle Helm des valeurs supplémentaires pour SystemLink AWS
Modèle Helm SystemLink Secrets
Modèle Helm SystemLink Azure Secrets
Configuration d'une configuration de cycle de vie de compartiment pour supprimer les chargements partitionnés incomplets dans GCS
Référence de l'API d'interopérabilité GCS Amazon S3
Autorisations IAM pour les requêtes XML
Suppression réversible d'objets blob
Espace de noms hiérarchique du stockage Azure Data Lake