为组织配置Notebook执行设置。

对于SystemLink Enterprise 2024年4月及更早版本,请使用AWS S3文档来配置生命周期参数。生命周期参数将清除Argo Workflows为每个执行创建的工件。NI建议将生命周期设置为至少2天。

按照下列强制步骤,优化组织的Notebook执行。

  1. systemlink-values.yaml文件中,指定每次并行执行的最大执行数。
    1. 打开systemlink-values.yaml
    2. 配置并行值。
    3. 配置maxNumberOfWorkflowsToSchedule参数。
    4. 保存并关闭systemlink-values.yaml
    备注 默认状态下,每个Notebook执行至少需要0.2 CPU和2,176 MiB内存。例如,150个并行执行需要30 vCPU和319 GiB内存。如执行时间较短,可指定较少的并行执行次数,以保证集群较小。
  2. 如果集群上已部署Argo Workflows,请重新配置该部署。
    1. 打开systemlink-values.yaml
    2. 配置Argo Workflows的instanceID值。
      argoworkflows: argo-workflows: controller: instanceID: enabled: true explicitID: sl-notebook-execution-0
    3. 保存并关闭systemlink-values.yaml
    4. 打开systemlink-admin-values.yaml
    5. 禁用Argo Workflows Custom Resource Definitions的安装。
      argoworkflowscrds: crds: install: false
    6. 保存并关闭systemlink-admin-values.yaml文件。

使用下列可选设置进一步自定义组织的Notebook执行设置。

目标 说明
配置资源配置文件以大幅提升资源利用率。
备注 该设置仅适用于SystemLink Enterprise 2024年10月及更高版本。
  1. systemlink-values.yaml文件中,修改默认资源分配以及低、中或高资源配置文件。
    resourceProfiles: low: requests: cpu: "0.1" memory: 4Gi limits: memory: 4Gi
  2. 保存并关闭systemlink-admin-values.yaml文件。
配置执行在数据库中保留的时间。
  1. SystemLink-values.yaml文件中,修改daysToPersistExecutions值。
    备注 started_at值表示执行在数据库中保留的天数。为安全起见,请将此值至少设置为2。该值有助于系统避免在完成前从数据库中删除执行。
  2. 保存并关闭systemlink-admin-values.yaml文件。
将Pod安排限制在特定节点上。

node-selectors.yaml文件中使用下列参数。

  • notebookExecutionNodeSelector
  • notebookExecutionTolerations

使用kubectl命令在命令行中标记或标注节点。

kubectl taint nodes <node>notebook_execution=true:NoSchedule kubectl label nodes <node>notebook.executor=true