检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何知道是哪个节点是worker呢? TensorFlow框架分布式训练的情况下,会启动ps与worker任务组,worker任务组为关键任务组,会以worker任务组的进程退出码,判断训练作业是否结束。 通过task name判断的哪个节点是worker。
您可以在VPC中定义安全组、VPN、IP地址段、带宽等网络特性。用户可以通过VPC方便地管理、配置内部网络,进行安全、快捷的网络变更。同时,用户可以自定义安全组内与组间的访问规则,加强裸金属服务器的安全保护。 更多VPC介绍请见虚拟私有云 VPC。
# cuda版本 nvcc --version # nvidia-smi版本 nvidia-smi # torch版本(要确定用户用的哪个conda下的python) python -c "import torch;print(torch.
script_interpreter:可选参数,指定使用哪个python环境来执行训练任务,如果未指定,会默认使用当前的kernel。
SQL Server 1434 SQL Server的TCP端口,用于返回SQLServer使用了哪个TCP/IP端口。 Oracle 1521 Oracle通信端口,弹性云服务器上部署了Oracle SQL需要放行的端口。
如何知道是哪个节点是worker呢? 训练作业的自定义镜像如何安装Moxing? 子用户使用专属资源池创建训练作业无法选择已有的SFS Turbo 父主题: Standard训练作业
精度问题诊断 逐个替换模型,检测有问题的模型 该方式主要是通过模型替换,先定位出具体哪个模型引入的误差,进一步诊断具体的模型中哪个算子或者操作导致效果问题,模型替换原理如下图所示。
在调用工具之前,说明你要使用哪个工具以及原因 3. 在获取信息的过程中,清晰地描述你正在做什么 4. 永远不要返回空的回复 - 确保用自然语言解释你的每个步骤,比如当查询天气时,你应该先说'让我使用天气工具为您查询...',然后再进行工具调用。
script_interpreter:可选参数,指定使用哪个python环境来执行训练任务,如果未指定,会默认使用当前的kernel。 log_url:可选参数,一个OBS地址,训练过程中,SDK会自动将训练的日志上传到该位置。
- 具体使用库 例如: 使用了哪个pipeline (例如lpw_stable_diffusion.py)。 使用了哪个huggingface的模型 (例如digiplay/majicMIX_realistic_v6)。
表2 get_job_log请求参数说明 参数 是否必选 参数类型 描述 task_id 否 String 要查看哪个工作节点的日志,默认值为"worker-0";如果在创建训练作业时参数train_instance_count选择了2,则可选值为"worker-0","worker
os.modelarts/tenant.domain.id String 资源池的租户id,记录资源池创建在哪个租户账号下。 表15 PoolMetaAnnotations 参数 参数类型 描述 os.modelarts/description String 资源池的描述信息。
- 具体使用库 例如: 使用了哪个pipeline (例如lpw_stable_diffusion.py)。 使用了哪个huggingface的模型 (例如digiplay/majicMIX_realistic_v6)。
os.modelarts/tenant.domain.id String 资源池的租户id,记录资源池创建在哪个租户账号下。 表6 PoolMetaAnnotations 参数 参数类型 描述 os.modelarts/description String 资源池的描述信息。
os.modelarts/tenant.domain.id String 资源池的租户id,记录资源池创建在哪个租户账号下。 表13 PoolMetaAnnotations 参数 参数类型 描述 os.modelarts/description String 资源池的描述信息。
os.modelarts/tenant.domain.id String 资源池的租户id,记录资源池创建在哪个租户账号下。 表6 PoolMetaAnnotations 参数 参数类型 描述 os.modelarts/description String 资源池的描述信息。
表2 get_job_log请求参数说明 参数 是否必选 参数类型 描述 task_id 否 String 要查看哪个工作节点的日志,默认值为"worker-0";如果在创建训练作业时参数train_instance_count选择了2,则可选值为"worker-0","worker
DataSelector:支持多种数据类型的选择,当前仅支持在JobStep节点中使用(仅支持选择OBS或者数据集) 数据选择对象: DataConsumptionSelector:用于在多个依赖节点的输出中选择一个有效输出作为数据输入,常用于存在条件分支的场景中(在构建工作流时未能确定数据输入来源为哪个依赖节点的输出
os.modelarts/tenant.domain.id String 资源池的租户id,记录资源池创建在哪个租户账号下。 表7 PoolMetaAnnotations 参数 参数类型 描述 os.modelarts/description String 资源池的描述信息。
ei.huaweicloud.com/metrics: '{"customMetrics":[{"containerName":"my-task","exec":{"command":["cat","/metrics/task.prom"]}}]}' # ModelArts从哪个容器以及使用哪个命令获取指标数据