检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如下以查询uuid为2cd88daa-31a4-40a8-a58f-d186b0e93e4f的训练作业对应work-0日志OBS临时链接为例。 GET https://endpoint/v2/{project_id}/training-jobs/2cd88daa-31a4-40a8-a58f-d1
"job_step:stop" ]”。订阅Workflow失败、完成和job_step节点停止三个事件,发生这三个事件时,会有消息提醒。 POST https://{endpoint}/v2/{project_id}/workflows/{workflow_id}/subscriptions
79K-record的JSON格式的OSCAR数据集。 下载数据集。 wget https://huggingface.co/bigscience/misc-test-data/resolve/main/stas/oscar-1GB.jsonl.xz wget https://s3.amazonaws.com/models
services 否 Array of strings 镜像支持的服务,默认值NOTEBOOK、SSH。枚举值如下: NOTEBOOK:镜像支持通过https协议访问Notebook。 SSH:镜像支持本地IDE通过SSH协议远程连接Notebook。 swr_path 是 String SWR镜像地址。
参数类型 描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。 请求示例 https://{endpoint}/v1/{project_id}/services/tms/tags 响应示例 状态码: 200 查询项目下s
定时调度策略中的标记,失败时触发。 on_running String 定时调度策略中的标记,running时触发。 请求示例 查询调度信息 GET https://{endpoint}/v2/{project_id}/workflows/{workflow_id}/schedules/fa4a
0模型包并上传到宿主机上,官网下载地址:https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/tree/main 下载vae-fp16-fix模型包并上传到宿主机上,官网下载地址:https://huggingface
strings 允许远程接入的公网IP地址列表,最多5个。 service 否 String 支持的服务,枚举值如下: NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 key_pair_names 否 Array of strings
描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。 请求示例 GET https://{endpoint}/v2/{project_id}/statistics/pools/{pool_name}/workloads
取值为auto。 model_id String 模型ID。 src_path String 批量任务输入数据的OBS路径,例如:“https://xxx.obs.myhwclouds.com/image/”。 req_uri String 批量任务中调用的推理路径,例如:“/”。
"api_remark" : "string", "auth_type" : "APP", "predict_url" : "https://3565150c2e5c45d0989be40350dd80ed.apig.xxxxxx.com/test", "service_id"
请求是否成功。 请求示例 如下以查询“job_id”为10,“version_id”为10,文件名为“log1.log”的日志为例。 GET https://endpoint/v1/{project_id}/training-jobs/10/versions/10/aom-log?log_file=log1
定时调度策略中的标记,失败时触发。 on_running String 定时调度策略中的标记,running时触发。 请求示例 更新调度信息 PUT https://{endpoint}/v2/{project_id}/workflows/{workflow_id}/schedules/fa4a
参数类型 描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。 请求示例 https://{endpoint}/v1/{project_id}/services/a55eba18-1ebf-4e9a-8229-d2d3b593a3dc/tags/delete
22[e1000] via P2P/IPC 解决方案2 在程序开头设置“os.environ["NCCL_NET_GDR_LEVEL"] = '0'”关闭使用GDR,或者寻找运维人员将机器添加GDR。 问题现象3 NCCL信息中报出Got completion with error 12, opcode
FlashAttention融合算子,具体约束详见NPU_Flash_Attn融合算子约束 是,配置以下参数。 flash_attn: sdpa 否,配置以下参数关闭。 flash_attn: disabled 是否使用固定句长。 是,配置以下参数 packing: true 否,默认使用动态句长,注释掉packing参数。
FlashAttention融合算子,具体约束详见NPU_Flash_Attn融合算子约束 是,配置以下参数。 flash_attn: sdpa 否,配置以下参数关闭。 flash_attn: disabled 是否使用固定句长。 是,配置以下参数 packing: true 否,默认使用动态句长,注释掉packing参数。
FlashAttention融合算子,具体约束详见NPU_Flash_Attn融合算子约束 是,配置以下参数。 flash_attn: sdpa 否,配置以下参数关闭。 flash_attn: disabled 是否使用固定句长。 是,配置以下参数 packing: true 否,默认使用动态句长,注释掉packing参数。
type String 度量的类型。 data Map<String,Object> 度量数据。 请求示例 获取工作流节点度量信息 GET https://{endpoint}/v2/{project_id}/workflows/{workflow_id}/executions/4dd
具体错误信息。 请求示例 为指定的Notebook添加资源标签。例如设置TMS标签的key为“test”,value为“service-gpu”。 https://{endpoint}/v1/{project_id}/notebooks/a55eba18-1ebf-4e9a-8229-d2d3