检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
/scripts/llama2/0_pl_pretrain_13b.sh 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断点续训练是通过checkpoi
/scripts/llama2/0_pl_lora_13b.sh 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断点续训练是通过checkpoi
/scripts/llama2/0_pl_pretrain_13b.sh 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断点续训练是通过checkpoi
ama2/0_pl_sft_13b.sh 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断点续训练是通过checkpoi
删除Workflow Execution 功能介绍 通过ID删除Workflow Execution。 接口约束 无 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI DELETE /
更新Workflow Execution 功能介绍 通过ID更新Workflow Exectuion。 接口约束 无 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI PUT /v2/
更新工作流定时调度信息 功能介绍 更新WorkflowSchedule信息。 接口约束 无 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI PUT /v2/{proj
查询Workflow Execution 功能介绍 通过ID查询Workflow Execution详情。 接口约束 无 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2
创建团队标注任务 如果您在创建标注作业时,即启用团队标注,且指派了某一团队负责标注,系统将默认基于此团队创建一个标注任务。您可以在创建数据标注任务后,在“我创建的”页面查看此任务。 您还可以重新创建一个团队标注任务,指派给同一团队的不同成员,或者指派给其他标注团队。 团队标注作业的创建方式
查询数据集的版本列表 功能介绍 查询指定数据集的版本列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/datasets
than 5G and cannot be imported. 模型文件xxx大于5G,请精简模型文件后重试,或者使用动态加载功能进行导入。FAQ 异常 因系统内部原因创建OBS桶失败,请联系技术支持。 Failed to create bucket due to system errors
测试该在线服务的功能。 图1 任务示意图 操作步骤 拉取镜像。本测试镜像为bert_pretrain_mindspore:v1,已经把测试数据和代码打进镜像中。 docker pull swr.cn-southwest-2.myhuaweicloud.com/os-public-
查询资源规格列表 功能介绍 查询资源规格列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/resourceflavors
删除训练作业标签 功能介绍 删除训练作业标签,支持批量删除。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI DELETE /v2/{project_id}/trai
批量删除标签 功能介绍 批量删除标签。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v2/{project_id}/datasets/{dataset
团队标注审核 功能介绍 团队标注审核。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v2/{project_id}/datasets/{dataset
向标注成员发送邮件 功能介绍 向标注成员发送邮件。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v2/{project_id}/datasets/{d
批量添加样本 功能介绍 批量添加样本。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v2/{project_id}/datasets/{dataset
uncorrectable ECC error encountered 原因分析 由于ECC错误,导致作业运行失败。 处理方法 当ECC错误且计数超过64时,系统会自动隔离故障节点,重启训练作业确认故障是否解决。如果未隔离的节点导致训练作业再次失败或卡死,请联系技术支持处理。 父主题: 业务代码问题
Server时间过长。 解决方法 打开VS Code,选择“Help>About”,并记下“Commit”的ID码。 确认创建Notebook实例使用的镜像的系统架构,可以在Notebook中打开Terminal,通过命令uname -m查看。 下载对应版本的vscode-server,根据Comm