检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备镜像 镜像方案说明 ECS获取基础镜像 ECS中构建新镜像 ECS中上传新镜像 父主题: 准备工作
资源配额限制 在使用专属资源池时(如资源扩缩容、创建VPC、创建VPC-子网、打通VPC),如果提示相关资源配额受限,请提交工单处理。 创建失败/变更失败 登录ModelArts管理控制台,在左侧导航栏中选择“AI专属资源池 > 弹性集群 Cluster”,进入“弹性集群 Cluster”页面。
placeholder_type=wf.PlaceholderType.JSON, description="训练资源规格") ) ), # 训练资源规格信息 policy=wf.steps.StepPolicy( skip_conditi
placeholder_type=wf.PlaceholderType.JSON, description="训练资源规格") ) ), # 训练资源规格信息 depend_steps=[condition_step] ) # 通过JobStep来定义一个训练节点,并将训练结果输出到OBS
根据具体报错信息定位到报错的代码行,分析上下文逻辑。 历史SDK包常见的报错如下 服务部署节点运行报错 输入服务相关的参数后,执行报错如下: 解决方案 以上两种常见报错均可通过升级最新的SDK包解决。 父主题: Standard Workflow
建Notebook实例。 镜像选择已注册的自定义镜像,资源类型选择创建好的专属资源池,规格推荐选择“Ascend: 8*ascend-snt9b”。 图1 Notebook中选择自定义镜像与规格 存储配置选择“弹性文件服务SFS”,并且选择已创建的SFS Turbo实例。如果该SFS
标注信息不满足切分条件 出现此故障时,建议根据如下建议,修改标注数据后重试。 多标签的样本(即一张图片包含多个标签),至少需要有2张。如果启动训练时,设置了数据集切分功能,如果多标签的数据少于2张,会导致数据集切分失败。建议检查您的标注信息,保证标注多标签的图片,超过2张。 数据集切分后,训
# modelLink兼容旧版本启动方式目录 |──Dockerfile 工作目录介绍 详细的工作目录参考如下,根据实际要求设置。 ${workdir}(例如/home/ma-user/ws) |──llm_train
torch_dtype=torch.bfloat16, trust_remote_code=True, ) 3)为减少量化时间,建议将以下参数设置为512; NUM_CALIBRATION_SAMPLES = 512 执行权重量化: python deepseek_moe_w8a8_int8
在创建训练作业页面配置环境变量“ROUTE_PLAN”,取值为“true”,具体操作请参见管理训练容器环境变量。 代码示例 训练作业的启动脚本示例如下。 启动脚本中设置plog生成后存放在“/home/ma-user/modelarts/log/modelarts-job-{id}/worker-{ind
在Notebook列表中,对于要保存的Notebook实例,单击右侧“操作”列中的“更多 > 保存镜像”,进入“保存镜像”对话框。 图1 保存镜像 在保存镜像对话框中,设置组织、镜像名称、镜像版本和描述信息。单击“确定”保存镜像。 在“组织”下拉框中选择一个组织。如果没有组织,可以单击右侧的“立即创建”,创建
在Notebook列表中,对于要保存的Notebook实例,单击右侧“操作”列中的“更多 > 保存镜像”,进入“保存镜像”对话框。 图1 保存镜像 在保存镜像对话框中,设置组织、镜像名称、镜像版本和描述信息。单击“确定”保存镜像。 在“组织”下拉框中选择一个组织。如果没有组织,可以单击右侧的“立即创建”,创建
购买对象存储服务OBS 购买容器镜像服务SWR 创建网络 购买ModelArts专属资源池 购买弹性云服务器ECS 基本配置: 权限配置 专属资源池VPC打通 ECS服务器挂载SFS Turbo存储 在ECS中创建ma-user和ma-group obsutils安装和配置 (可选)工作空间配置
train_instance_type 是 String 训练作业选择的资源规格,请参考查询资源规格列表 train_instance_count 是 int 训练作业计算节点个数。 framework_type 否 String 训练作业选择的引擎规格,请参考查询引擎规格列表。 framework_version
VPC下创建弹性云服务器 登录弹性云服务器ECS控制台,单击右上角“购买弹性云服务器”,进入购买弹性云服务器页面,完成基本配置后单击“下一步:网络配置”,进入网络配置页面,选择1中打通的VPC,完成其他参数配置,完成高级配置并确认配置,下发购买弹性云服务器的任务。等待服务器的状态变为
--prefix_name str 预训练json文件的前缀字段名称,例如:您是一个xxx专家,您需要回答下面问题。prefix_name可设置为None,此时预训练数据集只有input和output两段输入。 --input_name str 预训练json文件的指令输入字段名称,例如:请问苹果是什么颜色。
VPC下创建弹性云服务器 登录弹性云服务器ECS控制台,单击右上角“购买弹性云服务器”,进入购买弹性云服务器页面,完成基本配置后单击“下一步:网络配置”,进入网络配置页面,选择1中打通的VPC,完成其他参数配置,完成高级配置并确认配置,下发购买弹性云服务器的任务。等待服务器的状态变为
sh文件,来安装依赖以及下载完整代码。 ECS中DockerFIle构建新镜像:在ECS中,通过运行Dockerfile文件会在基础镜像上创建新的镜像。新镜像命名可自定义。Dockerfile会尝试自动下载三方依赖源码并安装依赖的pip包,并将以上源码打包至镜像环境中; 训练作业的资源池以及ECS都需要连通公
', password='***', region_name='***', project_id='***') 如果您的华为云账号已经升级为华为账号,则账号认证方式将不可用,请创建一个IAM用户,使用IAM用户认证。 使用IAM用户认证 “account”填写您的账号名,“username”填写您的IAM用户名。
时出现。 engine_id 是 Long 训练作业选择的引擎规格ID,默认为“1”。填入model_id后app_url/boot_file_url和engine_id无需填写。请从查询作业引擎规格接口获取引擎规格ID。 model_id 是 Long 训练作业的内置模型ID。