检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Notebook时长续约 功能介绍 该接口用于延长运行中的Notebook实例的运行时间。 接口约束 暂无约束 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI PATCH
调用失败时的错误信息。 调用成功时无此字段。 error_code String 调用失败时的错误码,具体请参见错误码。 调用成功时无此字段。 job_id Long 训练作业的ID。 job_name String 训练作业的名称。 job_desc String 训练作业的描述信息。
return code: 137 原因分析 日志显示训练进程的退出码为137。训练进程表示用户的代码启动后的进程,所以这里的退出码是用户的训练作业代码返回的。常见的错误码还包括247、139等。 退出码137或者247 可能是内存溢出造成的。请减少数据量、减少batch_size,优化代码,合理聚合、复制数据。
”路径。若默认没有填写,则忽略。 图4 选择SFS Turbo 作业日志选择OBS中的路径,ModelArts的训练作业的日志信息则保存该路径下。 最后,请参考查看日志和性能章节查看LoRA微调的日志和性能。了解更多ModelArts训练功能,可查看模型开发简介。 父主题: 主流
存储路径。 如果type为“obs”类型,该值必须填写,该值需为有效的OBS桶路径,且以“/”结束。不能指定为OBS桶的根目录,需指定为OBS桶下的具体目录。 如果type为“obsfs”类型,该值需为有效的OBS并行文件系统的桶名(当前CCE不支持挂载子目录)。 如果type为“evs”类型,该值不需要填写。
资源选择推荐 不同AI模型训练所需要的数据量和算力不同,在训练时选择合适存储及训练方案可提升模型训练效率与资源性价比。ModelArts支持单机单卡、单机多卡和多机多卡的训练场景,满足不同AI模型训练的要求。针对第一次使用ModelArts的用户,本文提供端到端案例指导,帮助您快
Face权重时,对应的存放地址。 在“输出”的输入框内设置变量:OUTPUT_SAVE_DIR、HF_SAVE_DIR。 OUTPUT_SAVE_DIR:训练完成后指定的输出模型路径。 HF_SAVE_DIR:训练完成的权重文件自动转换为Hugging Face格式权重输出的路径(确保添
modelarts:dataset:getWorkforceTask - √ √ 表2 数据集版本管理的细化权限说明 权限 对应API接口 授权项 依赖的授权项 IAM项目 企业项目 查询数据集的版本列表 GET /v2/{project_id}/datasets/{dataset_id}/versions
存储资源费用:数据存储到对象存储OBS的费用。 表1 计费项 计费项 计费项说明 适用的计费模式 计费公式 计算资源 公共资源池 使用计算资源的用量。 具体费用可参见ModelArts价格详情。 按需计费 规格单价 * 计算节点个数 * 使用时长 专属资源池 专属资源池的费用已在购买时支付,运行
msprobe梯度监控 梯度监控工具提供了将模型梯度数据导出的能力。使用梯度监控工具,可以实现对训练过程模型每一层梯度信息进行监控,目前支持两种能力: 将模型权重的梯度数据导出。这种功能可以将模型权重的梯度值以统计量的形式采集出来,用以分析问题,例如检测确定性问题,使用训练状态监
list_samples_resp = dataset.list_samples() print(list_samples_resp) # 打印样本列表的信息 示例二:查询数据集指定版本的样本列表 list_samples_resp = dataset.list_samples(version_id = "c
止”状态的服务进行启动操作,“部署中”状态的服务无法启动。启动服务,当服务处于“运行中”状态后,ModelArts将开始计费。您可以通过如下方式启动服务: 登录ModelArts管理控制台,在左侧菜单栏中选择“模型部署”,进入目标服务类型管理页面。您可以单击“操作”列的“启动”,启动服务。
创建模型时,如果是从OBS中导入元模型,则需要符合一定的模型包规范。 模型包规范适用于单模型场景,如果是多模型场景(例如含有多个模型文件)推荐使用自定义镜像方式。 ModelArts推理平台不支持的AI引擎,推荐使用自定义镜像方式。 请参考创建模型的自定义镜像规范和从0-1制作自定义镜像并创建模型,制作自定义镜像。
ModelArts支持设置子用户的细粒度权限、不同工作空间之间资源隔离。ModelArts工作空间帮您实现项目资源隔离、多项目分开结算等功能。 如果您开通了企业项目管理服务的权限,可以在创建工作空间的时候绑定企业项目ID,并在企业项目下添加用户组,为不同的用户组设置细粒度权限供组里的用户使用。 如
Array of strings 标注成员的邮箱列表。 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 error_code String 操作失败的错误码。 error_msg String 操作失败的错误信息。 results Array of BatchResponse
将权重文件上传到DevServer机器中。权重文件的格式要求为Huggingface格式。开源权重文件获取地址请参见支持的模型列表。 如果使用模型训练后的权重文件进行推理,模型训练及训练后的权重文件转换操作可以参考大模型训练相关文档。 权重要求放在磁盘的指定目录,并做目录大小检查,参考命令如下。
False,Task is running.” 使用自定义镜像创建Notebook后打开没有kernel 用户自定义镜像自建的conda环境会查到一些额外的包,影响用户程序,如何解决? 用户使用ma-cli制作自定义镜像失败,报错文件不存在(not found) 用户使用torch报错Unexpected
Turbo作为完全托管的共享文件存储系统,在本方案中作为主要的存储介质应用于训练作业。因此,后续需要准备的原始数据集、原始Hugging Face权重文件以及训练代码都需要上传至SFS Turbo中。而基于SFS Turbo所执行的训练流程如下: 将SFS Turbo挂载至ECS服务器后,可直接访问SFS
使用预置AI算法部署在线服务报错gunicorn:error:unrecorgized arguments 问题现象 使用预置AI算法部署在线服务报错gunicorn:error:unrecorgized arguments... 图1 在线服务报错 原因分析 根据报错日志分析,
略,以便用户收集的日志可以上传至对应的OBS桶。 华为云技术支持配置完成后,会给您提供对应的OBS桶目录“obs_dir”,该目录用于后续配置的脚本中。 图2 租户名ID和IAM用户名ID 准备日志收集上传脚本。 修改以下脚本中NpuLogCollection的参数,将ak、sk