检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练模型时引用依赖包,如何创建训练作业? ModelArts支持训练模型过程中安装第三方依赖包。在训练代码目录下放置“pip-requirements.txt”文件后,在训练启动文件被执行前系统会执行如下命令,以安装用户指定的Python Packages。 pip install
训练作业使用单机单卡资源。 确保容器可以访问公网。 本案例仅支持在专属资源池上运行。 Step1 创建专属资源池 本文档中的模型运行环境是ModelArts Standard,用户需要购买专属资源池,具体步骤请参考创建资源池。 资源规格要求: 硬盘空间:至少200GB。 昇腾资源规格:Ascend:
创建Notebook 创建Notebook时,选择自定义镜像,并选择Step8 注册镜像章中注册的镜像。 图2 选择自定义镜像 资源类型推荐使用专属资源池,规格选到Ascend snt9b,显存规格建议选择64G以上的规格,磁盘规格建议选择500GB及以上。 创建完Noteboo
创建Notebook 创建Notebook时,选择自定义镜像,并选择Step8 注册镜像章中注册的镜像。 图2 选择自定义镜像 资源类型推荐使用专属资源池,规格选到Asecnd snt9b,显存规格建议选择64G以上的规格,磁盘规格建议选择500GB及以上。 创建完Noteboo
此处仅介绍关键步骤。 创建Notebook时,选择自定义镜像,并选择Step8 注册镜像章中注册的镜像。 图1 选择自定义镜像 资源类型推荐使用专属资源池,规格选到Ascend snt9b,显存规格建议选择64G以上的规格,磁盘规格建议选择500GB及以上。 创建完Noteboo
保障客户系统应用大模型的成本效率,按需收费,按需扩缩的灵活成本效益资源配置方案,有效避免了资源闲置与浪费,降低了进入AI领域的门槛。 架构强调高可用性,多数据中心部署确保数据与任务备份,即使遭遇故障,也能无缝切换至备用系统,维持模型训练不中断,保护长期项目免受时间与资源损耗,确保进展与收益。 大模型应用开发,帮助开发者快速构建智能Agents
conversation_id为空的个数) proportion 和 test_count 二选一即可,如果同时输入,则优先使用 test_count,如果都未输入,则返回处理失败 False。 上传数据集至SFS Turbo 准备数据集,例如根据Alpaca数据部分给出的预训练数据集、SFT全参微调训练、LoRA微
is_success Boolean 请求是否成功。 error_message String 调用失败时的错误信息。 调用成功时无此字段。 error_code String 调用失败时的错误码,具体请参见错误码。调用成功时无此字段。 model_total_count Integer
表示流水线并行中一个micro batch所处理的样本量。在流水线并行中,为了减少气泡时间,会将一个step的数据切分成多个micro batch。 该值与TP和PP以及模型大小相关,可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。
表示流水线并行中一个micro batch所处理的样本量。在流水线并行中,为了减少气泡时间,会将一个step的数据切分成多个micro batch。 该值与TP和PP以及模型大小相关,可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。
app_id String APP的编号,可通过查询APP列表获取。 auth_id String 授权编号,授权失败时为空。 reason String 授权或者取消授权失败原因,授权成功时为空。 success Boolean 授权或者取消授权是否成功。 状态码: 401 表8 响应Header参数
在推理生产环境中部署推理服务 本章节介绍如何在ModelArts的推理生产环境(ModelArts控制台的在线服务功能)中部署推理服务。 Step1 准备模型文件和权重文件 在OBS桶中,创建文件夹,准备ascend_vllm代码包、模型权重文件、推理启动脚本run_vllm.s
通用的推理业务及LLM推理业务迁移评估表 收集项 说明 实际情况(请填写) 项目名称 项目名称,例如:XXX项目。 - 使用场景 例如: 使用YOLOv5算法对工地的视频流裁帧后进行安全帽检测。 使用BertBase算法对用户在app上购买商品后的评论进行理解。 - CPU架构 X86/ARM,自有软件是否支持ARM。
app_id String APP的编号,可通过查询APP列表获取。 auth_id String 授权编号,授权失败时为空。 reason String 授权或者取消授权失败原因,授权成功时为空。 success Boolean 授权或者取消授权是否成功。 状态码: 401 表9 响应Header参数
大的值可能会影响性能,设置为18相对平衡。 NCCL_IB_RETRY_CNT 15 IB通信重试次数。建议设置为最大值15,减少IB通信失败的概率。 父主题: 创建训练作业
成功响应示例 { "instance_id": "6fa459ea-ee8a-3ca4-894e-db77e160355e" } 失败响应示例 { "error_message": "The instance does not exist.", "error_code":
Gallery工具链服务。 硬件资源 选择支持运行该模型的硬件类型。 最低可运行规格 设置能够运行该模型的最低计算规格。在AI Gallery工具链服务中使用该模型时,只能选取等同或高于该规格的算力资源进行任务下发。 是否支持分布式训练/推理 选择该模型资产是否支持在单机多卡的资源节点上进行并行训练或推理。
输入数据的OBS路径应指向数据文件,且文件不能直接放在OBS桶的根目录下,应该存放在OBS桶的文件夹内。如:“/obs-xxx/data/input.csv”。 输入数据的格式必须为csv格式,有效数据行数必须大于100行。列数必须小于200列,数据总大小不能超过100MB。 上传OBS操作步骤:
dws:cluster:list 可选配置,如果访问DWS数据需要配置。 表15 专属资源池管理基础委托授权 业务场景 依赖的服务 委托授权项 说明 通过关联sfsturbo功能实现专属资源池和SFS Turbo资源打通。 SFS Turbo sfsturbo:shares:showShareNic
0-cann_7.0.1-py_3.9-euler_2.10.7-aarch64-snt9b”。 类型 选择“ASCEND”。 实例规格 选择snt9b资源。 存储配置 选择“云硬盘EVS”。 磁盘规格 按照对应的存储使用情况选择存储大小。 SSH远程开发 如果需通过VS Code远程连接No