检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
前提条件 请确认包年/包月专属资源池还未到期。 在续费管理页面开通自动续费 进入“费用中心 > 续费管理”页面。 自定义查询条件。 可在“自动续费项”页签查询已经开通自动续费的资源。 可对“手动续费项”、“到期转按需项”、“到期不续费项”页签的资源开通自动续费。 图1 续费管理 为包年/包月资源开通自动续费。
Notebook自定义镜像制作流程图(适用于场景一和场景二) 场景一:基于Notebook预置镜像或第三方镜像,在服务器上配置docker环境,编写Dockerfile后构建镜像并注册,具体案例参考在ECS上构建自定义镜像并在Notebook中使用 场景二:基于Notebook提供的预置镜像或第三方
准备训练模型适用的容器镜像。 训练 启动训练 介绍各个训练阶段:指令微调、PPO强化训练、RM奖励模型、DPO偏好训练使用全参/lora训练策略进行训练任务、性能查看。 父主题: 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导(6.3.909)
在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 检查docker是否安装。
解决方案 方法1(推荐),建议将此数据集重新发布版本,然后再使用新版本的Manifest文件导入。 方法2,修改您本地的Manifest文件,查找OBS目录下的数据变更,根据变更同步修改Manifest。确保Manifest文件与OBS目录下的数据现状相同,然后使用修改后的Manifest文件导入。
可在Terminal中解压压缩包。 unzip xxx.zip #在xxx.zip压缩包所在路径直接解压 解压命令的更多使用说明可以在主流搜索引擎中查找Linux解压命令操作。 父主题: 文件上传下载
Model(session, model_id="your_model_id") model_instance.delete_model() 方式2:根据查询模型对象列表返回的模型对象进行模型删除 1 2 3 4 5 6 7 from modelarts.session import Session
Scatter、Gather算子性能提升,满足MoE训练场景 matmul、swiglu、rope等算子性能提升,支持vllm推理场景 支持random随机数算子,优化FFN算子,满足AIGC等场景 支持自定义交叉熵融合算子,满足BMTrain框架训练性能要求 优化PageAttention算子,满足vllm投机推理场景
Session() 公共池查询 # 公共资源池规格列表查询 spec_list = TrainingJob(session).get_train_instance_types(session) # 返回的类型为list,可按需打印查看 print(spec_list) 专属池查询 # 运行中的专属资源池列表查询
租户可见域名:指租户可访问的域名,需要格外重视安全性和合规性。 租户不可见域名:指华为云服务在内网相互调用使用的域名,外部用户无法访问到对应的权威DNS服务器;或者Internet受限访问域名,只允许华为办公网络黄&绿区华为员工及合作方或外包人员访问的域名。 华为云基础域名安全使用,避免直接为租户分配基础域名。
|── alpaca_gpt4_data.json # 微调数据文件 在ECS服务器中安装obsutil工具,具体命令可参考obsutil工具快速使用,将OBS桶中的数据下载至SFS Turbo中。注意:需要使用用户账
features)吗 模型可视化作业中各参数的意义? 如何在ModelArts上获得RANK_TABLE_FILE进行分布式训练? 如何查询自定义镜像的cuda和cudnn版本? Moxing安装文件如何获取? 如何使用soft NMS方法降低目标框堆叠度 多节点训练Tenso
|── alpaca_gpt4_data.json # 微调数据文件 在ECS服务器中安装obsutil工具,具体命令可参考obsutil工具快速使用,将OBS桶中的数据下载至SFS Turbo中。注意:需要使用用户账
# 推理工具 代码上传至SFS Turbo 将AscendSpeed代码包AscendCloud-LLM-xxx.zip直接上传至ECS服务器中的SFS Turbo中,例如存放在/mnt/sfs_turbo/AscendCloud-LLM-xxx.zip目录下并解压缩。 unzip
若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod,需要先找到config
String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 请求参数 无 响应参数 无 请求示例 如下以删除uuid为3faf5c03-aaa1-4cbe-879d-24b05d997347的训练作业为例。
一华为云账号将其OBS桶权限授予其他华为云账号。如果您的账号是IAM用户或其他场景时,请参见《OBS权限配置指南 》> 典型场景配置案例,查找授予OBS桶权限的指导。 获得OBS桶的读写权限后,您可以在Notebook中,使用moxing接口,访问对应的OBS桶,并读取数据。举例如下:
若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导(6.3.909)
参数类型 描述 code 否 String 计费码。 period 否 String 计费时期。 queries_limit 否 Long 查询次数。 price 否 Float 价格。 响应参数 状态码: 201 表5 响应Body参数 参数 参数类型 描述 status String
String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 tags 是 Array of TmsTagForDelete