检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
对训练作业的描述,默认为空,字符串的长度限制为[0,256]。 worker_server_num 是 Integer 训练作业worker的个数,最大值请从查询作业资源规格接口获取。 app_url 是 String 训练作业的代码目录。如:“/usr/app/”。应与boot_file_url一
(公共池不支持),且挂载的SFS不是当前子账号创建的。 按需配置。 查看所有实例 ModelArts modelarts:notebook:listAllNotebooks ModelArts开发环境界面上,查询所有用户的实例列表,适用于给开发环境的实例管理员配置该权限。 按需配置。
train_instance_type 是 String 训练作业选择的资源规格,请参考查询资源规格列表 train_instance_count 是 int 训练作业计算节点个数。 framework_type 否 String 训练作业选择的引擎规格,请参考查询引擎规格列表。 framework_version 否
在“我的算法”列表,单击算法名称进入详情页,可以查看算法详细信息。 选择“基本信息”页签可以查看算法信息。 “基本信息”页签,单击“编辑”,支持修改除名称和ID之外的算法信息。修改完成,单击“保存”即可完成修改。 选择“训练列表”页签可以查看使用该算法的训练作业信息,例如训练作业名称、状态。
其他加速框架或ZeRO (Zero Redundancy Optimizer)优化器、NPU节点数及其他配置。 具体优化工具使用说明可参考如何选择最佳性能的zero-stage和-offloads。 父主题: 训练脚本说明
统。 选择存放OBS并行文件系统下的文件夹,单击“确定”。 图1 动态挂载OBS并行文件系统 挂载成功后,可以在Notebook实例详情页查看到挂载结果。 图2 挂载成功 方式2:API模式 动态挂载API接口已发布至华北-北京四和华东-上海一站点。请参考JupyterLab主页
3.911-xxx.zip 文件名中的xxx表示具体的时间戳,以包名发布的实际时间为准。 获取路径:Support-E,登录后在此路径中查找下载ModelArts 6.3.911 版本。 说明: 如果没有下载权限,请联系您所在企业的华为方技术支持下载获取。 基础镜像包 swr.cn-southwest-2
单击右上角的“购买终端节点”,进入购买页面。 区域:终端节点所在区域。 不同区域的资源之间内网不互通,请确保与ModelArts所在区域保持一致。 服务类别:请选择“按名称查找服务”。 服务名称:填入步骤1中获取的“终端节点服务地址”。单击右侧验证按钮,系统将为您自动填入虚拟私有云、子网和节点IP。 创建内网域名:保持默认值。
其他加速框架或ZeRO (Zero Redundancy Optimizer)优化器、NPU节点数及其他配置。 具体优化工具使用说明可参考如何选择最佳性能的zero-stage和-offloads。 父主题: 训练脚本说明
String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 表4 Apps 参数 是否必选 参数类型 描述 app_id 否 String APP的编号,可通过查询APP列表获取。 响应参数 状态码:200
对训练作业的描述,默认为空,字符串的长度限制为[0,256]。 worker_server_num 是 Integer 训练作业worker的个数,最大值请从查询作业资源规格接口获取。 app_url 是 String 训练作业的代码目录。如:“/usr/app/”。应与boot_file_url一
注数据操作时,添加或删除标签。 图1 导入数据集-OBS 导入成功后,数据将自动同步到数据集中。您可以在“数据集”页面,单击数据集的名称,查看详细数据,并可以通过创建标注任务进行数据标注。 文件型数据标注状态 数据标注状态分为“未标注”和“已标注”。 未标注:仅导入标注对象(指待
/pretrain_gpt2.sh & 图3 开始预训练 实时查看训练日志,监控程序。 tail -f nohup.out 如果显示如下信息, 表示模型训练完成。 图4 模型训练完成 在训练过程中观察单GPU卡的利用率,如下: 图5 GPU利用率 查看生成的模型checkpoint。 本示例生成的
执行脚本收集日志。 在节点上执行该脚本,可以看到有如下输出,代表日志收集完成并成功上传至OBS。 图3 日志收集完成 查看在脚本的同级目录下,可以看到收集到的日志压缩包。 图4 查看结果 父主题: Lite Server资源管理
3指使用0-3卡执行训练任务 训练成功标志 “***** train metrics *****”关键字打印 训练完成后,请参考查看日志和性能章节查看指令微调的日志和性能。 1、如训练过程中遇到“NPU out of memory”“Permission denied” 问题可参考
权限,包括对自己实例的创建、启动、停止、删除等权限以及周边依赖服务的权限。普通开发者不需要ModelArts专属资源池的操作权限,也不需要查看其他用户的Notebook实例。 图1 账号关系示意图 配置管理员权限 管理员账号需要拥有ModelArts专属资源池的完全控制权限,以及
docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward
NODE_RANK=0 NPUS_PER_NODE=4 sh scripts/llama2/0_pl_sft_7b.sh 最后,请参考查看日志和性能章节查看SFT微调的日志和性能。 父主题: 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导(6
在获取信息的过程中,清晰地描述你正在做什么 4. 永远不要返回空的回复 - 确保用自然语言解释你的每个步骤,比如当查询天气时,你应该先说'让我使用天气工具为您查询...',然后再进行工具调用。记住:先表达你的理解和计划,再使用工具。每次回复都必须包含对用户的清晰解释。 图2 输入提示词
速AI产品的开发与落地,保障AI开发生态链上各参与方高效地实现各自的商业价值。 如果您是订阅者,可以在AI Gallery中,查找您想要的AI资产,并查看资产详情,对于满足业务需要的资产,您可以直接订阅并推送至ModelArts使用。 如果您是发布者,可以将自己开发的AI资产,发布至AI