检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
可通过总览页面,快速判断是否有其他模块的作业或实例在运行中,并进入到相关作业或实例上,判断是否使用了专属资源池。如判断相关作业或实例可停止,则可以停止,释放出更多的资源。 图1 总览 单击进入专属资源池详情页面,查看作业列表。 观察队头是否有其他作业在排队,如果已有作业在排队,则新建的作业需要继续等待。
执行训练启动命令后,等待模型载入,当出现“training”关键字时,表示开始训练。训练过程中,训练日志会在最后的Rank节点打印。 图1 等待模型载入 更多查看训练日志和性能操作,请参考查看日志和性能章节。 如果需要使用断点续训练能力,请参考断点续训练章节修改训练脚本。 父主题: 预训练
failed”。 原因分析 可能是所在环境的网络有问题,无法自动下载VS Code Server,请手动安装。 解决方法 打开VS Code,选择“Help>About”,并记下“Commit”的ID码。 确认创建Notebook实例使用的镜像的系统架构,可以在Notebook中打开Terminal,通过命令uname
Array of DataVolumesRes objects 数据。 pages Integer 总的页数。 size Integer 每一页的数量。 total Long 总的记录数量。 表3 DataVolumesRes 参数 参数类型 描述 category String 存储类型。可选值为OBS。
模型NPU卡数、梯度累积值取值表 不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。 表1 NPU卡数、加速框架、梯度配置取值表 模型 Template 模型参数量 训练策略类型 序列长度cutoff_len 梯度累积值
高:对于可能直接导致业务失败、数据丢失、系统不能维护、系统资源耗尽的高危操作。 中:对于可能导致安全风险及可靠性降低的高危操作。 低:高、中风险等级外的其他高危操作。 表1 操作及其对应风险 操作对象 操作名称 风险描述 风险等级 应对措施 集群 升级、修改、休眠集群、删除集群等。 可能影响M
用系统默认里面自带的。 如果必须指定卡ID,需要注意1/2/4规格下,指定的卡ID与实际分配的卡ID不匹配的情况。 如果上述方法还出现了错误,可以去notebook里面调试打印CUDA_VISIBLE_DEVICES变量,或者用以下代码测试,查看结果是否返回的是True。 import
包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见代码目录介绍。 AscendSpeed是用于模型并行计算的框架,其中包含了许多模型的输入处理方法。 获取路径:Support-E网站。 说明: 如果没有下载权限,请联系您所在企业的华为方技术支持下载获取。
授权管理 查看授权列表 配置授权 删除授权 创建ModelArts委托
objects 节点的输入项。 outputs 否 Array of JobOutput objects 节点的输出项。 step_uuid 否 String 节点的UUID,唯一性标识。 properties 否 Map<String,Object> 节点的属性。 events
Gallery 除了Gallery提供的已有资产外,还可以将个人创建的资产发布至Gallery货架上,供其他AI开发者使用,实现资产共享。 镜像资产上架 登录AI Gallery,选择右上角“我的Gallery”。 在“我的资产 > 镜像”下,选择未发布的镜像,单击镜像名称,进入镜像详情页。
运维运营安全,以及更广义的安全合规遵从。 租户:负责云服务内部的安全,安全地使用云。 华为云租户的安全责任在于对使用的IaaS、PaaS和SaaS类各项云服务内部的安全以及对租户定制配置进行安全有效的管理,包括但不限于虚拟网络、虚拟主机和访客虚拟机的操作系统,虚拟防火墙、API网
Gallery,单击右上角“我的Gallery > 我的资产 > 模型”,进入“我的模型”页面。 选择“我的订阅”页签,进入个人订阅的模型列表。 在模型列表选择需要推送的模型,单击“应用控制台”列的服务名称将模型推送至不同应用控制台。 图2 选择应用控制台 如果订阅的是ModelArts模
式,为资源池新创建的节点设置不同于资源池的计费模式,例如用户可以在包周期的资源池中创建按需的节点。如果用户不指定该参数,创建的节点计费模式和资源池保持一致。 修改容器引擎空间大小 如果您需要更大的容器引擎空间,您可以通过以下操作调整容器引擎空间大小。 对于新建的资源池,支持在新建
ices_out_cuda_frame failed with error code 0” 训练作业失败,返回错误码139 训练作业失败,如何使用开发环境调试训练代码? 日志提示“ '(slice(0, 13184, None), slice(None, None, None))'
Standard训练作业 功能咨询 训练过程读取数据 编写训练代码 创建训练作业 管理训练作业版本 查看作业详情
监控Lite Cluster资源 使用AOM看Lite Cluster监控指标 使用Prometheus查看Lite Cluster监控指标 父主题: Lite Cluster资源管理
Gallery 除了Gallery提供的已有资产外,还可以将个人创建的资产发布至Gallery货架上,供其他AI开发者使用,实现资产共享。 模型资产上架 登录AI Gallery,选择右上角“我的Gallery”。 在左侧“我的资产 > 模型”下,选择未发布的模型,单击模型名称,进入模型详情页。
动态挂载OBS 功能介绍 在运行中的Notebook实例,支持将“OBS并行文件系统”挂载到实例中指定的文件目录,挂载后可以在容器中以文件系统操作方式完成OBS并行文件系统对象的读写。 接口约束 暂无约束 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API
预训练 预训练数据处理 预训练任务 断点续训练 查看日志和性能 父主题: LLama2系列模型基于DevServer适配PyTorch NPU训练指导(6.3.904)