检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
json文件至加载的权重文件/tokenizer目录下,参考路径上传代码和权重文件到工作环境中的步骤3。 cp -f config.json {work_dir}/tokenizers/falcon-11B/ glm4-9b模型 在训练开始前,需要修改glm4-9b模型中的tokeni
查看训练作业事件 训练作业的(从用户可看见训练作业开始)整个生命周期中,每一个关键事件点在系统后台均有记录,用户可随时在对应训练作业的详情页面进行查看。 方便用户更清楚的了解训练作业运行过程,遇到任务异常时,更加准确的排查定位问题。当前支持的作业事件如下所示: 训练作业创建成功 训练作业创建失败报错:
Cluster”页面。 您可以通过单击“购买AI专属集群”右侧的“操作记录”,查看当前处于失败状态的资源池信息。 图1 创建失败资源池信息 鼠标悬停在“状态”列的上,即可看到该操作失败的具体原因。 失败的记录默认按照操作的申请时间排序,最多显示500条并保留3天。 父主题: 资源池
表示读取资源池镜像中的默认值。 绑核:开启CPU绑核表示工作负载实例独占CPU,可以提升应用性能(比如训练作业、推理任务性能),减少应用的调度延迟,适用于对CPU缓存和调度延迟敏感的场景。关闭绑核表示关闭工作负载实例独占CPU的功能,优点是CPU共享池可分配的核数较多。也可关闭系
到评论的通知,AI说评论者也会收到评论回复的通知,所有用户均可查看资产评论并回复评论,对评论点赞等。 删除发布的技术文章 当您需要删除已发布在“AI说”的技术文章时,可以执行如下步骤: 在AI Gallery页面的右上角单击“我的Gallery > 我的AI说”。 在“我的发布”页签下查看发布的所有文章。
如果没有挂载任何外部存储,此时可用存储空间根据dockerBaseSize的配置来决定,可访问的存储空间比较小,因此建议通过挂载外部存储空间解决存储空间受限问题。 容器中挂载存储有多种方式,不同的场景下推荐的存储方式不一样,详情如表1所示。容器存储的基础知识了解请参见存储基础知识,有助您理解本章节内容
资源池的网络中的“关联sfsturbo”和“解除关联”功能。 场景介绍 对于使用ModelArts专属资源池的用户,在控制台创建完网络后,在网络列表页“操作 > 更多”下拉框中可见“关联sfsturbo”和“解除关联”。其中,“关联sfsturbo”用于将此网络与某个选定的SFS
PyTorch Profiler是针对PyTorch框架开发的性能数据采集和解析工具,通过在PyTorch训练脚本中插入Ascend PyTorch Profiler接口,执行训练的同时采集性能数据,完成训练后直接输出可视化的性能数据文件,提升了性能分析效率。 Ascend PyTorch
查看Notebook实例事件 在Notebook的整个生命周期,包括实例的创建、启动、停止、规格变更等关键操作以及实例的运行状态等在后台都有记录,用户可以在Notebook实例详情页中查看具体的事件,通过实例的事件,从而看到实例的运行或者异常等状态详情。在右侧可以手动刷新事件,也
付款”。 虚拟私有云和子网和Server资源的网络保持一致。 配置SNAT规则。 SNAT功能通过绑定弹性公网IP,实现私有IP向公有IP的转换,可实现VPC内跨可用区的多个云主机共享弹性公网IP、安全高效地访问互联网。 公网NAT网关页面,单击创建的NAT网关名称,进入NAT网关详情页。
验证ModelArts权限。 在左上角选择区域,区域需与授权配置中的区域相同。 在ModelArts左侧菜单栏中,选择“开发环境>Notebook”,界面未提示权限不足,表明ModelArts的使用权限和委托授权配置成功。 如果提示“需获取依赖服务的授权”,说明未配置ModelArts委托访问授权,请参考Step3
镜像预热参数 参数名称 说明 镜像来源 可选择“预置”或“自定义”的镜像。 预置:可选择SWR服务上自有的或他人共享的镜像。 自定义:可直接填写镜像地址。 添加镜像密钥 若本租户不具有预热镜像的权限(即非公开/非本租户私有/非他人共享的镜像),此时需要添加镜像密钥。在开启镜像密钥开关后,选择
户组页面查找待授权的用户组名称,在右侧的操作列单击“授权”,勾选步骤2创建的两条自定义策略,单击“下一步”,选择授权范围方案,单击“确定”。 此时,该用户组下的所有用户均有权限查看该用户组内成员创建的所有Notebook实例。 如果没有用户组,也可以创建一个新的用户组,并通过“用
开发者的新特性需求。基于服务演进,ModelArts团队已于2021年上线新版训练,力求解决存在的历史问题,并为新特性提供高性能、高易用、可扩展、可演进的底座,给用户提供更好的AI训练体验,打造易用、高效的AI平台。 下线旧版训练管理对现有用户的使用是否有影响? 正在使用的训练作
pipe”。 OBS其他问题。 请参考OBS服务端错误码或者采集request id后向OBS客服进行咨询。 如果是空间不足。 参考 常见的磁盘空间不足的问题和解决办法章节处理。 父主题: 云上迁移适配故障
String 下载的源OBS文件,必须以“obs://”作为前缀。 dst_local_dir 是 String 下载目标的本地文件夹,下载的本地目标文件夹后缀必须以“/”结尾。 表2 失败响应参数说明 参数 参数类型 描述 error_code String 调用失败时的错误码。 调用成功时无此字段。
准备环境 本文档中的模型运行环境是ModelArts Lite的DevServer。请参考本文档要求准备资源环境。 资源规格要求 计算规格:不同模型训练推荐的NPU卡数请参见表1。 硬盘空间:至少200GB。 Ascend资源规格: Ascend: 1*ascend-snt9b表示Ascend单卡。
准备环境 本文档中的模型运行环境是ModelArts Lite的DevServer。请参考本文档要求准备资源环境。 资源规格要求 计算规格:不同模型训练推荐的NPU卡数请参见表1。 硬盘空间:至少200GB。 Ascend资源规格: Ascend: 1*ascend-snt9b表示Ascend单卡。
准备环境 本文档中的模型运行环境是ModelArts Lite的DevServer。请参考本文档要求准备资源环境。 资源规格要求 计算规格:不同模型训练推荐的NPU卡数请参见表1。 硬盘空间:至少200GB。 Ascend资源规格: Ascend: 1*ascend-snt9b表示Ascend单卡。
准备环境 本文档中的模型运行环境是ModelArts Lite的DevServer。请参考本文档要求准备资源环境。 资源规格要求 计算规格:不同模型训练推荐的NPU卡数请参见表1。 硬盘空间:至少200GB。 Ascend资源规格: Ascend: 1*ascend-snt9b表示Ascend单卡。