检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
及日志流,避免LTS日志流超过限额产生额外费用,如后续不再使用,建议删除。 重启服务 只有当在线服务处于“运行中”或“告警”状态时,才可进行重启操作。批量服务、边缘服务不支持重启。您可以通过如下方式重启在线服务: 登录ModelArts管理控制台,在左侧菜单栏中选择“模型部署>在
自动重启 选择是否打开“自动重启”开关。 开关关闭(默认关闭):表示不启用自动重启。 开关打开:表示当由于环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。 打开开关后,可以设置“最大重启次数”和是否启用“无条件自动重启”。 重启次数的取
选择您的用户账户,然后单击“确定”(大约四个窗口)以关闭所有窗口。 图1 添加所有者 完成所有操作后,再次关闭并打开VS Code并尝试连接到远程SSH主机。备注:此时密钥需放到.ssh文件夹中。 父主题: VS Code连接开发环境失败常见问题
Failed 未满足前提条件,服务器未满足请求者在请求中设置的其中一个前提条件。 413 Request Entity Too Large 由于请求的实体过大,服务器无法处理,因此拒绝请求。为防止客户端的连续请求,服务器可能会关闭连接。如果只是服务器暂时无法处理,则会包含一个Retry-After的响应信息。
在服务列表中,单击目标服务操作列的“修改”,修改服务基本信息,然后根据提示提交修改任务。 当修改了服务的某些参数配置时,系统会自动重启服务使修改生效。在提交修改服务任务时,如果涉及重启,会有弹窗提醒。批量服务参数说明请参见将模型部署为批量推理服务。 方式二:通过服务详情页面修改服务信息 登录Mod
system("ulimit -c 0") 排查数据集大小,checkpoint保存文件大小,是否占满了磁盘空间。 必现的问题,使用本地Pycharm远程连接Notebook调试。 建议与总结 在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。
释放一些不需要的tensor,使用过的,如下: del tmp_tensor torch.cuda.empty_cache() 必现的问题,使用本地Pycharm远程连接Notebook调试超参。 如果还存在问题,可能需要提工单进行定位,甚至需要隔离节点修复。 建议与总结 在创建训练作业前,推荐您先使用
在服务列表中,单击目标服务操作列的“修改”,修改服务基本信息,然后根据提示提交修改任务。 当修改了服务的某些参数配置时,系统会自动重启服务使修改生效。在提交修改服务任务时,如果涉及重启,会有弹窗提醒。 在线服务参数说明请参见部署模型为在线服务。修改在线服务还需要配置“最大无效实例数”设置并行升级的最大节点数,升级阶段节点无效。
心等待。 图10 操作记录 重启节点 资源池详情页的“节点”页签中提供节点重启的功能。单击操作列的“重启”,可实现对单个节点的重启。勾选多个节点的复选框,单击操作记录旁的“重启”按钮,可实现对多个节点的重启。 下发重启节点任务时需要选择对应节点,重启节点将影响相关业务的运行,请谨慎操作。
改动任何参数。 如果要使用自动重启功能,资源规格必须选择八卡规格。 注:训练作业中的训练故障自动恢复功能包括: 训练容错检查(自动重启),帮助用户隔离故障节点,优化用户训练体验。详细可了解:训练容错检查 无条件自动重启,不管什么原因系统都会自动重启训练作业,提高训练成功率和提升作
改动任何参数。 如果要使用自动重启功能,资源规格必须选择八卡规格。 注:训练作业中的训练故障自动恢复功能包括: 训练容错检查(自动重启),帮助用户隔离故障节点,优化用户训练体验。详细可了解:训练容错检查 无条件自动重启,不管什么原因系统都会自动重启训练作业,提高训练成功率和提升作
ckpoint。 如果要使用自动重启功能,资源规格必须选择八卡规格。 训练作业中的训练故障自动恢复功能包括: 训练容错检查(自动重启),帮助用户隔离故障节点,优化用户训练体验。详细可了解:训练容错检查 无条件自动重启,不管什么原因系统都会自动重启训练作业,提高训练成功率和提升作业的稳定性。详细可了解:无条件自动重启。
endpoints Array of EndpointsRes objects 本地IDE(如PyCharm、VS Code)或SSH客户端,通过SSH远程接入Notebook实例时需要的相关配置。 fail_reason String 实例失败原因。 flavor String 实例规格。 id
endpoints Array of EndpointsRes objects 本地IDE(如PyCharm、VS Code)或SSH客户端,通过SSH远程接入Notebook实例时需要的相关配置。 fail_reason String 实例失败原因。 flavor String 实例规格。 id
查跑通和跑不通的日志是否存在pip源更新了依赖包,如下图,安装之前跑通的老版本即可。 图1 PIP安装对比图 推荐您使用本地Pycharm远程连接Notebook调试。 如果上述情况都解决不了,请联系技术支持工程师。 建议与总结 在创建训练作业前,推荐您先使用ModelArts开
开“箱”即用,涵盖AI开发全流程,包含数据处理、模型开发、训练、管理、部署功能,可灵活使用其中一个或多个功能。 支持本地 IDE+ModelArts 插件远程开发能力,线上线下协同开发,开发训练一体化架构,支持大模型分布式部署及推理 统一管理 AI 开发全流程,提升开发效率,记录模型构建实验全流程
Lite Server资源管理 查看Lite Server服务器详情 启动或停止Lite Server服务器 同步Lite Server服务器状态 切换Lite Server服务器操作系统 监控Lite Server资源 NPU日志收集上传 释放Lite Server资源
USE_VOCAB_PARALLEL=1 #打开词表切分开关 unset USE_VOCAB_PARALLEL #关闭词表切分开关 配置后重启服务生效。 Matmul_all_reduce融合算子。 使用Matmul_all_reduce融合算子能提升全量推理性能;该算子要求驱动和固件版本为Ascend
改动任何参数。 如果要使用自动重启功能,资源规格必须选择八卡规格。 注:训练作业中的训练故障自动恢复功能包括: 训练容错检查(自动重启),帮助用户隔离故障节点,优化用户训练体验。详细可了解:训练容错检查 无条件自动重启,不管什么原因系统都会自动重启训练作业,提高训练成功率和提升作
改动任何参数。 如果要使用自动重启功能,资源规格必须选择八卡规格。 注:训练作业中的训练故障自动恢复功能包括: 训练容错检查(自动重启),帮助用户隔离故障节点,优化用户训练体验。详细可了解:训练容错检查 无条件自动重启,不管什么原因系统都会自动重启训练作业,提高训练成功率和提升作