检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
第一条命令为安装Linux内核头文件和内核镜像,其中版本为5.4.0-144-generic。 第二条命令为重新生成GRUB引导程序的配置文件,用于在启动计算机时加载操作系统, 命令将使用新安装的内核镜像更新GRUB的配置文件,以便在下次启动时加载新的内核。 父主题: Lite Server
可选 VPC虚拟私有云 子账号在创建ModelArts的专属资源池过程中,如果需要开启自定义网络配置,需要配置VPC权限。 VPC FullAccess 可选 SFS弹性文件服务 授予子账号使用SFS服务的权限,ModelArts的专属资源池中可以挂载SFS系统作为开发环境或训练的存储。
开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图1 开启故障重启 断点续训练是通过checkpoint机制实现。c
Torch,训练使用的资源是CPU或GPU。 本实践教程仅适用于新版训练作业。 场景描述 本示例使用Linux x86_64架构的主机,操作系统ubuntu-18.04,通过编写Dockerfile文件制作自定义镜像。 目标:构建安装如下软件的容器镜像,并在ModelArts平台
在线服务发起预测请求: 方式一:使用图形界面的软件进行预测(以Postman为例)。Windows系统建议使用Postman。 方式二:使用curl命令发送预测请求。Linux系统建议使用curl命令。 方式三:使用Python语言发送预测请求。 方式四:使用Java语言发送预测请求。
nfs-common 获取SFS Turbo的挂载命令。 进入弹性文件服务SFS管理控制台。 选择“SFS Turbo”进入文件系统列表,单击文件系统名称,进入详情页面。 在“基本信息”页签获取并记录“Linux挂载命令”。 在ECS服务器中挂载NFS存储。 首先保证对应目录存在,然后输入对应指令即可。命令参考:
视频等数字内容。 自动驾驶 实现车辆自主感知环境、规划路径和控制行驶。支持自动驾驶场景PB级数据下模型高效训练,助力自动驾驶特有的感知、规控、仿真生成等全链路相关算法深度优化并快速迭代。 内容审核 深入业务场景,提供完备成熟的内容审核/CV场景快速昇腾迁移的方案,高效解决业务内容
Torch,训练使用的资源是CPU或GPU。 本实践教程仅适用于新版训练作业。 场景描述 本示例使用Linux x86_64架构的主机,操作系统ubuntu-18.04,通过编写Dockerfile文件制作自定义镜像。 目标:构建安装如下软件的容器镜像,并在ModelArts平台
背景说明 目前大模型的参数量已经达到千亿甚至万亿,随之大模型的体积也越来越大。千亿参数大模型的体积超过200G,在版本管理、生产部署上对平台系统产生了新的要求。例如:导入AI应用时,需要支持动态调整租户存储配额;模型加载、启动慢,部署时需要灵活的超时配置;当负载异常重启,模型需要重新加载,服务恢复时间长的问题亟待解决。
支持预标注任务。 “智能标注”是指基于当前标注阶段的标签及图片学习训练,选中系统中已有的模型进行智能标注,快速完成剩余图片的标注操作。“智能标注”又包含“主动学习”和“预标注”两类。 “主动学习”表示系统将自动使用半监督学习、难例筛选等多种手段进行智能标注,降低人工标注量,帮助用户找到难例。
容的情况,例如transformers包,导致import的时候出现了错误。 用户代码问题,出现了内存越界、非法访问内存空间的情况。 未知系统问题导致,建议先尝试重建作业,重建后仍然失败,建议提工单定位。 处理方法 如果存在之前能跑通,什么都没修改,过了一阵跑不通的情况,先去排查
Administrator”已生效。 创建ModelArts自定义策略 如果系统预置的ModelArts权限不满足您的授权要求,或者您需要管理用户操作OBS的操作权限,可以创建自定义策略。更多关于创建自定义策略操作和参数说明请参见创建自定义策略。 目前华为云支持可视化视图创建自定义策略和JSON视图创建自定
本文介绍开发环境场景下子账号所需的基本使用权限,您可参考权限清单新增对应业务场景的权限。示例场景为授权子账号使用Notebook进行调试,数据和代码存放在并行文件系统。以下内容需使用管理账号进行配置。 权限清单 权限 表1 开发环境所需权限 业务场景 依赖的服务 依赖策略项 支持的功能 配置建议 开发环境实例生命周期管理
print('OMPI_COMM_WORLD_SIZE: ' + os.environ['OMPI_COMM_WORLD_SIZE']) print('OMPI_COMM_WORLD_RANK: ' + os.environ['OMPI_COMM_WORLD_RANK'])
print('OMPI_COMM_WORLD_SIZE: ' + os.environ['OMPI_COMM_WORLD_SIZE']) print('OMPI_COMM_WORLD_RANK: ' + os.environ['OMPI_COMM_WORLD_RANK'])
pip源中不存在该包,当前默认pip源为pypi.org中的包,请在pypi.org中查看是否有对应版本的包并查看包安装限制。 下载的包与对应基础镜像架构不匹配,如arm系统下载了x86的包,python2版本的pip下载了python3的包。具体基础镜像运行环境请参见推理基础镜像列表。 安装pip包有先后依赖关系。
查看在线服务的事件 服务的(从用户可看见部署服务任务开始)整个生命周期中,每一个关键事件点在系统后台均有记录,用户可随时在对应服务的详情页面进行查看。 方便用户更清楚的了解服务部署和运行过程,遇到任务异常时,更加准确的排查定位问题。可查看的事件点包括: 表1 事件 事件类型 事件
设置在线服务故障自动重启 场景描述 当系统检测到Snt9b硬件故障时,自动复位Snt9B芯片并重启推理在线服务,提升了推理在线服务的恢复速度。 约束限制 仅支持使用Snt9b资源的同步在线服务。 只支持针对整节点资源复位,请确保部署的在线服务为8*N卡规格,请谨慎评估对部署在该节点的其他服务的影响。
PYTHONPATH=${MA_JOB_DIR}:${PYTHONPATH} 选择的启动文件将会被系统自动以python命令直接启动,因此请确保镜像中的Python命令为您预期的Python环境。通过系统自动注入的PATH环境变量,可以参考下述命令确认训练作业最终使用的Python版本。 export
智能标注失败,如何处理? 当前智能标注为免费使用阶段,当系统的标注任务过多时,因免费资源有限,导致任务失败,请您重新创建智能标注任务或建议您避开高峰期使用。 智能标注时间过长,如何处理? 当前智能标注为免费使用阶段,当系统的标注任务过多时,因免费资源有限,需要排队,您的标注任务会