检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
String 工作流的一次执行中一个节点的执行ID。 请求参数 无 响应参数 状态码: 200 表2 响应Body参数 参数 参数类型 描述 [数组元素] Array<Array<WorkflowStepMetric>> OK 表3 WorkflowStepMetric 参数 参数类型
/etc/apt/sources.list /etc/apt/sources.list.bak && \ sed -i "s@http://.*security.ubuntu.com@http://repo.huaweicloud.com@g" /etc/apt/sources.list && \
查询创建的虚拟环境 解决方案 在Terminal中执行conda deactivate命令退出当前虚拟环境,默认进入base环境。执行pip list命令查询已安装的包,然后安装需要的依赖进行保存,最后切换至指定的虚拟环境后再运行脚本。 父主题: 环境配置故障
查看假如reboot(尚未reboot)后默认选择的内核版本: [root@Server-ddff ~]# grub2-editenv list saved_entry=EulerOS (4.18.0-147.5.1.6.h998.eulerosv2r9.x86_64) 2.0
sh”文件中默认MA_NUM_GPUS为8卡,因此选择notebook规格时需要与MA_NUM_GPUS默认值相同。 存储配置:选择“弹性文件服务SFS”作为存储位置。子目录挂载可不填写,如果需挂载SFS指定目录,则在子目录挂载处填写具体路径。 如果需要通过VS Code连接No
ModelArts Lite基于软硬件深度结合、垂直优化,构建开放兼容、极致性价比、长稳可靠、超大规模的云原生AI算力集群,提供一站式开通、网络互联、高性能存储、集群管理等能力,满足AI高性能计算等场景需求。目前其已在大模型训练推理、自动驾驶、AIGC、内容审核等领域广泛得到应用。 ModelArts
分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50GB,只有默认的10GB,导致作业训练失败。 实际存储空间足够,却依旧报错“No Space left on device”。 同一目录下创建较多文件,为了加快文件检索速度,内核会创建一个索引
Vnt1),存储方案推荐使用“OBS的并行文件系统(存放数据和代码)”。 单机多卡:中等数据量(50G左右训练数据)、中等算力场景(8卡Vnt1),存储方案推荐使用“SFS(存放数据和代码)”。 多机多卡:大数据量(1T训练数据)、高算力场景(4台8卡Vnt1),存储方案推荐使用
分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50G,只有默认的10GB,导致作业训练失败。 实际存储空间足够,却依旧报错“No Space left on device”。 同一目录下创建较多文件,为了加快文件检索速度,内核会创建一个索引
镜像:在“自定义镜像”页签选择已上传的自定义镜像。 资源类型:按实际情况选择已创建的专属资源池。 规格:选择1 GPU规格。 存储配置:选择“云硬盘EVS”作为存储位置。 如果需要通过VS Code连接Notebook方式进行代码调试,则需开启“SSH远程开发”并选择密钥对,请参考VS
容器中的日志路径。 表9 PersistentVolumes 参数 是否必选 参数类型 描述 name 否 String 存储卷的名称。 mount_path 是 String 存储卷在容器中的挂载路径。如:/tmp。请不要挂载在系统目录下,如“/”、“/var/run”等,会导致容器异常。
io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list 安装nvidia-docker2: sudo apt-get update \
从文件中读取所有行,返回一个list,每个元素是一行,以换行符结尾。 1 2 3 import moxing as mox with mox.file.File('obs://bucket_name/obs_file.txt', 'r') as f: file_line_list = f.readlines()
约束与限制 需要申请单个模型大小配额和添加使用节点本地存储缓存的白名单。 需要使用自定义引擎Custom,配置动态加载。 需要使用专属资源池部署服务。 专属资源池磁盘空间需大于1T。 操作事项 申请扩大模型的大小配额和使用节点本地存储缓存白名单 上传模型数据并校验上传对象的一致性 创建专属资源池
联系您所在企业的华为方技术支持。 提示:本文档适用于仅使用OBS对象存储服务(Object Storage Service)作为存储的方案,OBS用于存储模型文件、训练数据、代码、日志等,提供了高可靠性的数据存储解决方案。 约束限制 如果要使用自动重启功能,资源规格必须选择八卡规
自动学习:停止因运行自动学习作业而创建的训练作业和在线服务。删除存储到OBS中的数据及OBS桶。 Workflow:停止因运行Workflow作业而创建的训练作业和在线服务。删除存储到OBS中的数据及OBS桶。 开发环境(Notebook):删除Notebook实例。删除存储到OBS中的数据及OBS桶。 停止
审计 云审计服务(Cloud Trace Service,CTS),是华为云安全解决方案中专业的日志审计服务,提供对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 用户开通云审计服务并创建和配置追踪任务后,CTS可记录Mod
callbacks suppressed 问题现象 弹性文件服务(Scalable File Service,SFS)提供按需扩展的高性能文件存储(NAS),可以在裸金属服务器中通过网络协议挂载使用,SFS支持NFS和CIFS的网络协议。在使用裸金属服务器时, 将数据放在SFS盘中,
联系您所在企业的华为方技术支持。 提示:本文档适用于仅使用OBS对象存储服务(Object Storage Service)作为存储的方案,OBS用于存储模型文件、训练数据、代码、日志等,提供了高可靠性的数据存储解决方案。 约束限制 如果要使用自动重启功能,资源规格必须选择八卡规
参数类型 说明 extend_storage Array<Storage> 扩展存储列表,如表14所示。扩展存储当前仅支持type为“obsfs”的类型,且仅对部分专属资源池开放。 storage Object 存储路径。表14 auto_stop Object 自动停止参数,如表10