检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
sub_img_list = os.listdir(os.path.join(data_path, item)) img_name_list += [ os.path.join(data_path, item
(可选)本地安装ma-cli 使用场景 本文以Windows系统为例,介绍如何在Windows环境中安装ma-cli。 Step1:安装ModelArts SDK 参考本地安装ModelArts SDK完成SDK的安装。 Step2:下载ma-cli 下载ma-cli软件包。 完成软件包签名校验。
UnrecognizedFlagError:Unknown command line flag 'task_index' 原因分析 运行参数中未定义该参数。 在训练环境中,系统可能会传入在Python脚本里没有定义的其他参数名称,导致参数无法解析,日志报错。 处理方法 参数定义中增加该参数的定义,代码示例如下: parser
Code环境访问Notebook的方式。 前提条件 已下载并安装VS Code。详细操作请参考安装VS Code软件。 用户本地PC或服务器的操作系统中建议先安装Python环境,详见VSCode官方指导。 创建一个Notebook实例,并开启远程SSH开发。该实例状态必须处于“运行中
Error 802原因为缺少fabricmanager,可能由于以下原因导致nvidia-fabricmanager.service不工作: 可能系统资源不足、如内存不足、内存泄露。 硬件故障、如IB网络或者GPU互联设备故障等。 没安装nvidia-fabricmanager组件或被误卸载。
在Notebook实例中运行训练代码,如果数据量太大或者训练层数太多,亦或者其他原因,导致出现“内存不够”问题,最终导致该容器实例崩溃。 出现此问题后,系统将自动重启Notebook,来修复实例崩溃的问题。此时只是解决了崩溃问题,如果重新运行训练代码仍将失败。 如果您需要解决“内存不够”的问题
A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 问题现象 在A系列GPU裸金属服务器上,系统环境是ubuntu20.04+nvidia515+cuda11.7,使用Pytorch2.0时出现如下错误: CUDA initialization:
点续训 企业在具体使用大模型接入企业应用系统的时候,不仅要考虑模型体验情况,还需要考虑模型具体的精度效果,和实际应用成本。 MaaS提供灵活的模型开发能力,同时基于昇腾云的算力底座能力,提供了若干保障客户商业应用的关键能力。 保障客户系统应用大模型的成本效率,按需收费,按需扩缩的
间文件系统与云服务器互通,因此保证SFS Turbo与Server服务器在同一区域即可。 当创建文件系统后,您需要使用弹性裸金属服务器来挂载该文件系统,具体步骤请参考挂载NFS协议类型文件系统到云服务器(Linux)。 为避免已挂载文件系统的云服务器重启后,挂载信息丢失,您可以在
批量创建类型。可选值如下: rack:表示整柜。 表12 Os 参数 是否必选 参数类型 描述 name 否 String 操作系统名称。 imageId 否 String 操作系统镜像id。 imageType 否 String 操作系统镜像类型。 private:私有镜像。 响应参数 状态码:200
服务预测 服务预测失败 服务预测失败,报错APIG.XXXX 在线服务预测报错ModelArts.4206 在线服务预测报错ModelArts.4302 在线服务预测报错ModelArts.4503 在线服务预测报错MR.0105 Method Not Allowed 请求超时返回Timeout
on device”。 原因分析 ModelArts部署使用的是容器化部署,容器运行时有空间大小限制,当用户的模型文件或者其他自定义文件,系统文件超过Docker size大小时,会提示镜像内空间不足。 处理方法 公共资源池容器Docker size的大小最大支持50G,专属资源池Docker
当裸金属服务器预置的NVIDIA版本和业务需求不匹配时,需要更换NVIDIA驱动和CUDA版本。本文介绍华为云A系列GPU裸金属服务器(Ubuntu20.04系统)如何从“NVIDIA 525+CUDA 12.0”更换为“NVIDIA 515+CUDA 11.7”。 操作步骤 卸载原有版本的NVIDIA和CUDA。
object 自定义配置参数。 os Os object 操作系统镜像信息。 表9 extendParams 参数 参数类型 描述 dockerBaseSize String 指定资源池节点的容器引擎空间大小。值为0时表示不限制大小。 表10 Os 参数 参数类型 描述 name
ModelArts支持训练模型过程中安装第三方依赖包。在训练代码目录下放置“pip-requirements.txt”文件后,在训练启动文件被执行前系统会执行如下命令,以安装用户指定的Python Packages。 pip install -r pip-requirements.txt
机器或资源池无法连通网络,并无法git clone下载代码、安装python依赖包的情况下,用户则需要找到已联网的机器(本章节以Linux系统机器为例)提前下载资源,以实现离线安装。用户可遵循以下步骤操作。 步骤一:资源下载 Python依赖包下载:进入 scripts/install
object 自定义配置参数。 os 否 Os object 自定义操作系统镜像信息。 表9 extendParams 参数 是否必选 参数类型 描述 dockerBaseSize 否 String 指定资源池节点的容器引擎空间大小。值为0时表示不限制大小。 表10 Os 参数 是否必选 参数类型
open”如何解决? 问题现象 原因分析 原因分析一:密钥文件未放在指定路径,详情请参考安全限制或VS Code文档。请参考解决方法一处理。 原因分析二:当操作系统为macOS/Linux时,可能是密钥文件或放置密钥的文件夹权限问题,请参考解决方法二处理。 解决方法 解决方法一: 请将密钥放在如下路径或其子路径下:
智能标注失败,如何处理? 当前智能标注为免费使用阶段,当系统的标注任务过多时,因免费资源有限,导致任务失败,请您重新创建智能标注任务或建议您避开高峰期使用。 智能标注时间过长,如何处理? 当前智能标注为免费使用阶段,当系统的标注任务过多时,因免费资源有限,需要排队,您的标注任务会
print('OMPI_COMM_WORLD_SIZE: ' + os.environ['OMPI_COMM_WORLD_SIZE']) print('OMPI_COMM_WORLD_RANK: ' + os.environ['OMPI_COMM_WORLD_RANK'])