检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
on this platform”报错,具体解决方法请参见2。 处理方法 安装第三方包 pip中存在的包,使用如下代码: import os os.system('pip install xxx') pip源中不存在的包,此处以“apex”为例,请您用如下方式将安装包上传到OBS桶中。
Initialize the distributed environment. """ os.environ['MASTER_ADDR'] = '127.0.0.1' os.environ['MASTER_PORT'] = '29500' dist.init
write(ttf.content) 35 # FONT_PATH = "SimSun.ttf" FONT_PATH = os.path.join(os.getenv('DATA'), "SimSun.ttf") 父主题: 训练脚本说明
原因分析 在ModelArts侧进行节点重置后,modelarts-os会向节点添加准入污点,进行节点准入,而因为集群volcano没有污点容忍,且集群内只有一个节点,导致volcano无法启动,进而导致modelarts-os节点上管理污点的maos-node-agent容器无法启动,使得污点无法被自动清理。
新增委托:如果没有委托可选,可以在新增委托中创建委托权限。对于首次使用ModelArts的用户,需要新增委托。 “新增委托 > 委托名称” 系统自动创建委托名称,用户可以手动修改。 “新增委托 > 授权方式” 角色授权:IAM最初提供的一种根据用户的工作职能定义权限的粗粒度授权机制
音频(声音分类、语音内容、语音分割) 文本(文本分类、命名实体、文本三元组) 视频 参数填写无误后,单击页面右下角“创建”。 标注作业创建完成后,系统自动跳转至数据标注管理页面,针对创建好的标注作业,您可以执行智能标注、发布、修改和删除等操作。 图片(图像分类、物体检测、图像分割) 图2
--tensor-parallel-size:并行卡数。 --gpu-memory-utilization:0~1之间的float,实际使用的显存是系统读取的最大显存*gpu-memory-utilization。 --max-model-len:最大数据输入+输出长度,不能超过模型配置文件config
write(ttf.content) 35 # FONT_PATH = "SimSun.ttf" FONT_PATH = os.path.join(os.getenv('DATA'), "SimSun.ttf" 父主题: 训练脚本说明
# 形式1,数据在OBS上,且是一个压缩文件 obs_path = os.path.join(base_bucket_path, "dataset-zip/dataset.zip") data_local = os.path.join(base_local_path, "dataset/")
考如下处理方法: 在业务执行前加如下命令,检查是否能找到so文件。如果已经找到so文件,执行2;如果没有找到,执行3。 import os; os.system(find /usr -name *libcudart.so*); 设置环境变量LD_LIBRARY_PATH,设置完成后,重新下发作业即可。
进入地址,单击“Download”,选择“Archive Versions”,“Version”选择“4.3-1.0.1.0”,“OS Distribution”选择“Ubuntu”,“OS Distribution Version”选择“Ubuntu 16.04”,“Architecture”选择
Mox日志反复输出的问题,需要您在“启动文件”中添加如下代码,当“MOX_SILENT_MODE = “1””时,可在日志中屏蔽mox的版本信息: import os os.environ["MOX_SILENT_MODE"] = "1" 父主题: MoXing
的资源,“/cache”与代码目录共用10G,会造成内存不足,请更改为使用GPU资源。 请在代码中添加环境变量来解决。 import os os.system('export TMPDIR=/cache') 父主题: 硬盘限制故障
nci5。 -v ${dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的大文件系统,dir为宿主机中文件目录,${container_work_dir}为要挂载到的容器中的目录。为方便两个地址可以相同。 容器不能挂载到/
nci5。 -v ${dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的大文件系统,dir为宿主机中文件目录,${container_work_dir}为要挂载到的容器中的目录。为方便两个地址可以相同。 容器不能挂载到/
nci5。 -v ${dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的大文件系统,dir为宿主机中文件目录,${container_work_dir}为要挂载到的容器中的目录。为方便两个地址可以相同。 容器不能挂载到/
String 模型名称,名称只能字母,中文开头,为字母、数字、下划线、中文或者中划线组成的合法字符,支持1-64个字符。如果未输入该参数,系统会自动生成模型name。 model_version 是 String 模型版本,格式需为“数值.数值.数值”,其中数值为1-2位正整数。
挂载在系统目录下,如“/”、“/var/run”等,会导致容器异常。建议挂载在空目录下,若目录不为空,请确保目录下无影响容器启动的文件,否则文件会被替换,导致容器启动异常,工作负载创建失败。 storage_type 否 String 挂载类型sfs_turbo极速文件系统挂载。
Manifest文件可以由用户、第三方工具或ModelArts数据标注生成,其文件名没有特殊要求,可以为任意合法文件名。为了ModelArts系统内部使用方便,ModelArts数据标注功能生成的文件名由如下字符串组成:“DatasetName-VersionName.manifes
LogDir 参数 参数类型 描述 pfs PFSSummary object obs并行文件系统输出。 表26 PFSSummary 参数 参数类型 描述 pfs_path String obs并行文件系统路径url。 表27 DataSource 参数 参数类型 描述 job JobSummary