正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
用户AK-SK认证模式 本模式支持OBS管理、训练管理、模型管理、服务管理模块的鉴权。 示例代码 1 2 from modelarts.session import Session session = Session(access_key='***',secret_key='***'
/v1/{project_id}/images/group 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID,获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 name 否 String 镜像名称,长度限制512个字
CUDA-capable device is detected 原因分析 根据错误信息判断,报错原因为训练作业运行程序读取不到GPU。 处理方法 根据报错提示,请您排查代码,是否已添加以下配置,设置该程序可见的GPU: os.environ['CUDA_VISIBLE_DEVICES']
原因是集群没有安装ICAgent。新建特权池时默认会安装ICAgent,可能由于用户自行卸载ICAgent,导致资源池数据显示异常。 处理方法 登录“应用运维管理”控制台,在“配置管理 > Agent管理”中,选择未安装ICAgent的集群,并单击“安装ICAgent”。 图1 安装ICAgent
import moxing as mox mox.file.make_dirs('obs://modelarts-test08/moxing/test01') mox.file.exists('obs://modelarts-test08/moxing/test01') 执行结果
json文件,在等待status字段的值等于completed之后,将模板二格式jobstart_hccl.json文件转换为模板一格式的jobstart_hccl.json文件。 转换后的jobstart_hccl.json文件格式(模板一)示例: { "server_count":
件夹大小,根据结果判断是否复制完毕: import moxing as mox mox.file.get_size('obs://bucket_name/obs_file',recursive=True) 其中,“get_size”为获取文件或文件夹的大小。“recursive=
参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workspace_id 是 String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。
定为0.5,后续可以根据推理效果进行调整。 --per-token:激活值量化方法,如果指定则为per-token粒度量化,否则为per-tensor粒度量化。 --per-channel:权重量化方法,如果指定则为per-channel粒度量化,否则为per-tensor粒度量化。
定为0.5,后续可以根据推理效果进行调整。 --per-token:激活值量化方法,如果指定则为per-token粒度量化,否则为per-tensor粒度量化。 --per-channel:权重量化方法,如果指定则为per-channel粒度量化,否则为per-tensor粒度量化。
中。 OSError:[Errno 28] No space left on device 原因分析 数据下载至容器的位置空间不足。 处理方法 请排查是否将数据下载至“/cache”目录下,GPU规格资源的每个节点会有一个“/cache”目录,空间大小为4TB。并确认该目录下并发
训练。 原因分析 Tensorflow分布式有多种执行模式,mox会通过4次执行50 step记录执行时间,选择执行时间最少的模型。 处理方法 创建训练作业时,在“运行参数”中增加参数“variable_update=parameter_server”来关闭Mox的warmup。
does not exist. The operation, 'images', does not exist in the graph。 处理方法 如果切分了数据集,需要删除推理代码中“Yolov3Service”类中的如下代码: self.model_inputs = {'images':
s/{workflow_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workflow_id 是 String 工作流的ID。 请求参数 无 响应参数 无 请求示例 删除Workflow工作流
定为0.5,后续可以根据推理效果进行调整。 --per-token:激活值量化方法,如果指定则为per-token粒度量化,否则为per-tensor粒度量化。 --per-channel:权重量化方法,如果指定则为per-channel粒度量化,否则为per-tensor粒度量化。
定为0.5,后续可以根据推理效果进行调整。 --per-token:激活值量化方法,若指定则为per-token粒度量化,否则为per-tensor粒度量化。 --per-channel:权重量化方法,若指定则为per-channel粒度量化,否则为per-tensor粒度量化。
提示当前专属资源池未初始化开发环境,请到专属资源池页面初始化开发环境。 原因分析 新购买的专属资源池,需要初始化环境才能用于创建Notebook。 解决方法 请到专属资源池页面初始化开发环境。 进入“专属资源池”页面,单击目标资源池“操作”列的“更多 > 设置作业类型”。 在“设置作业类型”页
完成构建任务,构建超时中断,即会出现“Model image build task timed out”提示,不显示详细的构建日志。 处理方法 预先准备需要编译下载的依赖包,减少依赖包下载和编译的时间。可通过线下wheel包方式安装运行环境依赖。线下wheel包安装,需确保wheel包与模型文件放在同一目录。
nanosecond timestamp: 1-01-02 13:20:00 原因分析 出现该问题的可能原因如下: 时间值越界,请参考官方文档。 处理方法 校验时间数据,pandas以纳秒表示时间戳。 最小时间:1677-09-22 00:12:43.145225 最大时间:2262-04-11
model stream execute failed] 原因分析 出现该问题的可能原因如下: 数据读入的速度跟不上模型迭代的速度。 处理方法 减少预处理shuffle操作。 dataset = dataset.shuffle(buffer_size=x) 关闭数据预处理开关,可能会影响性能。