检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
动态挂载OBS 功能介绍 在运行中的Notebook实例,支持将“OBS并行文件系统”挂载到实例中指定的文件目录,挂载后可以在容器中以文件系统操作方式完成OBS并行文件系统对象的读写。 接口约束 暂无约束 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。
镜像方案说明 准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。
镜像方案说明 准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。
运行命令示例: 1. python ExcelToJson.py --user_id=001 --excel_addr=xxx.xlsx(.csv) --dataset_name=example --test_count=3 2. python ExcelToJson.py --user_id
运行命令示例: 1. python ExcelToJson.py --user_id=001 --excel_addr=xxx.xlsx(.csv) --dataset_name=example --test_count=3 2. python ExcelToJson.py --user_id
", "type" : "service_content", "config" : { "config_file" : "$ref/parameters/service_config1" } } ], "properties
处理建议:修改train_data_obs目录为正确地址,重新启动训练作业。 另外在Moxing下载OBS对象过程中,不要删除相应OBS目录下的对象,否则Moxing在下载到被删除的对象时会下载失败。
A050931 训练toolkit 预检容器 训练预检容器检测到GPU错误。 训练预检容器检测到GPU错误。 A050932 训练toolkit 预检容器 训练预检容器检测IB错误。 训练预检容器检测IB错误。 父主题: 资源池
启动失败 DELETE_FAILED:删除失败 ERROR:错误 DELETED:已删除 FROZEN:冻结 token String Notebook鉴权使用的token信息。
可选值如下: true:发布时启动特征分析任务 false:发布时不启动特征分析任务(默认值) status Integer 数据集版本状态。
而ModelArts的Notebook的优势是即开即用,它预先装好了不同的AI引擎,并且提供了非常多的可选规格,用户可以独占一个容器环境,不受其他人的干扰。只需简单配置,用户即可通过本地IDE连接到该环境进行运行和调试。
可以启动,停止,删除定时任务;通过Edit Job Definition更新该定时任务,也可以查看该定时任务的运行历史。
图1 资源配置(单节点方式) 修改容器引擎空间大小 扩容资源池时,可以设置新建节点的容器引擎空间大小。此操作会导致资源池内该规格下节点的dockerBaseSize不一致,可能会使得部分任务在不同节点的运行情况不一致,请谨慎操作。存量节点不支持修改容器引擎空间大小。
|── AscendSpeed # 代码目录 |──ascendcloud_patch/ # 针对昇腾云平台适配的功能代码包 |──scripts/ # 各模型训练需要的启动脚本
="your_service_id") predict_result = predictor_instance.predict(data=data_path, data_type=data_type) print(predict_result) 参数说明 表1 参数说明 参数 是否必选
service_id 是 String 服务ID。 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 用户token。
# 工具代码目录 ├── accuracy.py #精度测试脚本 ├── common_utils.py #获取训练日志工具 ├── performance.py #性能测试脚本 ├── trainer.py #训练启动脚本
该现象表明资源池规格任务紧张,训练作业无法正常启动,推荐您购买专属资源池补充计算节点。 如果您使用专属资源池创建训练作业,容错检查识别的故障节点会被剔除。系统自动补充健康的计算节点至专属资源池。
管理Lite Cluster节点 节点是容器集群组成的基本元素,在资源池详情页,单击“节点管理”页签,进行删除、重置、续费等操作。当把鼠标放在节点名称上方时,会显示资源ID,资源ID可用于查询账单或者在费用中心查询包周期资源的计费信息。
当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。