检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
volumes属性列表 参数 参数类型 说明 nfs Object 共享文件系统类型的存储卷。仅支持运行于已联通共享文件系统网络的资源池的训练作业。具体请参见表6。 host_path Object 主机文件系统类型的存储卷。仅支持运行于专属资源池中的训练作业。具体请参见表7。 表6
导入模型提示单个模型文件超过5G限制 问题现象 在导入模型时,提示单个模型文件大小超过5G限制。 原因分析 在不使用动态加载的情况下,系统对单个模型文件的限制大小为5G,超过时无法进行导入。 处理方法 精简模型文件后,重新导入。 使用动态加载功能进行导入。 图1 使用动态加载 父主题:
放训练输出的OBS路径。 Data OBS Path 设置为存储训练数据的OBS路径,例如“/test-modelarts2/mnist/dataset-mnist/”,其中“test-modelarts2”为桶名称。 Training OBS Path 设置OBS路径,该路径下
结果不准确,建议手工调整标签或目标框,然后单击“确认标注”。完成确认后,重新标注的数据将呈现在“已标注”页签下。 如图1所示的难例,dog标签的目标框位置不准确,使用标注框重新标注,如图中的“漏检”目标框,然后需要将原先标注错误的目标框删除,即“误检”标签框。手工调整后,单击“确认标注”完成难例确认。
Server,请手动安装。 解决方法 打开VS Code,选择“Help>About”,并记下“Commit”的ID码。 确认创建Notebook实例使用的镜像的系统架构,可以在Notebook中打开Terminal,通过命令uname -m查看。 下载对应版本的vscode-server,根据Comm
Cluster节点默认会安装os-node-agent插件,用于对节点进行管理,例如: 驱动升级:通过os-node-agent插件下载驱动文件并进行驱动版本升级、回退。 故障检测:通过os-node-agent插件在系统内周期性巡检故障特征,及时发现节点故障。 指标采集:通过os-node-a
提供合适的软件、操作系统、网络等配置策略,通过在硬件上的充分测试,确保其兼容性和性能最合适。 方便自定义,预置镜像已经在SWR仓库中,通过对预置镜像的扩展完成自定义镜像注册。 安全可信,基于安全加固最佳实践,访问策略、用户权限划分、开发软件漏洞扫描、操作系统安全加固等方式,确保镜像使用的安全性。
json中的swr_location字段后重试。 异常 自定义镜像健康检查接口必须是xxx。 The health check url of custom image model must be %s. 请修改自定义镜像健康检查接口后重试。 正常 当前镜像构建任务状态为xxx。 The status
查看训练作业资源占用情况 约束限制 训练作业的资源占用情况系统会自动保存30天,过期会被清除。 如何查看训练作业资源使用详情 在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。 在训练作业列表中,单击作业名称进入训练作业详情页面。 在训练作业详情页面,单
委托查询失败 系统错误,请联系技术支持。 400 ModelArts.0421 Failed to create agency. 委托创建失败 系统错误,请联系技术支持。 400 ModelArts.0422 Failed to query users. 查询用户列表失败 系统错误,请联系技术支持。
mnist (x_train, y_train), (x_test, y_test) = mnist.load_data(args.data_url) x_train, x_test = x_train / 255.0, x_test / 255.0 model = tf.keras
节点资源,不同机型的节点对应的操作系统、适用的CCE集群版本等不相同,为了便于您制作镜像、升级软件等操作,本文对不同机型对应的软件配套版本做了详细介绍。 裸金属服务器的对应的软件配套版本 表1 裸金属服务器 类型 卡类型 RDMA网络协议 操作系统 适用范围、约束 依赖插件 NPU
对应的内容会与 input 对应的内容拼接后作为指令,即指令为 instruction\ninput。 output:生成的指令的答案。 system:系统提示词,用来为整个对话设定场景或提供指导原则。 history: 一个列表,包含之前轮次的对话记录,每一对都是用户消息和模型回复。这有助于保持对话的一致性和连贯性。
2版本进行远程连接。 VS Code安装指导如下: 图2 Windows系统下VS Code安装指导 Linux系统下,执行命令sudo dpkg -i code_1.85.2-1705561292_amd64.deb安装。 Linux系统用户,需要在非root用户进行VS Code安装。 父主题:
人工标注图片数据 由于模型训练过程需要大量有标签的图片数据,因此在模型训练之前需对没有标签的图片添加标签。您可以通过手工标注或智能一键标注的方式添加标签,快速完成对图片的标注操作,也可以对已标注图片修改或删除标签进行重新标注。 针对图像分类场景,开始标注前,您需要了解: 图片标注支持多标签,即一张图片可添加多个标签。
volumes属性列表 参数 参数类型 说明 nfs object 共享文件系统类型的存储卷。仅支持运行于已联通共享文件系统网络的资源池的训练作业。具体请参见表14。 host_path object 主机文件系统类型的存储卷。仅支持运行于专属资源池中的训练作业。具体请参见表15。 表14
本文介绍开发环境场景下子账号所需的基本使用权限,您可参考权限清单新增对应业务场景的权限。示例场景为授权子账号使用Notebook进行调试,数据和代码存放在并行文件系统。以下内容需使用管理账号进行配置。 权限清单 权限 表1 开发环境所需权限 业务场景 依赖的服务 依赖策略项 支持的功能 配置建议 开发环境实例生命周期管理
查询运行中的Notebook可用时长 功能介绍 该接口用于查询运行中的Notebook实例的可用时长。 接口约束 暂无约束 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI
uncorrectable ECC error encountered 原因分析 由于ECC错误,导致作业运行失败。 处理方法 当ECC错误且计数超过64时,系统会自动隔离故障节点,重启训练作业确认故障是否解决。如果未隔离的节点导致训练作业再次失败或卡死,请联系技术支持处理。 父主题: 业务代码问题
String batch服务类型必选。批量任务中调用的推理接口,即模型镜像中暴露的REST接口,需要从模型的config.json文件中选取一个api路径用于此次推理;如使用ModelArts提供的预置推理镜像,则此接口为/。 mapping_type 否 String batc