检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
sysctl -p | grep net.ipv4.ip_forward、 Step2 制作自定义镜像 准备以下文件用于制作镜像。 下载并解压表1中的AscendCloud插件包,进入aigc_inference/torch_npu/webui/v1_9_0_RC/ 和aigc_inf
sysctl -p | grep net.ipv4.ip_forward 步骤二 制作自定义镜像 准备以下文件用于制作镜像。 下载并解压表1中的AscendCloud插件包,进入aigc_inference/torch_npu/webui/v1_9_0_RC/ 和aigc_inf
其中,“get_size”为获取文件或文件夹的大小。“recursive=True”表示类型为文件夹,“True”表示是文件夹,“False”为文件。 如果输出结果为一致,表示文件夹复制已完毕。如果输出结果不一致,表示复制未结束。 父主题: 编写训练代码
创建模型成功后,部署服务报错,如何排查代码问题 问题现象 创建模型成功后,部署服务失败,如何定位是模型代码编写有问题。 原因分析 用户自定义镜像或者通过基础镜像导入的模型时,用户自己编写了很多自定义的业务逻辑,这些逻辑有问题将会导致服务部署或者预测失败,需要能够排查出哪里有问题。
服务。镜像地址{image_url}请参见表1。 docker pull {image_url} Step5 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中粘贴临时登录指令,即可完成登录。 图3 复制登录指令
服务。镜像地址{image_url}请参见表1。 docker pull {image_url} Step5 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中粘贴临时登录指令,即可完成登录。 图3 复制登录指令
制作自定义镜像并用于训练(MindSpore+Ascend) 本案例介绍如何从0到1制作Ascend容器镜像,并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是MindSpore,训练使用的资源是专属资源池的Ascend芯片。 约束限制 由于案例中需要下载商用版CANN,因此本案例仅面向有
服务。镜像地址{image_url}请参见表1。 docker pull {image_url} Step5 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中粘贴临时登录指令,即可完成登录。 图3 复制登录指令
服务。镜像地址{image_url}请参见表1。 docker pull {image_url} Step5 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中粘贴临时登录指令,即可完成登录。 图3 复制登录指令
训练作业运行成功之后,在训练作业列表中,您可以单击作业名称,查看该作业的详情。在“日志”页签搜索输入输出参数名称获取参数信息。 如果需在训练中获取“train_url”、“data_url”和“test”参数的值,可在训练作业的启动文件中添加以下代码获取: import argparse
Lite Server支持的事件列表 通过对接CES,可以将业务中的重要事件或对云资源的操作事件收集到CES云监控服务,并在事件发生时进行告警。Lite Server支持的事件来源主要是BMS,具体事件列表如下。 表2 Lite Server支持的事件列表 事件来源 命名空间 事件名称
volumes=[nfs-x]”。 原因分析 用户账号下的SFS Turbo所在的VPC网络需要与专属资源池所在的网络打通,运行于该专属资源池的训练作业才能正常挂载SFS。因此,当训练作业挂载SFS失败时,可能是网络不通导致的。 处理步骤 进入训练作业详情页,在左侧获取SFS Turbo的名称。
是否支持Keras引擎? 开发环境中的Notebook支持。训练作业和模型部署(即推理)暂时不支持。 Keras是一个用Python编写的高级神经网络API,它能够以TensorFlow、CNTK或者Theano作为后端运行。Notebook开发环境支持“tf.keras”。 如何查看Keras版本
数据集图片无法显示,如何解决? 问题现象 创建的数据集,在进行标注时无法显示图片,单击单张图片也无法查看。或者数据集中提示图片加载异常。 原因分析 可能由于用户本地网络原因,无法正常访问OBS导致图片无法正常加载。 可能由于没有OBS桶的访问权限导致,请检查数据集输入位置所在的OBS桶,是否具有访问权限。
${work_dir}:${container_work_dir}:代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录,目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。 容器不能挂
数据标注中,难例集如何定义?什么情况下会被识别为难例? 难例是指难以识别的样本,目前只有图像分类和检测支持难例。 父主题: Standard数据管理
ir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录,目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。 ${image_name} 代表 ${image_name}。
Turbo。通过SSH连接ECS将代码包上传至SFS Turbo中。 在表1获取基础镜像,随后通过镜像方案说明中的步骤执行代码包中llm_train/AscendSpeed/Dockerfile文件,构建新的镜像,并上传至SWR中。 新构建的镜像中,包含有ModelLink、MindSpeed、
导入模型时,模型配置文件中的安装包依赖参数如何编写? 问题描述 从OBS中或者从容器镜像中导入模型时,开发者需要编写模型配置文件。模型配置文件描述模型用途、模型计算框架、模型精度、推理代码依赖包以及模型对外API接口。配置文件为JSON格式。配置文件中的“dependencies”,表示配置模型
如何将开发环境Notebook A的数据复制到Notebook B中? 目前不支持直接将Notebook A的数据复制到Notebook B,如果需要复制数据,可参考如下步骤操作: 将Notebook A的数据上传至OBS; 下载OBS中的数据至Notebook B。 文件的上传