检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
选择下拉框中支持的操作系统。 配置方式 选择重置节点的配置方式。 按节点比例:重置任务包含多个节点时,可以设置同时被重置节点的最高比例。 按实例数量:重置任务包含多个节点时,可以设置同时被重置节点的最大个数。 驱动版本 可以在下拉框中指定重置节点的驱动版本。 图1 重置节点 单击“操
String> 通过应用专属URL直接打开应用进入远程开发模式。 ssh_keys Array of strings SSH密钥对名称列表,允许设置多个密钥对实现同时对SSH实例的访问。 表10 EndpointsRes 参数 参数类型 描述 allowed_access_ips Array
删除AI应用 当AI应用不再使用时,支持删除,释放AI Gallery仓库的存储空间。 在AI应用详情页,选择“设置”页签。 确认AI应用状态是否为“运行中”。 是,则在“运行资源设置”处,单击“暂停”,停止AI应用再执行下一步。 否,则执行下一步。 在“删除AI应用”处,单击“删除AI应用”按钮,确认后AI应用将被删除。
称。 打印如下信息,表示构建镜像成功。 图3 成功构建镜像 如果推理需要使用NPU加速图片预处理,适配了llava-1.5模型,启动时需要设置export ENABLE_USE_DVPP=1,需要安装torchvision_npu,可放到镜像制作脚本./AscendCloud/A
快速将数据集中的数据添加到标注作业中。 问题现象: 将已标注好的数据上传至OBS,同步数据后,显示为未标注。 原因分析: 可能是OBS桶设置了自动加密导致此问题。 解决方法: 需要新建OBS桶重新上传数据,或者取消桶加密后,重新上传数据。 筛选数据 在标注作业详情页面,默认展示
在“版本管理”页面中,选择对应的数据集版本,在数据集版本基本信息区域,单击“设置为当前版本”。设置完成后,版本名称右侧将显示为“当前版本”。 图1 设置当前版本 只有状态为“正常”的版本,才能被设置为当前版本。 删除数据集版本 登录ModelArts管理控制台,在左侧菜单栏中选
用户可根据实际业务场景和节点规模,自定义配置容器网段,配置方式如下: ModelArts Standard池,资源池创建阶段指定容器网段,根据实际需要设置更大的容器网段。 图7 设置容器网段 ModelArts Lite池,选择/创建具有更大容器网段的CCE集群。CCE容器网段配置参见网络规划。 账号冻结导致创建失败?
称。 打印如下信息,表示构建镜像成功。 图4 成功构建镜像 如果推理需要使用NPU加速图片预处理,适配了llava-1.5模型,启动时需要设置export ENABLE_USE_DVPP=1,需要安装torchvision_npu,可放到镜像制作脚本./AscendCloud/A
0.5.3 打印如下信息,表示构建镜像成功。 图3 成功构建镜像 注:若构建镜像时报错pip超时,可在Dockerfile中添加如下命令设置pip源 RUN pip config set global.index-url https://xxx/simple RUN pip config
持在GPU或者Ascend上训练,那么可能会报错,需要使用Notebook进行云端调试。 设置断点后单击“调试”,可实现代码逐步调试,查看中间变量值。 图9 “调试”按钮 图10 通过设置断点实现代码调试 可单击“运行”按钮,通过日志观察是否能正常训练。 图11 “运行”按钮 图12
/usr -name *libcudart.so*); 设置环境变量LD_LIBRARY_PATH,设置完成后,重新下发作业即可。 例如so文件的存放路径为:/use/local/cuda/lib64,LD_LIBRARY_PATH设置如下: export LD_LIBRARY_PAT
> 体验”,进入体验页面。 在“模型体验”右上角,单击“参数设置”,拖动或直接输入数值配置推理参数。单击“恢复默认”可以将参数值调回默认值。 图1 设置推理参数 表1 参数设置 参数 说明 温度/Temperature 设置推理温度。 数值较高,输出结果更加随机。 数值较低,输出结果更加集中和确定。
默认无限制,支持设置1~60000。 分钟 推理服务GPU规格使用时长(单节点为统计基础单元) 默认无限制,支持设置1~60000。 分钟 训练作业CPU规格训练核数 默认无限制,支持设置1~10000。 核 训练作业GPU规格训练卡数 默认无限制,支持设置1~1000。 卡 训练作业RAM规格训练内存大小
”页面。 在选择模型及配置中,单击“增加模型版本进行灰度发布”添加新版本。 图1 灰度发布 您可以设置两个版本的流量占比,服务调用请求根据该比例分配。其他设置可参考参数说明。完成设置后,单击下一步。 确认信息无误后,单击“提交”部署在线服务。 父主题: 在线服务
)服务。 添加训练作业使用权限。在统一身份认证服务页面的左侧导航选择“权限管理 > 权限”,单击右上角的“创建自定义策略”,设置策略。 “策略名称”:设置自定义策略名称,例如:trainJob。 “策略配置方式”:选择JSON视图。 “策略内容”:填入如下内容。 { "Version":
JupyterLab中文件保存失败,如何解决? 问题现象 JupyterLab中保存文件时报错如下: 原因分析 浏览器安装了第三方插件proxy进行了拦截,导致无法进行保存。 在Notebook中的运行文件超过指定大小就会提示此报错。 jupyter页面打开时间太长。 网络环境原因,是否有连接网络代理。
用户的自定义镜像构建完成后,需要在ModelArts“镜像管理”页面注册后,方可在Notebook中使用。 SWR镜像类型设置为“私有”时,同一账号下的子用户(IAM用户)可以注册使用。 SWR镜像类型设置为“公开”时,其他用户才可以注册使用。 进入ModelArts控制台,单击“镜像管理 > 注册镜像”,进入“注册镜像”页面。
(此参数目前仅适用于Llama3系列模型长序列训练) LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 TRAIN_ITERS 100 表示训练step迭代次数,根据实际需要修改。
(此参数目前仅适用于Llama3系列模型长序列训练) LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 TRAIN_ITERS 100 表示训练step迭代次数,根据实际需要修改。
不允许参数status设置成running(启动)或设置参数configs(服务配置)。 当前服务状态是waiting(排队中)时,不允许参数status设置成running(启动)。 当前服务状态是concerning(告警)时,不允许参数status设置成running(启动)。