检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
216.55.96:8585/ 参数说明: host_ip_address:为宿主机IP地址 port:为启动镜像时映射port 访问界面如下图。 图6 访问界面 加载workflow文件,选择workflow-flux1-dev-KnSeTKHjvuTd0RiUDSmW-datou-openart
/v1/{project_id}/services/{service_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 service_id 是 String 服务ID。 请求参数 表2 请求Header参数 参数
文件上传完成前,请不要刷新或关闭上传页面,防止意外终止上传任务,导致数据缺失。 当文件状态变成“上传成功”表示数据文件成功上传至AI Gallery仓库进行托管。单击“完成”返回数据集文件页面。 图1 上传成功 文件上传过程中请耐心等待,不要关闭当前上传页面,关闭页面会中断上传进程。 父主题:
Gallery”,进行知识共享。 登录ModelArts管理控制台,在左侧导航栏中选择“模型管理”,进入模型列表页面。 单击模型的“版本数量”,在展开的版本列表中,单击“操作”列的“发布”进入发布页面。 在发布弹出框中,单击“前往AI Gallery”进入AI Gallery。 图1 前往AI Gallery
当您需要在AI Gallery下架共享的资产时,可以执行如下操作: 在“AI Gallery”页面,选择“我的Gallery > 我的资产 > 模型”,进入“我的模型”页面。 在“我的模型 > 我的发布”页面,单击目标资产右侧的“下架”,在弹框中确认资产信息,单击“确定”完成下架。 资产下架
”管理页面。 在数据集列表中,单击操作列的“更多 > 版本管理”,进入数据集“版本管理”页面。 您可以查看数据集的基本信息,并在左侧查看版本演进信息及其发布时间。 设置当前版本 登录ModelArts管理控制台,在左侧菜单栏中选择“资产管理>数据集”,进入“数据集”管理页面。 在数据集列表中,单击操作列的“更多
修改标注信息 当数据完成标注后,您还可以进入已标注页签,对已标注的数据进行修改。 在数据标注详情页面,单击“已标注”页签,然后在图片列表中选中待修改的图片,单击图片跳转到标注页面,在右侧标签信息区域中单击此图片已添加的标注信息。 修改标签:“标注”区域中,单击编辑图标,在弹出框
IP、SFS),因此需要提交工单提升资源配额。 为子用户账号开通Server功能所需的基础权限。 由于ModelArts服务在使用过程中会访问其他依赖服务,因此需要给ModelArts进行委托授权。 购买Server资源时,需要选择虚拟私有云用于网络通信,您可以使用已有的虚拟私有云或新创建的虚拟私有云。
模型训练和服务部署,工作流发布至运行态后,部分运行的开关默认关闭,节点全部运行。用户可在权限管理页面打开开关,选择指定的场景进行运行。 部分运行能力支持同一个节点被定义在不同的运行场景中,但是需要用户自行保证节点之间数据依赖的正确性。另外,部分运行能力仅支持在运行态进行配置运行,不支持在开发态进行调试。
情,具体请参见训练作业重调度。 开启无条件自动重启 开启无条件自动重启有2种方式:控制台设置或API接口设置。 控制台设置 在创建训练作业页面,开启“自动重启”开关,并勾选“无条件自动重启”,开启无条件自动重启。开启无条件自动重启后,只要系统检测到训练异常,就无条件重启训练作业。
型状态,当状态变为“正常”,模型创建成功。 图1 创建模型 单击模型名称,进入模型详情页面,查看模型详情信息。 部署服务并查看详情 在模型详情页面,单击右上角“部署>在线服务”,进入服务部署页面,模型和版本默认选中,选择合适的“实例规格”(例如CPU:2核 8GB),其他参数可保
如果确认不再使用ModelArts服务,需在ModelArts管理控制台总览页确认会收费的实例已全部停止或删除,同时需清理运行Notebook实例时存储到云硬盘中的数据和其他存储到对象存储服务中的数据,以免继续扣费。 您可以在“费用中心 > 总览”页面设置“可用额度预警”功能,当可用额度、通用代金券和现金券的总
说明:此处“.local/share/jupyter/kernels/sfs-new-env”为举例,请以用户实际的安装路径为准。 图1 安装路径回显 刷新JupyterLab页面,可以看到新的kernel。 重启Notebook后kernel需要重新注册。 克隆原有的虚拟环境到SFS盘
度权限。同时,训练作业要满足如下要求才能正常实现ranktable动态路由加速。 训练使用的Python版本是3.7或3.9。 训练作业的实例数要大于或等于3。 路由加速的原理是改变rank编号,所以代码中对rank的使用要统一。 将训练作业完成如下修改后,启动训练作业即可实现网络加速。
地已有的主机进行自定义镜像的制作。 购买ECS服务器的具体操作请参考购买并登录弹性云服务器。镜像选择公共镜像,推荐使用ubuntu18.04的镜像。 图1 创建ECS服务器-选择X86架构的公共镜像 登录主机后,安装Docker,可参考Docker官方文档。也可执行以下命令安装docker。
connect returned Connection refused, retrying”,则表示NCCL无法找到通信网卡或者是无法正常访问IP地址。需要排查训练代码中是否有设置NCCL_SOCKET_IFNAME环境变量,该环境变量由系统自动注入,训练代码中无需设置。训练代码
6.3.905版本,请参考表2获取配套版本的软件包和镜像,请严格遵照版本配套关系使用本文档。 Lora训练使用单机单卡资源。 确保容器可以访问公网。 Step1 检查环境 请参考DevServer资源开通,购买DevServer资源,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。
我的商品”查看在售卖的商品。 如果您是买家,您可以在云商店搜索、购买商品,已经购买的商品将展示在“云商店 > 买家中心 > 已购买的服务”页面。 在AI Gallery内订阅的免费商品只展示在AI Gallery的“我的订阅”中,不会展示在AI云商店的“买家中心”中。 云商店当前
Parameter分布到不同的NPU 增加卡数重新训练,未解决找相关人员定位。 问题2:访问容器目录时提示Permission denied 解决方法: 由于在容器中没有相应目录的权限,会导致访问时提示Permission denied。可以在宿主机中对相关目录做权限放开,执行命令如下。
Parameter分布到不同的NPU 增加卡数重新训练,未解决找相关人员定位。 问题2:访问容器目录时提示Permission denied 解决方法: 由于在容器中没有相应目录的权限,会导致访问时提示Permission denied。可以在宿主机中对相关目录做权限放开,执行命令如下。