检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在“已标注”页签或“未标注”页签下,选中需要删除的文本对象,单击页面左上角的“删除”,在弹出的对话框中,确认删除信息后,单击“确定”。 在“已标注”页签下,您还可以勾选“选择当前页”,单击“删除”,即可删除当前页下所有的文本对象及其标注信息。 修改已标注的数据 针对“已标注”的文本数据,仅支持删除此文本对象的标签。
WorkflowMetricPair objects 工作流度量信息列表。 表12 WorkflowMetricPair 参数 参数类型 描述 key String 度量信息metric的key。 value Object 度量信息metric的值。 表13 StepCondition 参数
rainJob:setHighPriority”并选中,所有资源选择默认值。 在统一身份认证服务页面的左侧导航选择“用户组”,在用户组页面查找待授权的用户组名称,在右侧的操作列单击“授权”,勾选步骤2创建的自定义策略,单击“下一步”,选择授权范围方案,单击“确定”。 此时,该用户组下的所有用户均有权限通过Cloud
是否必选 参数类型 描述 name 是 String 实验名称,最大长度64,不支持特殊字符。 description 否 String 描述信息,最大长度256,不支持特殊字符。 workspace_id 否 String 工作空间ID,默认为0。 响应参数 状态码: 200 表4
WorkflowMetricPair objects 工作流度量信息列表。 表9 WorkflowMetricPair 参数 是否必选 参数类型 描述 key 否 String 度量信息metric的key。 value 否 Object 度量信息metric的值。 表10 StepCondition
`PyTorch` requires `accelerate`: Run `pip install --upgrade accelerate`。 图1 报错信息 原因分析 accelerate库版本需要升级。 处理方法 升级accelerate库,执行“pip install accelerate
被标注文件的文件名。 size 是 表示图像的像素信息。 width:必选字段,图片的宽度。 height:必选字段,图片的高度。 depth:必选字段,图片的通道数。 segmented 是 表示是否用于分割。 object 是 表示物体检测信息,多个物体标注会有多个object体。 name:必选字段,标注内容的类别。
3指使用0-3卡执行训练任务。 训练成功标志 “***** train metrics *****”关键字打印 训练完成后,请参考查看日志和性能章节查看指令微调的日志和性能。 1、如训练过程中遇到“NPU out of memory”“Permission denied” 问题可参考
响应Body参数 参数 参数类型 描述 error_code String 操作失败的错误码。 error_msg String 操作失败的错误信息。 results Array of BatchResponse objects 批量删除样本的响应列表。 success Boolean
transformers调用cuda上的操作,或者执行卡死 问题现象 transformers调用cuda上的操作,或者执行卡死。报错示例如下: 图1 报错信息 原因分析 transformers库的training_args.py目前适配的是CUDA的部分操作,需要替换为适配NPU的脚本。 处理方法
254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后,检查NPU卡状态。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info
ModelArts错误码。 error_msg String 具体错误信息。 状态码: 403 表7 响应Body参数 参数 参数类型 描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。 状态码: 404 表8 响应Body参数 参数
iningLogParser查看loss收敛情况。 图7 正常训练过程 训练完成后权重保存在自动生成的目录,例如:outputs/010-F16S3-STDiT-XL-2/epoch1-global_step2000/。 图8 训练完成后权重保存信息 Step6 推理 执行如下命
登录ModelArts管理控制台,在左侧菜单栏中选择“AI专属资源池 > 弹性集群 Cluster”,在“弹性集群”页面,选择“Lite资源池”页签,查看资源池列表。 单击某个资源池操作列的“扩缩容”对资源池进行扩缩容。对于为包周期资源池,此按钮为“扩容”,若需要缩容,请进入到包周期资源池详情页对节点进行退订操作。
定义”的模式,可在右侧输入框中输入1~24范围内的任意整数。 如果您购买了套餐包,计算节点规格可选择您的套餐包,同时在“配置费用”页签还可查看您的套餐包余量以及超出部分的计费方式,请您务必关注,避免造成不必要的资源浪费。 完成资源配置后,单击“继续运行”,服务部署节点将继续运行,
定义”的模式,可在右侧输入框中输入1~24范围内的任意整数。 如果您购买了套餐包,计算节点规格可选择您的套餐包,同时在“配置费用”页签还可查看您的套餐包余量以及超出部分的计费方式,请您务必关注,避免造成不必要的资源浪费。 完成资源配置后,单击“继续运行”,在弹框中确认继续运行后,
定义”的模式,可在右侧输入框中输入1~24范围内的任意整数。 如果您购买了套餐包,计算节点规格可选择您的套餐包,同时在“配置费用”页签还可查看您的套餐包余量以及超出部分的计费方式,请您务必关注,避免造成不必要的资源浪费。 完成资源配置后,单击“继续运行”,在弹框中确认继续运行后,
声音分类:将发布好的数据集版本进行训练,生成对应的模型。 模型注册:将训练后的结果注册到模型管理中。 服务部署:将生成的模型部署为在线服务。 快速查找创建好的项目 在自动学习总览页,您可以通过搜索框,根据自动学习的属性类型(项目名称)快速搜索过滤到相应的工作流,可节省您的时间。 登录Mo
理依赖的算子包。代码包具体说明请参见模型软件包结构说明。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 支持的模型列表和权重文件 本方案支持vLLM的v0.5.0版本。不同vL
_NPUDeviceProperties' object has no attribute 'multi_processor_count'”。 图1 报错信息 原因分析 这是因为torch_npu当前不支持DataParallel(DP)并行模式。 处理方法 如果是运行单卡模式,在训练脚本中加入export