检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
开发环境管理 创建Notebook实例 查询Notebook实例列表 查询所有Notebook实例列表 查询Notebook实例详情 更新Notebook实例 删除Notebook实例 通过运行的实例保存成容器镜像 查询Notebook支持的有效规格列表 查询Notebook支持的可切换规格列表
批量删除节点 批量重启节点 查询事件列表 创建网络资源 查询网络资源列表 查询网络资源 删除网络资源 更新网络资源 查询资源实时利用率 创建资源池 查询资源池列表 查询资源池 删除资源池 更新资源池 资源池监控 资源池统计 查询资源规格列表 查询专属资源池作业列表 查询专属资源池作业统计信息
String 服务名称。 logs log结构数组 服务的更新记录。 表2 log结构 参数 参数类型 描述 update_time Long 更新时间,距'1970.1.1 0:0:0 UTC'的毫秒数。 result String 更新结果,取值为:SUCCESS/FAIL/RUNNING。
自然灾害等原因而丢失。 提供透明的安全监控和事件响应服务,及时的安全更新和漏洞修补。 而云服务客户则需要执行以下任务: 将数据和应用程序加密,以保护数据的机密性和完整性。 确保模型的相关软件都得到及时的安全更新和漏洞修补。 遵守相关的合规性要求,如GDPR、HIPAA、PCI DSS等。
例如桶名:sdxl-train。并在该桶下创建文件夹目录用于后续存储代码使用,例如:code。 Step3 准备代码 在获取软件和镜像中,下载并解压代码包。本文档主要使用aigc_train->torch_npu->diffusers下的部分文件,请利用OBS Browser+
ModelArts CommonOperations没有任何专属资源池的创建、更新、删除权限,只有使用权限。推荐给子用户配置此权限。 ModelArts CommonOperations 必选 如果需要给子用户开通专属资源池的创建、更新、删除权限,此处要勾选ModelArts FullAccess,请谨慎配置。
各GPU上的模型进行前向传播,得到输出 主GPU(逻辑序号为0)收集各GPU的输出,汇总后计算损失 分发损失,各GPU各自反向传播梯度 主GPU收集梯度并更新参数,将更新后的模型参数分发到各GPU 具体流程图如下: 图1 单机多卡数据并行训练 代码改造点 模型分发:DataParallel(model)
训练管理 创建算法 查询算法列表 查询算法详情 更新算法 删除算法 获取支持的超参搜索算法 创建训练实验 创建训练作业 查询训练作业详情 更新训练作业描述 删除训练作业 终止训练作业 查询训练作业指定任务的日志(预览) 查询训练作业指定任务的日志(OBS链接) 查询训练作业指定任务的运行指标
联网下载SimSun.ttf时可能会遇到网络问题 联网下载SimSun.ttf时肯会遇到网络问题 tonkenization_qwen.py会在cache中读取SimSun.ttf 文件,如果没有,就会联网下载,可能会遇到: SSL:CERTIFICATE_VERIFY_FAILED
联网下载SimSun.ttf时可能会遇到网络问题 联网下载SimSun.ttf时肯会遇到网络问题 tonkenization_qwen.py会在cache中读取SimSun.ttf 文件,如果没有,就会联网下载,可能会遇到: SSL:CERTIFICATE_VERIFY_FAILED
存放数据。 本文档需要将运行代码以及输入输出数据存放OBS,请提前创建OBS(参考创建OBS桶),例如桶名:sdxl-train。并在该桶下创建文件夹目录用于后续存储代码使用,例如:code。 Step3 准备代码 在获取软件和镜像中,下载并解压代码包。本文档主要使用ascend
第三方pip源中的python包版本更新,导致在训练作业中安装的python包的版本可能也会发生变化。如训练作业之前无此问题,后面一直有此问题,则考虑是此原因。 处理方法 通过Notebook调试。 安装时指定版本。如:pip install xxx==1.x.x 第三方pip源可能随时更新,可通过制作
只用于服务更新的场景 SWRImagePlaceholder:用于定义在运行时需要确定的SWR路径,对应SWRImage对象,常用于模型注册场景 ServiceInputPlaceholder:用于定义在运行时需要确定服务部署所需的模型相关信息,只用于服务部署及服务更新场景 Da
实例连接错误,可能是配置文件写的不规范导致连接到别的实例。 解决方案 检查用户.ssh配置文件(路径一般在“C:\Users\{User}\.ssh\config”下),检查每组配置文件是否规范:Host必须放在每组配置的第一行,作为每组配置的唯一ID。 如下,第一组配置文件不规范将Host放到最后一行,用户要连的是下面这个Host
数据集管理 查询数据集列表 创建数据集 查询数据集详情 更新数据集 删除数据集 父主题: 数据管理
节点池管理 查询节点池列表 创建节点池 查询指定节点池详情 更新节点池 删除节点池 查询节点池的节点列表
GET /v1/{project_id}/services/{service_id} modelarts:service:get - √ √ 更新模型服务 PUT /v1/{project_id}/services/{service_id} modelarts:service:update
训练作业参数配置 创建训练作业参数 查询训练作业参数列表 更新训练作业参数 删除训练作业参数 查询训练作业参数详情 父主题: 训练管理(旧版)
管理Notebook实例 查找Notebook实例 更新Notebook实例 启动/停止/删除实例 保存Notebook实例 动态扩充云硬盘EVS容量 动态挂载OBS并行文件系统 查看Notebook实例事件 Notebook Cache盘告警上报 父主题: 使用Notebook进行AI开发调试
开发环境(旧版) 创建开发环境实例 查询开发环境实例列表 查询开发环境实例详情 更新开发环境实例信息 删除开发环境实例 管理开发环境实例 父主题: 历史API