检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
风险描述 风险等级 应对措施 操作系统 升级/修改操作系统内核或者驱动。 如果升级/修改操作系统内核或者驱动,很可能导致驱动和内核版本不兼容,从而导致OS无法启动,或者基本功能不可用。相关高危命令如:apt-get upgrade。 高 如果需要升级/修改,请联系华为云技术支持。 切换或者重置操作系统。
作业运行异常或失败,请在定义自定义环境变量时,不要使用“MA_”开头的名称。 如何修改环境变量 用户可以在创建训练作业页面增加新的环境变量,也可以设置新的取值覆盖当前训练容器中预置的环境变量值。 为保证数据安全,请勿输入敏感信息,例如明文密码。 训练容器中预置的环境变量 训练容器
产品变更公告 网络调整公告 预测API的域名停用公告
注册API并授权给APP 功能介绍 注册API并将API授权给APP,只有对服务有更新权限的华为云用户可以调用。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST
注册自定义镜像 功能介绍 将用户自定义的镜像注册到ModelArts镜像管理。 接口约束 暂无约束 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v1/{project_id}/images
每个用户对集群的驱动要求不同,在专属资源池列表页中,可自行选择加速卡驱动,并根据业务需要进行立即变更或平滑升级。ModelArts提供了自助升级专属资源池GPU/Ascend驱动的能力,可参考升级Standard专属资源池驱动进行升级。 专属资源池提供了故障节点修复的功能,可参考修复Standard专属资源池故障节点修复故障节点。
Lite Server GPU裸金属服务器使用EulerOS内核误升级如何解决 GPU A系列裸金属服务器无法获取显卡如何解决 GPU裸金属服务器无法Ping通如何解决 GPU A系列裸金属服务器RoCE带宽不足如何解决? GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed
"C78"。 updateStrategy 否 String 驱动升级策略。可选值如下: force:强制升级,立即升级节点驱动,可能影响节点上正在运行的作业 idle:安全升级,待节点上没有作业运行时进行驱动升级 响应参数 状态码: 200 表10 响应Body参数 参数 参数类型
管理我的服务 扩缩容模型服务实例数 修改模型服务QPS 升级模型服务
代码中ModelLink、MindSpeed已升级到最新版本,Python三方依赖版本已升级,其中: MindSpeed的版本升级到commitID=4ea42a23 ModelLink的版本升级到commitID=8f50777 transformers版本升级到4.45.0 peft版本升级到0.12.0 训练支持的模型列表
代码中ModelLink、MindSpeed已升级到最新版本,Python三方依赖版本已升级,其中: MindSpeed的版本升级到commitID=4ea42a23 ModelLink的版本升级到commitID=8f50777 transformers版本升级到4.45.0 peft版本升级到0.12.0 训练支持的模型列表
代码中ModelLink、MindSpeed已升级到最新版本,Python三方依赖版本已升级,其中: MindSpeed的版本升级到commitID=4ea42a23 ModelLink的版本升级到commitID=8f50777 transformers版本升级到4.45.0 peft版本升级到0.12.0 支持的模型列表
代码中ModelLink、MindSpeed已升级到最新版本,Python三方依赖版本已升级,其中: MindSpeed的版本升级到commitID=4ea42a23 ModelLink的版本升级到commitID=8f50777 transformers版本升级到4.45.0 peft版本升级到0.12.0 支持的模型列表
"C78"。 updateStrategy 否 String 驱动升级策略。可选值如下: force:强制升级,立即升级节点驱动,可能影响节点上正在运行的作业 idle:安全升级,待节点上没有作业运行时进行驱动升级 响应参数 状态码: 200 表12 响应Body参数 参数 参数类型
ModelArts在线服务的API接口组成规则是什么? 模型部署成在线服务后,用户可以获取API接口用于访问推理。 API接口组成规则如下: https://域名/版本/infer/服务ID 示例如下: https://6ac81cdfac4f4a30be95xxxbb682.apig.xxx.xxx
Standard专属资源池状态处于“运行中”,且专属池中的节点需要含有GPU/Ascend资源,才能升级专属资源池的驱动。 对于Standard逻辑资源池,需要开启节点绑定后才能进行驱动升级,请提交工单联系华为工程师开启节点绑定。 Standard Notebook Notebook实
设置API 检测项目与执行条件 检测项目 item(日志关键字) 执行条件 检测成功要求 域名检测 dns 无 volcano容器的域名都解析成功(/etc/volcano下的“.host”文件中的域名解析成功) 磁盘空间-容器根目录 disk-size root 无 大于32GB 磁盘空间-/dev/shm目录
流量限制。 “升级为WebSocket” - 设置在线服务是否部署为WebSocket服务。了解在线服务支持WebSocket,请参考WebSocket在线服务全流程开发。 说明: 要求模型的元模型来源为从容器镜像中选择,并且镜像支持WebSocket。 设置“升级为WebSoc
Cluster资源池操作请参见扩缩容Lite Cluster资源池 升级Lite Cluster资源池驱动操作请参见升级Lite Cluster资源池驱动 升级Lite Cluster资源池单个节点驱动操作请参见升级Lite Cluster资源池单个节点驱动 父主题: Lite Cluster资源管理
bsutils快速入门。 操作命令中的AK/SK要换成用户实际获取的AK/SK,Endpoint可以参考终端节点(Endpoint)和访问域名获取。 父主题: 基本配置