检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
推理业务时延要求,客户端到云服务端到端可接受时延。 例如:当前是“客户端 -> 云服务”模式,客户端请求应答可接受的最长时延为2秒。 - 模型参数规模,是否涉及分布式推理 10B/100B,单机多卡推理。
华为云区域提供多个在物理上独立且隔离的可用区,这些可用区通过延迟低、吞吐量高且冗余性高的网络连接在一起。利用可用区,您可以设计和操作在可用区之间无中断地自动实现故障转移的应用程序和数据库。与传统的单个或多个数据中心基础设施相比,可用区具有更高的可用性、容错性和可扩展性。
phase String 网络的连接状态。可选值如下: Connecting:网络连接中 Active:网络连接正常 Abnormal:网络连接不正常 表18 sfsTurboStatus 参数 参数类型 描述 sfsId String SFS Turbo的ID。
解决方法: 使用账号登录OBS,并将对应OBS桶的访问权限授予该IAM用户。详细操作指导请参见:被授权用户。 IAM用户获得权限后,登录ModelArts管理控制台,删除该实例,然后重新使用此OBS路径创建Notebook实例。
推理业务时延要求,客户端到云服务端到端可接受时延。 例如:当前是“客户端 -> 云服务”模式,客户端请求应答可接受的最长时延为2秒。 - 模型参数规模,是否涉及分布式推理 10B/100B,单机多卡推理。
Cloud Shell功能的操作指导请参见使用CloudShell登录训练容器。 是,则修改安全组的配置,具体操作请参见修改安全组规则。 否,则继续下一步。 确认SFS Turbo是否存在异常。
管理模型训练作业 查看训练作业详情 查看训练作业资源占用情况 查看模型评估结果 查看训练作业事件 查看训练作业日志 修改训练作业优先级 使用Cloud Shell调试生产训练作业 重建、停止或删除训练作业 管理训练容器环境变量 查看训练作业标签 父主题: 使用ModelArts Standard
-C / --config-file String 否 配置文件本地路径,默认路径为~/.modelarts/ma-cli-profile.yaml。 配置用户名密码鉴权 以在虚拟机上使用ma-cli configure为例,介绍如何配置用户名密码进行鉴权。
可选值如下: 0:打标者 1:审核者 2:团队管理者 3:数据集拥有者 status 否 Integer 标注成员的当前登录状态。可选值如下: 0:未发送邀请邮件 1:已发送邀请邮件但未登录 2:已登录 3:标注成员已删除 update_time 否 Long 更新时间。
登录“云监控服务”控制台,在“自定义监控”页面,根据界面提示创建ModelArts监控服务。 设置告警规则有多种方式。您可以根据实际应用场景,选择设置告警规则的方式。
“输出”中的预下载至本地目标选择:下载,此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量 单击“增加环境变量”,在增加的环境变量填写框中,按照表1表格中的配置进行填写。 表1 需要填写的环境变量 环境变量 示例值 参数说明 MOUNT OBS 默认必须填写。
“输出”中的预下载至本地目标选择:下载,此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量 单击“增加环境变量”,在增加的环境变量填写框中,按照表1表格中的配置进行填写。 表1 需要填写的环境变量 环境变量 示例值 参数说明 MOUNT OBS 默认必须填写。
设置当前版本 登录ModelArts管理控制台,在左侧菜单栏中选择“资产管理>数据集”,进入“数据集”管理页面。 在数据集列表中,单击操作列的“更多 > 版本管理”,进入数据集“版本管理”页面。
用户登录并验证权限。
"from": "gpt", "value": "模型回答" } ], "system": "系统提示词(选填)", "tools": "工具描述(选填)" }
"from": "gpt", "value": "模型回答" } ], "system": "系统提示词(选填)", "tools": "工具描述(选填)" }
登录子用户账号,如果用户能在控制台上成功创建使用自定义镜像创建训练作业(如单机单卡场景下创建训练作业),则表示权限配置成功。 父主题: 典型场景配置实践
登录ModelArts管理控制台。 在左侧菜单栏中选择“AI专属资源池 > 弹性节点 Server”。 执行如下操作,启动或停止弹性节点Server。 启动弹性节点Server:单击“启动”。只有处于“已停止/停止失败/启动失败”状态的弹性节点Server可以执行启动操作。
“输出”中的预下载至本地目标选择:下载,此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量 单击“增加环境变量”,在增加的环境变量填写框中,按照表1表格中的配置进行填写。
重启训练作业,使用CloudShell登录训练容器监控内存指标,确认是否有突发性的内存增加现象。 是,排查内存突发增加的时间点附近的训练作业日志,优化对应的代码逻辑,减少内存申请。 否,提高训练作业使用的资源规格或者联系技术支持。 父主题: 训练作业运行失败