检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查看日志和性能 查看日志 训练过程中,训练日志会在第一个的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应修改重要参数表格中output_dir参数值路径下的trainer_log.jsonl文件
查看日志和性能 查看日志 若查看启动作业日志信息,可通过以下命令打印正在启动的日志信息。其中${pod_name}为pod信息中的NAME,例如vcjob-main-0。 kubectl logs -f ${pod_name} 训练过程中,训练日志会在最后的Rank节点打印。 图1
查看日志和性能 查看日志 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为:/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs
WebSocket协议只支持部署在线服务。 只支持自定义镜像导入模型部署的在线服务。 调用API访问在线服务时,对预测请求体大小和预测时间有限制: 请求体的大小不超过12MB,超过后请求会被拦截。 因APIG(API网关)限制,平台每次请求预测的时间不超过40秒。 WebSocket在线服务调用 WebSocke
PyTorch:2.1.0 基础镜像的使用 用户通过ECS获取和上传基础镜像步骤拉取基础镜像并上传至SWR中。随后可通过使用基础镜像、ECS中构建新镜像、Notebook中构建新镜像的方式(三选一)来部署训练环境。方案的区别如下: 直接使用基础镜像方案:用户可在训练作业中直接选择基础
管理团队和团队成员 修改成员信息 团队中的成员,当其信息发生变化时,可以编辑其基本情况。 在“团队详情”区域,选择需修改的成员。 在成员所在行的“操作”列,单击“修改”。在弹出的对话框中,修改其“描述”或“角色”。 成员的“邮箱”无法修改,如果需要修改邮箱地址,建议先删除此成员,然后再基于新的邮箱地址添加新成员。
获取项目ID和名称 操作场景 在调用接口的时候,部分请求中需要填入项目ID或项目名称,所以需要获取到项目ID和名称。有如下两种获取方式: 从控制台获取项目ID和名称 调用API获取项目ID 从控制台获取项目ID和名称 从控制台获取项目ID(project_id)和名称(project
your service is able to process the request without timeout. "} 因APIG(API网关)限制,平台每次请求预测的时间不超过40秒。数据从平台发送到服务,服务预测推理,再将结果返回的时间不超过限制,可以成功返回预测结果。当服务
ModelArts计费模式概述 ModelArts服务提供包年/包月和按需计费两种计费模式,以满足不同场景下的用户需求。如您需要快速了解ModelArts服务不同计费模式的具体价格,请参见ModelArts价格详情。 包年/包月:一种预付费模式,即先付费再使用,按照订单的购买周期
模型架构自动设计(神经网络搜索和自适应模型调优),和更快、更准的训练参数自动调优自动训练 采用自动机器学习技术,基于信息熵上限近似模型的树搜索最优特征变换和基于信息熵上限近似模型的贝叶斯优化自动调参,从企业关系型(结构化)数据中,自动学习数据特征和规律,智能寻优特征&ML模型及参数,准确性甚至达到专家开发者的调优水平
认证鉴权 流量按配置分发 负载均衡 告警、监控和统计 图1 VPC直连的高速访问通道示意图 约束限制 调用API访问在线服务时,对预测请求体大小和预测时间有限制: 请求体的大小不超过12MB,超过后请求会被拦截。 因APIG(API网关)限制,平台每次请求预测的时间不超过40秒。 准备工作
认证鉴权 流量按配置分发 负载均衡 告警、监控和统计 图1 VPC直连的高速访问通道示意图 约束限制 调用API访问在线服务时,对预测请求体大小和预测时间有限制: 请求体的大小不超过12MB,超过后请求会被拦截。 因APIG(API网关)限制,平台每次请求预测的时间不超过40秒。 准备工作
如果未上传训练权重文件和数据集到容器中,具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。 步骤二 修改训练超参配置 以Llama2-70b和Llama2-13b的SFT微调为例,执行脚本为0_pl_sft_70b.sh 和 0_pl_sft_13b
永久移动,请求的资源已被永久的移动到新的URI,返回信息会包括新的URI。 302 Found 资源被临时移动。 303 See Other 查看其它地址。 使用GET和POST请求查看。 304 Not Modified 所请求的资源未修改,服务器返回此状态码时,不会返回任何资源。 305 Use Proxy
ECS获取和上传基础镜像 Step1 创建镜像组织 在SWR服务页面创建镜像组织。 图1 创建镜像组织 Step2 登录ECS服务器 根据创建ECS服务器创建完成ECS服务器后,单击“远程登录”,可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。
训练场景和方案介绍 Stable Diffusion(简称SD)是一种基于扩散过程的图像生成模型,应用于文生图场景,能够帮助用户生成图像。 方案概览 本方案介绍了在ModelArts Lite Server上使用昇腾计算资源Ascend Snt9B开展SDXL和SD1.5模型的训
ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注
发布和管理AI Gallery模型 构建模型 托管模型到AI Gallery 发布模型到AI Gallery 管理AI Gallery模型 父主题: AI Gallery(新版)
获取账号名和账号ID 在调用接口的时候,部分请求中需要填入账号名(domain name)和账号ID(domain_id)。获取步骤如下: 注册并登录管理控制台。 鼠标移动至用户名,在下拉列表中单击“我的凭证”。 在“API凭证”页面的查看“账号名”和“账号ID”。 图1 获取账号名和ID
ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注