检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
name)和账号ID(domain_id)。获取步骤如下: 注册并登录管理控制台。 鼠标移动至用户名,在下拉列表中单击“我的凭证”。 在“API凭证”页面的查看“账号名”和“账号ID”。 图1 获取账号名和ID 父主题: 公共参数
支持的模型列表 表1 支持的大语言模型列表和权重获取地址 序号 模型名称 是否支持fp16/bf16推理 是否支持W4A16量化 是否支持W8A8量化 是否支持W8A16量化 是否支持 kv-cache-int8量化 开源权重获取地址 1 llama-7b √ √ √ √ √ https://huggingface
本文基于ModelArts Lite DevServer进行操作,请参考上表说明在贵阳一环境开通和配置指导完成裸机和容器开发初始化配置。 镜像地址为swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend: pytorch_2
可纠正ECC错误(单比特ECC错误),不影响业务。观测方式:nvidia-smi -a中查询到Volatile Correctable记录。 L2: 不可纠正ECC错误(多比特ECC错误),当次业务受损,重启进程可恢复。观测方式:nvidia-smi -a中查询到Volatile Uncorrectable记录。 L3:
0”更换为“NVIDIA 515+CUDA 11.7”。 操作步骤 卸载原有版本的NVIDIA和CUDA。 查看使用apt包管理方式安装的nvidia软件包, 执行如下命令实现查看和卸载。 dpkg -l | grep nvidia dpkg -l | grep cuda sudo apt-get
name)和用户ID(user_id)。获取步骤如下: 注册并登录管理控制台。 鼠标移动至用户名,在下拉列表中单击“我的凭证”。 在“API凭证”页面,查看“IAM用户名”和“IAM用户ID”。 图1 获取用户名和ID 父主题: 公共参数
String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 表5 Apps 参数 是否必选 参数类型 描述 app_id 否 String APP的编号,可通过查询APP列表获取。 响应参数 状态码:200
配额管理 查询OS的配额
会话对象,初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。 无成功响应参数。 表2 调用训练接口失败响应参数 参数 类型 描述 error_msg
可通过/home/ma-user/AscendSpeed路径访问。 在ModelArts中创建训练作业如:预训练,执行代码包中例如:scripts/llama2/0_pl_pretrain_13b.sh 的脚本,开始训练。 在训练中,程序会自动执行对数据集预处理、权重转换、执行训
--max-cpu-loras=32 参数说明如下: --enable-lora表示开启lora挂载。 --lora-modules后面添加挂载的lora列表,要求lora地址权重是Huggingface格式,当前支持QKV-proj、O-proj、gate_up_proj、down_proj模块的挂载。发请求时
--max-cpu-loras=32 参数说明如下: --enable-lora表示开启lora挂载。 --lora-modules后面添加挂载的lora列表,要求lora地址权重是Huggingface格式,当前支持QKV-proj、O-proj、gate_up_proj、down_proj模块的挂载。发请求时
Gallery中,您可以查找共享的镜像并用于AI开发。 使用镜像 登录“AI Gallery”。 选择“资产集市 > 镜像”,进入镜像页面,该页面展示了所有共享的镜像。 搜索业务所需的镜像,请参见查找和收藏资产。 单击目标镜像进入详情页面。 在详情页面您可以查看镜像的AI引擎框架、使
String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 请求参数 无 响应参数 状态码:200 表2 响应Body参数 参数 参数类型 描述 header Array of strings
size 影响流水线并行中设备的计算效率。 切分策略 包括DP(Data Parallel)、TP(Tensor Parallel)、PP(Pipeline Parallel)。 DP:数据并行(Data Parallelism)是大规模深度学习训练中常用的并行模式,它会在每个进程(
是 Integer 要修改的配额值。配额值为正整数或-1,-1代表不限制配额。配额值范围不能超过配额的最大值与最小值。可通过调用查询工作空间配额接口查询配额的最大值。 响应参数 状态码:200 表5 响应Body参数 参数 参数类型 描述 quotas Array of Work
是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workspace_id 是 String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 请求参数 表2 请求Header参数 参数 是否必选
型训练 > 训练作业”。 在训练作业列表中,单击作业名称进入训练作业详情页面。 在训练作业详情页面,单击“故障恢复详情”页签查看故障恢复信息。 图1 查看故障恢复详情 父主题: 模型训练高可靠性
发布完成后可前往gallery查看相应的资产信息,资产权限默认为private,可在资产的console页面自行修改。 进入AI Gallery。 单击“我的Gallery>我的资产>Workflow”,进入我的Workflow页面。 在“我的发布”页签中查看发布到AI Gallery的工作流。
nets.nets_factory: class NetworkKeys(builtins.object) | Data descriptors defined here: | | __dict__ | dictionary for instance variables