检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
参数说明 表1 数据清洗-PCC算子参数说明 参数名 是否必选 默认值 参数说明 prototype_sample_path 是 None 数据清洗正样例目录。目录应存放正样例图片文件,算法将这些图片为正样例,对输入中的数据进行过滤,即保留与“prototype_sample_path”目录下图片相似度高的数据。
GeneralPretrainHandler:默认。用于预训练时的数据预处理过程中,将数据集根据key值进行简单的过滤。 GeneralInstructionHandler:用于sft、lora微调时的数据预处理过程中,会对数据集full_prompt中的user_prompt进行mask操作。 --seq-length:要处理的最大seq
在数据集详情页面的“全部”页签中,展开“筛选条件”,将“样本属性”设置为自动分组任务中的“属性名称”,并通过设置样本属性值,筛选出分组结果。 图2 查看自动分组结果 查看自动分组的历史任务 在数据集详情页面的“全部”页签中,单击“自动分组 > 任务历史”。在弹出的“任务历史”对话框中,展示当前数据集之前执行的自动分组任务的基本信息。
IAM子用户:由主账号在IAM中创建的用户,是服务的使用人员,具有独立的身份凭证(密码和访问密钥),根据账号授予的权限使用资源。IAM子用户相关介绍请参见IAM用户介绍。 联邦用户:又称企业虚拟用户。联邦用户相关介绍请参见联邦身份认证。 委托用户:IAM中创建的一个委托。IAM创建委托相关介绍请参见创建委托。
步骤三:使用订阅模型部署在线服务 模型订阅成功后,可将此模型部署为在线服务。 在展开的版本列表中,单击“部署 > 在线服务”跳转至部署页面。 图5 部署模型 在部署页面,参考如下说明填写关键参数。 “名称”:自定义一个在线服务的名称,也可以使用默认值,此处以“商超商品识别服务”为例。 “资源池”:选择“公共资源池”。
体可以参考文档自定义策略使用样例。 表3 策略参数说明 参数 含义 值 Version 策略的版本。 1.1:代表基于策略的访问控制。 Statement:策略的授权语句 Effect:作用 定义Action中的操作权限是否允许执行。 Allow:允许执行。 Deny:不允许执行。
AT网关以及默认路由。 购买弹性公网IP。 登录华为云管理控制台。 在左侧服务列表中,单击“网络 > 弹性公网IP EIP”,进入弹性公网IP页面。 单击“购买弹性公网IP”。 参数配置可使用默认值,单击“立即购买”。 在产品配置信息确认页面,再次核对弹性公网IP信息,阅读并勾选“弹性公网IP服务声明”。
ModelArts提供的请求协议和端口号的缺省值是HTTP和8080。用户需根据实际的自定义镜像进行配置。 “镜像复制” 镜像复制开关,选择是否将容器镜像中的模型镜像复制到ModelArts中。 关闭时,表示不复制模型镜像,可极速创建AI应用,更改或删除SWR源目录中的镜像会影响服务部署。 开启时
文件将保存在这个目录下 logging_steps 2 用于指定模型训练过程中,多少步输出一次日志。日志包括了训练进度、学习率、损失值等信息。建议设置 save_steps 5000 指定模型训练过程中,每多少步保存一次模型。保存的模型可以用于后续的训练或推理任务 plot_loss
对于falcon-11B训练任务开始前,需手动替换tokenizer中的config.json,具体请参见falcon-11B模型。 修改完yaml配置文件后,启动训练脚本;模型不同最少npu卡数不同,npu卡数建议值可参考模型NPU卡数取值表。 修改启动脚本 进入代码目录{work
retrying”,则表示NCCL无法找到通信网卡或者是无法正常访问IP地址。需要排查训练代码中是否有设置NCCL_SOCKET_IFNAME环境变量,该环境变量由系统自动注入,训练代码中无需设置。训练代码去除NCCL_SOCKET_IFNAME环境变量设置逻辑后,单击右侧“重建”
GeneralPretrainHandler:默认。用于预训练时的数据预处理过程中,将数据集根据key值进行简单的过滤。 GeneralInstructionHandler:用于sft、lora微调时的数据预处理过程中,会对数据集full_prompt中的user_prompt进行mask操作。 --seq-length:要处理的最大seq
GeneralPretrainHandler:默认。用于预训练时的数据预处理过程中,将数据集根据key值进行简单的过滤。 GeneralInstructionHandler:用于sft、lora微调时的数据预处理过程中,会对数据集full_prompt中的user_prompt进行mask操作。 --seq-length:要处理的最大seq
处理一些无效值。例如在深度学习领域,可以根据用户输入的正样本和负样本,对数据进行清洗,保留用户想要的类别,去除用户不想要的类别。 数据选择:数据选择一般是指从全量数据中选择数据子集的过程。 数据可以通过相似度或者深度学习算法进行选择。数据选择可以避免人工采集图片过程中引入的重复图
设置此数据集的公开权限。可选值有: “公开”:表示所有使用AI Gallery的用户都可以查看且使用该资产。 “指定用户”:表示仅特定用户可以查看及使用该资产。 “仅自己可见”:表示只有当前账号可以查看并使用该资产。 查看数据集资产发布信息 在数据集列表中,单击某个数据集名称进入数据集详情页。选中右上角“发布
Failure记录。 dmsg中存在Xid 95事件。 (参考NVIDIA GPU Memory Error Management) Ampere架构GPU显存错误分级: L1: 可纠正ECC错误(单比特ECC错误),不影响业务。观测方式:nvidia-smi -a中查询到Volatile
只有处于“运行中”状态的Notebook,才可以执行打开、停止操作。 一个帐户最多创建10个Notebook。 创建Notebook实例 注册镜像。登录ModelArts控制台,在左侧导航栏选择“镜像管理”,进入镜像管理页面。单击“注册镜像”,镜像源即为推送到SWR中的镜像。请将完
bin") 将基准模型的输出保存到文本文件。 本例中输出节点名称为output_node_name,输出节点的shape为“(1, 1000)”,因此一共有两维,对应的输出文件为“output_node_name 2 1 1000”,再加上输出的值即可。 # 基于原始pth模型前向推理 output
gradient_accumulation_steps 8 可修改。指定梯度累积的步数,这可以增加批次大小而不增加内存消耗。可根据自己要求适配。取值可参考表1中梯度累积值列。 num_train_epochs 5 表示训练轮次,根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。可根据自己要求适配
GPU裸金属服务器内部GPU间确实走NVLINK模式,且完全互联。 图2 正常模式带宽性能 异常模式-NVLINK部分互通,出现带宽波动较大的情况。如下图中GPU0和GPU4之间带宽远低于理论值, 存在问题。 图3 异常模式带宽性能 出现这种现象, 可尝试重装nvidia/cuda/nvidia-fabricmanager,