检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
reboot 第一条命令为安装Linux内核头文件和内核镜像,其中版本为5.4.0-144-generic。 第二条命令为重新生成GRUB引导程序的配置文件,用于在启动计算机时加载操作系统, 命令将使用新安装的内核镜像更新GRUB的配置文件,以便在下次启动时加载新的内核。 父主题: Lite
gsm8k_test 样例yaml配置文件结构分为 base块:基础配置块。 ModelName块:该模型所需配置的参数,如qwen2.5-7b块。 exp_name:实验块,训练策略-序列长度所需参数配置。 样例yaml文件仅展示常用实验配置,如需其他配置需根据样例自行添加,样例截图如下:
eus.yml \ prom/prometheus 这里使用的是Prometheus最基本的功能,如有更高级的诉求,可参考prometheus的官方文档。 步骤五:安装Grafana 运行社区最新发行的Grafana版本: docker run -d -p 3000:3000
步骤一 修改训练Yaml配置文件 修改或添加代码目录下modellink_performance_cfgs.yaml文件参数内容,参数详解可查看表1。 样例yaml配置文件结构分为: base块:基础配置块,主要为公共配置参数 ModelName块:该模型所需配置的参数,如qwen2.5-7b块
精度问题处理 设置高精度并重新转换模型 在转换模型时,默认采用的精度模式是fp16,如果转换得到的模型和标杆数据的精度差异比较大,可以使用fp32精度模式提升模型的精度(精度模式并不总是需要使用fp32,因为相对于fp16,fp32的性能较差。因此,通常只在检测到某个模型精度存在问题时,
掉卡 NPU卡丢失。 节点规格的NPU卡数和k8sNode中可调度卡数不一致。 可能是亚健康,建议先重启节点,如果重启节点后未恢复,发起维修流程。 NT_NPU_OTHER NPU 其他 NPU其他错误。 检测到的其他NPU错误,通常为不可自纠正的异常,请联系技术人员支持。 发起维修流程。
在部署为在线服务时,即“部署”页面,填写部署服务相关参数时,开启支持APP认证功能。 针对已部署完成的在线服务,进入在线服务管理页面,单击目标服务名称“操作”列的“修改”按钮,进入修改服务页面开启支持APP认证功能。 图1 部署页面开启支持APP认证功能 选择APP授权配置。从下拉列表中选择您需要
导您为特定用户或所有用户进行委托配置,通常默认会创建一个名为“modelarts_agency_<用户名>_随机ID”的委托条目。在权限配置的区域,您可以选择ModelArts提供的预置配置,也可以自定义选择您所授权的策略。如果这两种形态对于您的诉求均过于粗犷,您也可以直接在IA
用户自身用户组的授权策略的授权范围,如果配置不当就会出现用户越权的问题。 为了控制委托授权的越权风险,ModelArts服务的权限管理功能要求只有租户管理员才能为用户配置委托,由管理员保证委托授权的安全性。 委托授权的最小化 管理员在配置委托授权时,应严格控制授权的范围。 Mod
Workflow中所有出现占位符相关的配置对象时,均需要设置默认值,或者直接使用固定的数据对象 方法的执行依赖于Workflow对象的名称:当该名称的工作流不存在时,则创建新工作流并创建新执行;当该名称的工作流已存在时,则更新存在的工作流并基于新的工作流结构创建新的执行 workflow.release_and_run()
Cluster资源配置 如果已完成集群资源购买和开通,则需要对网络、存储、容器镜像等内容进行配置。请参考k8s Cluster环境配置详细流程。 kubectl访问集群配置 本步骤需要在节点机器,对kubectl进行集群访问配置。 首先进入已创建的CCE集群控制版面中。根据图2的步骤进行操
Cluster资源配置 如果已完成集群资源购买和开通,则需要对网络、存储、容器镜像等内容进行配置。请参考k8s Cluster环境配置详细流程。 kubectl访问集群配置 本步骤需要在节点机器,对kubectl进行集群访问配置。 首先进入已创建的CCE集群控制版面中。根据图2的步骤进行操
Cluster资源配置 若已完成集群资源购买和开通,则需要对网络、存储、容器镜像等内容进行配置。请参考k8s Cluster环境配置详细流程。 kubectl访问集群配置 本步骤需要在节点机器,对kubectl进行集群访问配置。 首先进入已创建的CCE集群控制版面中。根据图2的步骤进行操
将权重文件上传到集群节点机器中。权重文件的格式要求为Huggingface格式。开源权重文件获取地址请参见支持的模型列表和权重文件。 如果使用模型训练后的权重文件进行推理,模型训练及训练后的权重文件转换操作可以参考相关文档章节中提供的模型训练文档。 Step2 配置pod 在节点自定义目录${node_path}下创建config
创建训练作业界面没有云存储名称和挂载路径这两个选项。 原因分析 用户的专属资源池没有进行网络打通,或者用户没有创建过SFS。 处理方法 在专属资源池列表中,单击资源池“ID/名称”,进入详情页。单击右上角“配置NAS VPC”,检查是否开启了NAS VPC。详情页面的“NAS VPC名称”和“NAS
Step2 配置数据输入和输出 单击“增加训练输入”和“增加训练输出”,用于配置训练作业开始时需要输入数据的路径和训练结束后输出数据的路径。 输入指定的目录在训练开始时,平台会自动将指定的OBS路径下的文件copy到容器内 输出指定的目录在训练过程中,平台会自动将容器内的文件copy到指定的OBS路径下
在ModelArts的Notebook中如何设置VS Code背景色为豆沙绿? 在VS Code的配置文件settings.json中添加如下参数 "workbench.colorTheme": "Atom One Light", "workbench.colorCustomizations":
部署预测分析服务 模型部署 模型部署操作即将模型部署为在线服务,并且提供在线的测试UI与监控能力。完成模型训练后,可选择准确率理想且训练状态为“运行成功”的版本部署上线。具体操作步骤如下。 在“运行节点”页面中,待训练状态变为“等待输入”,双击“服务部署”节点,完成相关参数配置。
优先排查APIG(API网关)是否是通的,可以在本地使用curl命令排查,命令行:curl -kv {预测地址}。如返回Timeout则需排查本地防火墙,代理和网络配置。 检查模型是否启动成功或者模型处理单个消息的时长。因APIG(API网关)的限制,模型单次预测的时间不能超过40S,超过后系统会默认返回Timeout错误。
将权重文件上传到集群节点机器中。权重文件的格式要求为Huggingface格式。开源权重文件获取地址请参见支持的模型列表和权重文件。 如果使用模型训练后的权重文件进行推理,模型训练及训练后的权重文件转换操作可以参考相关文档章节中提供的模型训练文档。 Step2 配置pod 在节点自定义目录${node_path}下创建config