检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
规则类型:选择“指标告警规则”。 配置方式:选择“PromQL”。 设置告警规则详情。 默认规则:选择“自定义”。 命令行输入框(排除值为2的为无效数据): sum(nt_npg{type="NT_NPU_CARD_LOSE"} !=2) by (cluster_name, node_ip
zip 运行推理构建脚本build.sh文件,自动获取ascend_vllm_adapter文件夹中提供的vLLM相关算子代码。 cd llm_inference bash build.sh 运行完后,在当前目录下会生成ascend_vllm文件夹,即为昇腾适配后的vLLM代码。 将
训练输入(参数名称:)下载失败,失败原因: [worker-0] 正在安装Python依赖包,导入文件: [worker-0] [耗时: 秒] Python依赖包安装完成,导入文件: [worker-0] 训练作业开始运行 [worker-0] 训练作业运行结束,退出码 [worker-0]
报错日志 从上图报错日志判断,预测失败是模型推理代码编写有问题。 解决方法 根据日志报错提示,append方法中缺少必填参数,修改模型推理代码文件“customize_service.py”中的代码,给append方法中传入合理的参数。 如需了解更多模型推理代码编写说明,请参考模型推理代码编写说明。
max_model_len is greater than the drived max_model_len 解决方法: 修改config.json文件中的"seq_length"的值,"seq_length"需要大于等于 --max-model-len的值。 config.json存在模
请确保目录下无影响容器启动的文件,否则文件会被替换,导致容器启动异常,工作负载创建失败。 storage_type String 挂载类型sfs_turbo极速文件系统挂载。 source_address String 挂载源路径,挂载为极速文件时为sfs turbo id。 表11
dels/text_encoder.mindir --device=Ascend 上述命令中:modelFile指定生成的mindir模型文件;device指定运行推理的设备。其他用法请参考benchmark文档。 测试结果如下所示: 图1 测试结果 父主题: 性能调优
nsions 后端插件代码安装目录:/home/ma-user/.local/lib/python3.7/site-packages 配置文件目录:/home/ma-user/.jupyter/ 后端插件使用jupyter server extension list命令查询。 父主题:
预先准备需要编译下载的依赖包,减少依赖包下载和编译的时间。可通过线下wheel包方式安装运行环境依赖。线下wheel包安装,需确保wheel包与模型文件放在同一目录。 优化模型代码,提高构建模型镜像的编译效率。 父主题: 模型管理
重要 UpdateKeyPair 配置实例密钥对 (User %s updated the instance keypair to "{%s}") 重要 更新实例密钥对 (User %s updated the instance keypair from %s to %s) 重要 UpdateWhitelist
状态变为“已冻结”,您将无法对处于保留期的包年/包月资源执行任何操作。 保留期到期后,如果包年/包月资源池仍未续费,那么计算资源将被释放,数据无法恢复。 华为云根据客户等级定义了不同客户的宽限期和保留期时长。 关于续费的详细介绍请参见续费概述。 父主题: 计费模式
您可以通过如下两种方式将训练的模型迁移到其他账号。 将训练好的模型下载至本地后,上传至目标账号对应区域的OBS桶中。 通过对模型存储的目标文件夹或者目标桶配置策略,授权其他账号进行读写操作。详请参见配置高级桶策略。 父主题: Standard模型训练
ion鉴权。 登录ModelArts控制台,在“开发环境 > Notebook”中创建Notebook实例,在Terminal或ipynb文件中直接调用ModelArts SDK的接口。在Notebook中调用SDK,可直接参考接口说明,执行OBS管理、作业管理、模型管理和服务管理等操作。
kernel 用户自定义镜像自建的conda环境会查到一些额外的包,影响用户程序,如何解决? 用户使用ma-cli制作自定义镜像失败,报错文件不存在(not found) 用户使用torch报错Unexpected error from cudaGetDeviceCount 父主题:
可能是网络不通导致的。 处理步骤 进入训练作业详情页,在左侧获取SFS Turbo的名称。 图1 获取SFS Turbo的名称 登录弹性文件服务SFS控制台,在SFS Turbo列表找到训练作业挂载的SFS Turbo,单击名称进入详情页。获取VPC信息、安全组信息和endpoint信息。
来。如果想要指定INFO等级的日志能够查询出来,需要在代码中指定logger的输出日志等级为INFO级别。 处理方法 在推理代码所在的py文件中,指定日志输出到Console的默认级别为INFO级别,确保将对应级别的日志打印出来。参考代码如下: import log # 创建一个logger
Standard推理部署 如何将Keras的.h5格式的模型导入到ModelArts中? ModelArts导入模型时,如何编写模型配置文件中的安装包依赖参数? 在ModelArts中使用自定义镜像创建在线服务,如何修改端口? ModelArts平台是否支持多模型导入? 在Mod
finished:只有批量服务会有这个状态,表示运行完成。 is_opened_sample_collection String 是否打开数据采集,默认“false”。 transition_at Number 服务状态转化时间。 is_free Boolean 服务是否是免费规格类型。
默认无限制,支持设置1~100000。 GB 智能标注GPU规格使用时长 默认无限制,支持设置1~60000。 分钟 工作空间的配额值修改完成后,单击“提交修改”,当“配额值”数据刷新表示修改成功。 修改工作空间 工作空间创建成功后,支持修改信息。 在ModelArts管理控制台的左侧导航栏中,选择“工作空间”进入工作空间列表。
只有处于“运行中/停止失败”状态的弹性节点Server可以执行停止操作。 停止服务器为“强制关机”方式,会中断您的业务,请确保服务器上的文件已保存。 父主题: Lite Server资源管理