检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
模型训练高可靠性 训练作业容错检查 训练日志失败分析 训练作业卡死检测 训练作业重调度 设置断点续训练 设置无条件自动重启 父主题: 使用ModelArts Standard训练模型
服务无CES监控数据,不支持完整的端到端服务运维设置。 实施步骤 以出行场景的司乘安全算法为例,介绍使用ModelArts进行流程化服务部署和更新、自动化服务运维和监控的实现步骤。 图3 司乘安全算法 将用户本地开发完成的模型,使用自定义镜像构建成ModelArts Standa
如果您在本地IDEA环境中开发工作流,则Session初始化使用如下方式 # 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全; # 本示例以ak和sk保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HU
AutoAWQ量化完成后,使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包,需要进行权重转换。 进入llm_tools/AutoAWQ代码目录下执行以下脚本: 执行时间预计10分钟。执行完成后会将权重路径下的原始权重替换成转换后的权重。如需保留之前权重格式,请在转换前备份。 python convert_awq_to_npu
NpuToolsWarning 重要 hccn_tool不可用 请检查NPU驱动是否正常 无法配置RoCE网卡的IP、网关 重要 npu-smi不可用 请检查NPU驱动是否正常 无法正常使用NPU卡 重要 ascend-dmi不可用 请检查工具包ToolBox是否正常安装 无法使用ascend-dmi进行性能分析
引入MoXing Framework。 在已有的“modelarts-test08/moxing”目录下,创建一个“test01”文件夹。 调用代码检查“test01”文件夹是否存在,如果存在,表示上一个操作已成功。 1 2 3 4 import moxing as mox mox.file
awq quantization weight. config.json中缺少quantization_config字段,请检查是否为awq量化权重。 检查权重和模型模板是否匹配。 There is an extra quantization_config field in config
当用户使用自定义引擎时,默认开启动态加载,模型包与镜像分离,在服务部署时动态将模型加载到服务负载。 配置健康检查 大模型场景下导入的模型,要求配置健康检查,避免在部署时服务显示已启动但实际不可用。 图3 采用自定义引擎,开启动态加载并配置健康检查示例图 部署在线服务 部署服务时,需满足以下参数配置: 自定义部署超时时间
通过Grafana插件查看AOM中的监控指标的操作流程如下: 安装配置Grafana 安装配置Grafana有在Windows上安装配置Grafana、在Linux上安装配置Grafana和在Notebook上安装配置Grafana三种方式,请您根据实际情况选择。 配置Grafana数据源 配置仪表盘查看指标数据
报错“The VS Code Server failed to start”如何解决? 问题现象 解决方法 检查VS Code版本是否为1.78.2或更高版本,如果是,请查看Remote-SSH版本,若低于v0.76.1,请升级Remote-SSH。 打开命令面板(Windows:
}' 方式三 online_serving.py 发送请求(单图单轮对话) 由于多模态推理涉及图片的编解码,所以采用脚本方式调用服务API。脚本中需要配置的参数如表2脚本参数说明所示。 import base64 import requests import argparse # Function
在Terminal中解压压缩包。 unzip xxx.zip #在xxx.zip压缩包所在路径直接解压 解压命令的更多使用说明可以在主流搜索引擎中查找Linux解压命令操作。 多个文件同时上传时,JupyterLab窗口最下面会显示上传文件总数和已上传文件数。 上传文件入口 方式一:使用Jupy
AutoAWQ量化完成后,使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包,需要进行权重转换。 进入llm_tools代码目录下执行以下脚本: 执行时间预计10分钟。执行完成后会将权重路径下的原始权重替换成转换后的权重。如需保留之前权重格式,请在转换前备份。 python a
DevServer和昇腾Snt9b资源。 安装过程需要连接互联网git clone,确保容器可以访问公网。 步骤一 检查环境 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态
配置Cluster资源,确保可以通过公网访问Cluster机器,具体配置请参见配置Lite Cluster网络。 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态
generate a tmp label_map.pbtxt.”。 如果使用的是AI Gallery订阅的算法,建议先检查数据的标签是否有问题。 如果使用的是物体检测类算法,建议检查数据的label框是否为非矩形。 物体检测类算法仅支持矩形label框。 查看训练作业的“日志”,出现报错“RuntimeError:
UserKnownHostsFile=/dev/null ForwardAgent yes 提示:增加参数后SSH登录时会忽略known_hosts文件,有安全风险。 父主题: VS Code连接开发环境失败常见问题
AutoAWQ量化完成后,使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包,需要进行权重转换。 进入llm_tools/AutoAWQ代码目录下执行以下脚本: 执行时间预计10分钟。执行完成后会将权重路径下的原始权重替换成转换后的权重。如需保留之前权重格式,请在转换前备份。 python convert_awq_to_npu
使用当前账户登录OBS管理控制台,去查找对应的OBS桶、文件夹、文件。 通过接口判断路径是否存在。在已有的Notebook实例,或者创建一个Notebook,执行如下命令,检查路径是否存在。 import moxing as mox mox.file.list_directory('obs://bucket_name'
报错“The VS Code Server failed to start”如何解决? 问题现象 解决方法 检查VS Code版本是否为1.78.2或更高版本,如果是,请查看Remote-SSH版本,如果Remote-SSH版本低于v0.76.1,请升级Remote-SSH。 打开命令面板(Windows: