检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
e时需要配置,多个权重相加必须等于100;当在一个在线服务中同时配置了多个模型版本且设置不同的流量权重比例时,持续地访问此服务的预测接口,ModelArts会按此权重比例将预测请求转发到对应的模型版本实例。 deploy_timeout_in_seconds 否 Integer 单个模型实例部署的超时时间。
单击新建的模型名称左侧的小三角形,展开模型的版本列表。在操作列单击“部署 > 在线服务”,跳转至在线服务的部署页面。 在部署页面,参考如下说明填写关键参数。 “名称”:按照界面提示规则自定义一个在线服务的名称,也可以使用默认值。 “资源池”:选择“公共资源池”。 “模型来源”和“选择模型及版本”:会自动选择模型和版本号。
理、自动化任务场景能为您带来更优体验。 在OBS服务控制台上创建并行文件系统,具体步骤请参考创建并行文件系统。 针对您的操作系统,下载对应版本的obsutil至弹性裸金属服务器,并完成安装,具体步骤请参考下载和安装obsutil。 使用obsutil之前,您需要配置obsutil
String 训练作业的引擎名称。 engine_id Long 训练作业的引擎ID。 engine_version String 训练作业使用的引擎版本。 user_image_url String 自定义镜像训练作业的自定义镜像的SWR-URL。如:“100.125.5.235:2020
接口,查看响应里的详细报错信息,如下图所示。通过错误提示修正输入参数后再次提交订单。 图8 报错信息 如CCE集群不可用,请检查CCE集群版本和状态。报错信息如下: { "error_code": "ModelArts.50004000", "error_msg":
AscendCloud-LLM的llm_tools/llm_evaluation目录中,代码目录结构如下。目前使用的opencompass版本是0.2.6 benchmark_eval ├──opencompass.sh #运行opencompass脚本 ├──install
AscendCloud-LLM的llm_tools/llm_evaluation目录中,代码目录结构如下。目前使用的opencompass版本是0.2.6 benchmark_eval ├──opencompass.sh #运行opencompass脚本 ├──install
_size,优化代码,合理聚合、复制数据。 请注意,数据文件大小不等于内存占用大小,需仔细评估内存使用情况。 退出码139 请排查安装包的版本,可能存在包冲突的问题。 排查办法 根据错误信息判断,报错原因来源于用户代码。 您可以通过以下两种方式排查: 线上环境调试代码(仅适用于非分布式代码)
处理方法 如果存在之前能跑通,什么都没修改,过了一阵跑不通的情况,先去排查跑通和跑不通的日志是否存在pip源更新了依赖包,如下图,安装之前跑通的老版本即可。 图1 PIP安装对比图 推荐您使用本地Pycharm远程连接Notebook调试。 如果上述情况都解决不了,请联系技术支持工程师。
egrep -i "software|firmware" #查看驱动和固件版本 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 驱动版本要求是23.0.6。如果不符合要求请参考安装固件和驱动章节升级驱动。 检查docker是否安装。
操作名称 风险描述 风险等级 应对措施 操作系统 升级/修改操作系统内核或者驱动。 如果升级/修改操作系统内核或者驱动,很可能导致驱动和内核版本不兼容,从而导致OS无法启动,或者基本功能不可用。相关高危命令如:apt-get upgrade。 高 如果需要升级/修改,请联系华为云技术支持。
content_id 是 String AI Gallery中数据集资产的ID。 version_id 是 String AI Gallery中数据集资产的版本ID。 表4 AnnotationConfig参数 参数 是否必选 参数类型 描述 scene 是 String 支持的标注格式场景,可选值如下:
精度调优总体思路 PyTorch大模型训练的精度问题的分析、定位可以参考如下思路: 大模型训练通常使用多机训练,鉴于多机训练复现问题的成本较高,且影响因子较多,建议用户先减少模型层数,使模型能够单机训练,确认单机训练是否也存在精度问题,若存在,则使用下述手段定位精度问题,使得单机精度达标,然后再恢复层数拉起多机训练。
图像分类算法的订阅ID,自行前往算法管理页面进行查看,可选参数,此处以订阅算法举例 item_version_id="10.0.0", # 订阅算法的版本号,可选参数,此处以订阅算法举例 parameters=[ wf.AlgorithmParamet
我的主页 展示个人的成长值数据。 成长值可以通过“签到”和发布资产获取,每天只能签到一次。 说明: 成长值相关数据和功能当前是Beta版本,在正式版本发布前可能会发生变化。 我的资产 > 算法 展示个人发布和订阅的算法列表。 “我的发布”:可以查看个人发布的算法信息,如浏览量、收藏
性能benchmark验证使用到的脚本存放在代码包AscendCloud-3rdLLM-xxx.zip的llm_tools/llm_evaluation(6.3.905版本)目录中。 代码目录如下: benchmark_tools ├── benchmark_parallel.py # 评测静态性能脚本 ├──
a3/envs/my-env 执行如下命令在my env里安装如下依赖包。 pip install ipykernel 如果遇到版本冲突,建议固定版本如下: pip install jupyter_core==5.3.0 pip install jupyter_client==8
缓存文件与实际推理不匹配而报错。 如果要使用eagle投机,配置环境变量,使eagle投机对齐实验室版本实现。目前默认开启此模式,如果不开启,目前vllm0.6.3版本与实验室版本权重无法对齐,会导致小模型精度问题。 export EAGLE_USE_SAFE_AI_LAB_STYLE=1
缓存文件与实际推理不匹配而报错。 如果要使用eagle投机,配置环境变量,使eagle投机对齐实验室版本实现。目前默认开启此模式,如果不开启,目前vllm0.6.3版本与实验室版本权重无法对齐,会导致小模型精度问题。 export EAGLE_USE_SAFE_AI_LAB_STYLE=1
被服务器接收,且仍未被拒绝。 101 Switching Protocols 切换协议。只能切换到更高级的协议。 例如,切换到HTTP的新版本协议。 200 OK 接口调用成功。 201 Created 创建类的请求完全成功。 202 Accepted 已经接受请求,但未处理完成。