检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
单击资产名称,进入资产详情页。 在资产详情页,单击“下架”,在弹窗中单击“确定”。即可将资产下架。 删除数据集 当资产不使用时,支持删除,释放AI Gallery仓库的存储空间。 在资产详情页,选择“设置”页签。 在“删除资产”处,单击“删除”按钮,确认后资产将被删除。 删除操作
在部署服务时,选择专属资源池,在选择“计算节点规格”时选择“自定义规格”,设置小一些或者选择小规格的服务节点规格,当资源池节点可以容纳多个服务节点规格时,就可以部署多个服务。如果使用此方式进行部署推理,选择的规格务必满足模型的要求,当设置的规格过小,无法满足模型的最小推理要求时,则会出现部署失败或预测失败的情况。
analysis_dimensions computation, communication, schedule, memory 否 默认进行计算、通信、下发和内存的全维度分析。可以指定默认值中任意单维度进行分析,如仅指定computation进行计算维度分析,仅指定schedule进行下发维度分析。
时出现。 engine_id 是 Long 训练作业选择的引擎规格ID,默认为“1”。填入model_id后app_url/boot_file_url和engine_id无需填写。请从查询作业引擎规格接口获取引擎规格ID。 model_id 是 Long 训练作业的内置模型ID。
install.sh # 环境部署脚本 |——src/ # 启动命令行封装脚本,在install.sh里面自动构建 |──llm_inference # 推理代码包 |──llm_tools
sh复制到容器之后,需要添加“x”可执行权限。 bash: /bin/ln: Permission denied 因安全问题,不支持用户开通使用In命令。 bash:/home/ma-user/.pip/pip.conf:Permission Denied 因从V1切换到V2时,ma-user的uid仍是1102未改变导致。
235:20202/jobmng/custom-cpu-base:1.0” user_command String 自定义镜像训练作业的自定义镜像的容器的启动命令。形式为:“bash /home/work/run_train.sh python /home/work/user-job-dir/app/train
install.sh # 环境部署脚本 |——src/ # 启动命令行封装脚本,在install.sh里面自动构建 |──llm_inference # 推理代码包 |──llm_tools
ModelArts预置镜像更新说明 本章节提供了ModelArts预置镜像的变更说明 ,比如依赖包的变化,方便用户感知镜像能力的差异,减少镜像使用问题。 统一镜像更新说明 表1 统一镜像更新说明 镜像名称 更新时间 更新说明 mindspore_2.3.0-cann_8.0.rc1-py_3
启动脚本,建立线程池发送请求,并汇总结果 ├── service_predict.py # 发送请求的服务 执行精度测试启动脚本eval_test.py,具体操作命令如下,可以根据参数说明修改参数。 python eval_test.py \ --max_workers=1 \ --servic
例如:安装的依赖包、“/home/ma-user”目录 不会被保存的目录:容器启动时动态连接到宿主机的挂载目录或数据卷,这些内容不会被保存在镜像中。可以通过df -h命令查看挂载的动态目录,非“/”路径下的不会保存。 例如:持久化存储的部分“home/ma-user/work”目录的内容不会保存在最终产生的
例如:安装的依赖包、“/home/ma-user”目录 不会被保存的目录:容器启动时动态连接到宿主机的挂载目录或数据卷,这些内容不会被保存在镜像中。可以通过df -h命令查看挂载的动态目录,非“/”路径下的不会保存。 例如:持久化存储的部分“home/ma-user/work”目录的内容不会保存在最终产生的
请勿打印无用的audio日志文件,这会导致系统日志卡死,无法正常显示日志,可能会出现“Failed to load audio”的报错。 升级为WebSocket 是否升级为WebSocket服务。 您可以进入在线服务的详情页面,通过切换页签查看更多详细信息,详情说明请参见表2。 表2 在线服务详情
s_data.sh脚本,将执行的python命令复制下来,修改环境变量的值。在Notebook进入到 /home/ma-user/work/llm_train/AscendSpeed/ModelLink 路径中,再执行python命令。 方法二:用户在Notebook中直接编辑s
s_data.sh脚本,将执行的python命令复制下来,修改环境变量的值。在Notebook进入到 /home/ma-user/work/llm_train/AscendSpeed/ModelLink 路径中,再执行python命令。 方法二:用户在Notebook中直接编辑s
则放在新的conversation_id下。 Human: 数据集中每条数据的输入。 assistant: 数据集中每条数据的输出。 运行命令示例: 1. python ExcelToJson.py --user_id=001 --excel_addr=xxx.xlsx(.csv)
s_data.sh脚本,将执行的python命令复制下来,修改环境变量的值。在Notebook进入到 /home/ma-user/work/llm_train/AscendSpeed/ModelLink 路径中,再执行python命令。 方法二:用户在Notebook中直接编辑s
NPU网络链接异常。 可能是亚健康,建议先重启节点,如果重启节点后未恢复,发起维修流程。 NT_NPU_CARD_LOSE NPU 掉卡 NPU卡丢失。 节点规格的NPU卡数和k8sNode中可调度卡数不一致。 可能是亚健康,建议先重启节点,如果重启节点后未恢复,发起维修流程。 NT_NPU_OTHER
还提供了扩缩容、驱动升级等功能,方便您对集群资源进行管理。 图2 使用流程 推荐您根据以下使用流程对Lite Cluster进行使用。 资源开通:您需要开通资源后才可使用Lite Cluster,在开通资源前,请确保完成所有相关准备工作,包括申请开通所需的规格和进行权限配置。随后
调用API接口创建训练作业(专属资源池为CPU规格),训练作业状态由“创建中”转变为“异常”,训练作业详情界面“规格信息”为“--”。 原因分析 调用接口传入了CPU规格的专属资源池不支持的参数。 处理步骤 检查API请求的请求体中是否存在“flavor_id”参数,CPU规格的专属资源池不支持使用“flavor_id”参数。