检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
20.04内核自动升级? 场景描述 在Ubuntu 20.04每次内核升级后,系统需要重新启动以加载新内核。如果您已经安装了自动更新功能,则系统将自动下载和安装可用的更新,这可能导致系统在不经意间被重启,如果使用的软件依赖于特定版本的内核,那么当系统自动更新到新的内核版本时,可能
sh #安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字 相关文档 和本文档配套
sh #安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字 相关文档 和本文档配套
根据报错提示,请您排查代码,是否已添加以下配置,设置该程序可见的GPU: os.environ['CUDA_VISIBLE_DEVICES'] = '0,1,2,3,4,5,6,7' 其中,0为服务器的GPU编号,可以为0,1,2,3等,表明对程序可见的GPU编号。如果未进行添加配置则该编号对应的GPU不可用。
当训练作业使用完成或不再需要时,调用删除训练作业接口删除训练作业。 前提条件 已获取IAM的EndPoint和ModelArts的EndPoint。 确认服务的部署区域,获取项目ID和名称、获取账号名和ID和获取用户名和用户ID。 已准备好PyTorch框架的训练代码,例如将启动文件“test-pytorch
install时,出现“No Space left...”的错误。 解决办法 建议使用pip install --no-cache ** 命令安装,而不是使用pip install **。 加上“--no-cache”参数,可以解决很多此类报错。 父主题: 实例故障
JupyterLab中文件保存失败,如何解决? 问题现象 JupyterLab中保存文件时报错如下: 原因分析 浏览器安装了第三方插件proxy进行了拦截,导致无法进行保存。 在Notebook中的运行文件超过指定大小就会提示此报错。 jupyter页面打开时间太长。 网络环境原因,是否有连接网络代理。
Standard推理部署 ModelArts Standard推理服务访问公网方案 端到端运维ModelArts Standard推理服务方案 使用自定义引擎在ModelArts Standard创建模型 使用大模型在ModelArts Standard创建模型部署在线服务 第三方推理框架迁移到ModelArts
如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 驱动版本要求是23.0.6。如果不符合要求请参考安装固件和驱动章节升级驱动。 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。
ModelArts Lite又分以下2种形态: ModelArts Lite Server提供不同型号的xPU裸金属服务器,您可以通过弹性公网IP进行访问,在给定的操作系统镜像上可以自行安装加速卡相关的驱动和其他软件,使用SFS或OBS进行数据存储和读取相关的操作,满足算法工程师进行日常训练的需要。请参见弹性裸金属Lite
Git下载代码时报错 在执行scripts/install.sh安装命令或使用Dockerfile构建镜像时,如遇到git下载代码出现以下类似的报错信息,关闭git验证即可。 报错信息: fatal: unable to access 'https://gitee.com/ascend/ModelLink
单击模型名称,进入模型详情页面,查看模型详情信息。 部署服务并查看详情 在模型详情页面,单击右上角“部署>在线服务”,进入服务部署页面,模型和版本默认选中,选择合适的“实例规格”(例如CPU:2核 8GB),其他参数可保持默认值,单击“下一步”,跳转至服务列表页,当服务状态变为“运行中”,服务部署成功。 单击服务名
图2 模型的自定义镜像制作场景二 场景三:预置镜像既不满足软件环境要求,同时需要放入模型包,新的镜像超过35G,在服务器(如ECS)上制作。具体案例参考在ECS中通过Dockerfile从0制作自定义镜像用于推理。 图3 模型的自定义镜像制作场景三 约束限制 自定义镜像中不能包含恶意代码。
问并编辑以上源码文件。编辑完成后重新构建新镜像。 训练作业的资源池以及ECS都需要连通公网,否则会安装和下载失败。资源池打通公网配置请参见配置Standard专属资源池访问公网,ECS打通公网配置请参见ECS绑定弹性公网IP。 父主题: 准备镜像
问并编辑以上源码文件。编辑完成后重新构建新镜像。 训练作业的资源池以及ECS都需要连通公网,否则会安装和下载失败。资源池打通公网配置请参见配置Standard专属资源池访问公网,ECS打通公网配置请参见ECS绑定弹性公网IP。 父主题: 准备镜像
问并编辑以上源码文件。编辑完成后重新构建新镜像。 训练作业的资源池以及ECS都需要连通公网,否则会安装和下载失败。资源池打通公网配置请参见配置Standard专属资源池访问公网,ECS打通公网配置请参见ECS绑定弹性公网IP。 父主题: 准备镜像
问并编辑以上源码文件。编辑完成后重新构建新镜像。 训练作业的资源池以及ECS都需要连通公网,否则会安装和下载失败。资源池打通公网配置请参见配置Standard专属资源池访问公网,ECS打通公网配置请参见ECS绑定弹性公网IP。 父主题: 准备镜像
在ECS中创建ma-user和ma-group 在ModelArts训练平台使用的自定义镜像时,默认用户为ma-user、默认用户组为ma-group。如果在训练时调用ECS中的文件,需要修改文件权限改为ma-user可读,否则会出现Permission denied错误,因此需
sh #安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字 相关文档 和本文档配套
Git下载代码时报错 在执行scripts/install.sh安装命令或使用Dockerfile构建镜像时,如遇到git下载代码出现以下类似的报错信息,关闭git验证即可。 报错信息: fatal: unable to access 'https://gitee.com/ascend/ModelLink