检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
为了完成AI计算的各种操作,ModelArts在AI计算任务执行过程中需要访问用户的其他服务,例如训练过程中,需要访问OBS读取用户的训练数据。在这个过程中,就出现了ModelArts“代表”用户去访问其他云服务的情形。从安全角度出发,ModelArts代表用户访问任何云服务之前
tokenizer路径。 输出转换后权重文件保存路径: 权重转换完成后,在 /home/ma-user/ws/processed_for_ma_input/llama2-13b/converted_weights_TP${TP}PP${PP} 目录下查看转换后的权重文件。 Megatron转HuggingFace参数说明
py 如果当前进程使用GPU 如果当前没有进程使用GPU 方法二: 打开文件“/resource_info/gpu_usage.json”,可以看到有哪些进程在使用GPU。 如果当前没有进程使用GPU,该文件可能不存在或为空。 父主题: Standard Notebook
“运行日志输出”开启后,不支持关闭。 LTS服务提供的日志查询和日志存储功能涉及计费,详细请参见了解LTS的计费规则。 请勿打印无用的audio日志文件,这会导致系统日志卡死,无法正常显示日志,可能会出现“Failed to load audio”的报错。 升级为WebSocket 是否升级为WebSocket服务。
User:用户名,例如:ma-user - HostName:IP地址 - Port:端口号 在VS Code中手工配置远程连接时,在本地的ssh config文件中增加配置参数“StrictHostKeyChecking no”和“UserKnownHostsFile=/dev/null” Host
输出转换后权重文件保存路径: 权重转换完成后,在/home/ma-user/work/llm_train/processed_for_ma_input/llama2-13b/converted_weights_TP${TP}PP${PP}目录下查看转换后的权重文件。 Megatron转HuggingFace参数说明
在ModelArts Standard上运行GPU多机多卡训练作业 在ModelArts Standard使用run.sh脚本实现OBS和训练容器间的数据传输 父主题: Standard模型训练
the instance keypair information on ModelArts console.” 原因分析 可能是密钥文件或放置密钥的文件夹权限问题,密钥不正确等,请按以下步骤排查。 解决方案 排查/home/ma-user权限,建议将该目录权限设置为755或750,
pull ubuntu:18.04 新建文件夹“self-define-images”,在该文件夹下编写自定义镜像的“Dockerfile”文件和应用服务代码“test_app.py”。本样例代码中,应用服务代码采用了flask框架。 文件结构如下所示 self-define-images/
ForwardAgent yes 如果正确请按继续排查。 如果不正确请按上面格式修改后继续排查。 查看密钥文件的路径,建议放在C:\Users\{user}\.ssh下,并确保密钥文件无中文字符。 排查插件包是否为最新版:在extensions中搜索,看是否需要升级。检查Remote-ssh三方插件是否兼容。
表3 请求Body参数 参数 是否必选 参数类型 描述 grants 否 Array of grants objects 训练作业使用的数据集。不可与data_url或dataset_id/dataset_version_id同时使用。 auth_type 否 String 授
pull ubuntu:18.04 新建文件夹“self-define-images”,在该文件夹下编写自定义镜像的“Dockerfile”文件和应用服务代码“test_app.py”。本样例代码中,应用服务代码采用了flask框架。 文件结构如下所示 self-define-images/
当AI应用的“可见范围”是“私密”时,才支持修改环境变量、可见范围或删除AI应用。 管理AI应用环境变量 AI应用支持增删改查环境变量,配置好的环境变量可以在运行文件中直接调用。 在AI应用详情页,选择“设置”页签。 在“环境变量管理”处,可以查看、新增、修改、删除环境变量。 最多支持创建100个环境变
打开并配置whitelist.conf文件。 vim whitelist.conf 配置内容为安全控制可访问的地址,支持配置通配符,例如: .apig.cn-east-3.huaweicloudapis.com 如果地址访问不通,请在浏览器配置访问域名。 打开并配置squid.conf文件。 vim squid
由于基础镜像内需要安装固定版本依赖包,若直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh 文件,来安装依赖以及下载完整代码。 以创建llama2-13b预训练作业为例,执行脚本0_pl_pretrain_13b.sh时,命令如下: cd
由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。 以创建llama2-13b预训练作业为例,执行脚本0_pl_pretrain_13b.sh时,命令如下: cd
置才能正常使用MaaS服务。 ModelArts在任务执行过程中需要访问用户的其他服务,典型的就是训练过程中,需要访问OBS读取用户的训练数据。在这个过程中,就出现了ModelArts“代表”用户去访问其他云服务的情形。从安全角度出发,ModelArts代表用户访问任何云服务之前
根据容器日志进行排查,查看健康检查接口失败的具体原因。 镜像健康检查配置问题,需修复代码后重新制作镜像创建模型后部署服务。了解镜像健康接口配置请参考模型配置文件编写说明中health参数说明。 模型健康检查配置问题,需重新创建模型或者创建模型新版本,配置正确的健康检查,使用新的模型或版本重新部署服
原因分析 一般情况都是模型的端口配置有问题。建议您首先检查创建模型的端口是否正确。 处理方法 模型的端口没有配置,如您在自定义镜像配置文件中修改了端口号,需要在部署模型时,配置对应的端口号,使新的模型重新部署服务。 如何修改默认端口号,请参考使用自定义镜像创建在线服务,如何修改默认端口。
步骤三:上传代码包和权重文件 上传安装依赖软件推理代码AscendCloud-LLM-6.3.912-xxx.zip和算子包AscendCloud-OPP-6.3.912-xxx.zip到主机中,包获取路径请参见表2。 将权重文件上传到Server机器中。权重文件的格式要求为Hugg