检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
save_summary_steps=save_summary_steps, save_model_secs=save_model_secs, checkpoint_path=flags.checkpoint_url, export_model=mox
准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 训练基础镜像 swr.cn-southwest-2
准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 训练基础镜像 swr.cn-southwest-2
服务启动失败 服务部署、启动、升级和修改时,拉取镜像失败如何处理? 服务部署、启动、升级和修改时,镜像不断重启如何处理? 服务部署、启动、升级和修改时,容器健康检查失败如何处理? 服务部署、启动、升级和修改时,资源不足如何处理? 模型使用CV2包部署在线服务报错 服务状态一直处于“部署中”
创建密钥对,操作指导请参考如何创建密钥对? 购买虚拟私有云VPC 虚拟私有云可以为您构建隔离的、用户自主配置和管理的虚拟网络环境,操作指导请参考创建虚拟私有云和子网。 购买弹性云服务器ECS 如果您需要在服务器上部署相关业务,较之物理服务器,弹性云服务器的创建成本较低,并且可以在
读取文件报错,如何正确读取文件 问题现象 创建训练作业如何读取“json”和“npy”文件。 训练作业如何使用cv2库读取文件。 如何在MXNet环境下使用torch包。 训练作业读取文件,出现如下报错: NotFoundError (see above for traceback):
invalid format”如何解决? 问题现象 原因分析 密钥文件内容不正确或格式不正确。 解决方法 请使用正确的密钥文件进行远程访问,如果本地没有正确的密钥文件或文件已损坏,可以尝试: 登录控制台,搜索“数据加密服务 DEW”,选择“密钥对管理 > 账号密钥对”页签,查看并下载正确的密钥文件。
准备训练模型适用的容器镜像。 预训练 预训练 介绍如何进行预训练,包括训练数据处理、超参配置、训练任务、性能查看。 微调训练 SFT全参微调 介绍如何进行SFT全参微调、超参配置、训练任务、性能查看。 LoRA微调训练 介绍如何进行LoRA微调、超参配置、训练任务、性能查看。 父主题: 主流开源大模型基于Lite
使用Grafana查看AOM中的监控指标 安装配置Grafana 配置Grafana数据源 配置仪表盘查看指标数据 父主题: ModelArts Standard资源监控
准备代码 软件配套版本 本方案支持的软件配套版本和依赖包获取地址如表1所示。 表1 软件配套版本和获取地址 软件名称 说明 下载地址 AscendCloud-6.3.910-xxx.zip 说明: 软件包名称中的xxx表示时间戳。 包含了本教程中使用到的推理部署代码和推理评测代码
如何在ModelArts的Notebook实例中使用ModelArts数据集? ModelArts上创建的数据集存放在OBS中,可以将OBS中的数据下载到Notebook中使用。 Notebook中读取OBS数据方式请参见如何在ModelArts的Notebook中上传下载OBS文件?。
查询Notebook实例详情 功能介绍 查询Notebook实例详情,可查询实例详细信息包括实例ID、名称、规格、镜像、实例状态和实例可打开的URL等。 接口约束 暂无约束 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成
service_url:服务接口地址,若服务部署在notebook中,该地址为"http://127.0.0.1:${port}/v1/completions";若服务部署在生产环境中,该地址由API接口公网地址与"/v1/completions"拼接而成,部署成功后的在线服务详情页中可查看API接口公网地址。
Turbo中的数据执行编辑操作。 预训练 预训练 介绍如何进行预训练,包括训练数据处理、超参配置、创建训练任务及性能查看。 微调训练 SFT全参微调 介绍如何进行SFT全参微调,包括训练数据处理、超参配置、创建训练任务及性能查看。 LoRA微调训练 介绍如何进行LoRA微调训练,包括训练数据处理、超参配置、创建训练任务及性能查看。
准备代码 软件配套版本 本方案支持的软件配套版本和依赖包获取地址如表1所示。 表1 软件配套版本和获取地址 软件名称 说明 下载地址 AscendCloud-6.3.911-xxx.zip 说明: 软件包名称中的xxx表示时间戳。 包含了本教程中使用到的推理部署代码和推理评测代码
准备训练模型适用的容器镜像。 预训练 预训练 介绍如何进行预训练,包括训练数据处理、超参配置、训练任务、性能查看。 微调训练 SFT全参微调 介绍如何进行SFT全参微调、超参配置、训练任务、性能查看。 LoRA微调训练 介绍如何进行LoRA微调、超参配置、训练任务、性能查看。 父主题: 主流开源大模型基于Lite
如何禁止Ubuntu 20.04内核自动升级? 场景描述 在Ubuntu 20.04每次内核升级后,系统需要重新启动以加载新内核。如果您已经安装了自动更新功能,则系统将自动下载和安装可用的更新,这可能导致系统在不经意间被重启,如果使用的软件依赖于特定版本的内核,那么当系统自动更新
占用内存,导致磁盘空间不足。 磁盘配额不足。 处理方法 查看虚拟机所使用的存储空间,再查看回收站文件占用内存,根据实际删除回收站里不需要的大文件。 在Notebook实例详情页,查看实例的存储容量。 执行如下命令,排查虚拟机所使用的存储空间,一般接近存储容量,请排查回收站占用内存。
创建Notebook失败,查看事件显示JupyterProcessKilled 问题现象 创建Notebook失败,查看事件显示JupyterProcessKilled。 图1 查看事件 原因分析 出现此故障是因为Jupyter进程被清理掉了,一般情况Notebook会自动重启的
18d93a088b0745d9d6,os架构是x86_64,修改链接为: https://update.code.visualstudio.com/commit:863d2581ecda6849923a2118d93a088b0745d9d6/server-linux-x64/stable