检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
- image: swr.xxxxxx.com/xxxx/custom_pytorch_npu:v1 # 镜像地址,根据实际场景修改 imagePullPolicy: IfNotPresent
iam:users:listUsers iam:projects:listProjects vpc.*.list eps.*.list evs.*.list ims.*.list ims.*.get √ × 查询DevServer实例列表 GET /v1/{project_id}/dev-servers mod
常见错误原因和解决方法 显存溢出错误 网卡名称错误 联网下载SimSun.ttf时可能会遇到网络问题 在运行finetune_ds.sh 时遇到报错 父主题: Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.912)
在ModelArts的Notebook中如何使用pandas库处理OBS桶中的数据? 参考下载OBS文件到Notebook中的指导,将OBS中的数据下载至Notebook本地处理。 参考pandas用户指南处理pandas数据。 父主题: Standard Notebook
运行训练代码,出现dead kernel,并导致实例崩溃 如何解决训练过程中出现的cudaCheckError错误? 如何处理使用opencv.imshow造成的内核崩溃? 使用Windows下生成的文本文件时报错找不到路径? 创建Notebook文件后,右上角的Kernel状态为“No
Git插件,可连接此Notebook实例关联的Github代码库。 表2 插件栏常用插件说明 插件 说明 文件列表。单击此处,将展示此Notebook实例下的所有文件列表。 当前实例中正在运行的Terminal和Kernel。 Git插件,可以方便快捷地使用Github代码库。 属性检查器。 文档结构图。 图14
String batch服务类型必选。批量任务中调用的推理接口,即模型镜像中暴露的REST接口,需要从模型的config.json文件中选取一个api路径用于此次推理;如使用ModelArts提供的预置推理镜像,则此接口为/。 mapping_type 否 String batc
{"mnist_result": 7} 在上面的代码示例中,完成了将用户表单输入的图片的大小调整,转换为可以适配模型输入的shape。首先通过Pillow库读取“32×32”的图片,调整图片大小为“1×784”以匹配模型输入。在后续处理中,转换模型输出为列表,用于Restful接口输出展示。 自定义推理逻辑的推理脚本示例
动态分档模型转换需要使用配置文件,指定输入格式为“ND”,并在config文件中配置ge.dynamicDims和input_shape使用,在input_shape中将输入shape的动态维度设为-1,并在ge.dynamicDims中指定动态维度的档位,更多配置项可以参考官方文档。 如果网络模型只有一个输入
qwen.tiktoken ├── README.md ├── tokenization_qwen.py # 需要修改代码 ├── SimSun.ttf # 需要手动下载 ├── tokenizer_config.json └── visual.py 对于
qwen.tiktoken ├── README.md ├── tokenization_qwen.py # 需要修改代码 ├── SimSun.ttf # 需要手动下载 ├── tokenizer_config.json └── visual.py 对于
要对应的数据库名、表名以及用户名和密码。所导入表的schema(列名和类型)需要跟数据集相同。DWS的详细功能说明,请参考DWS用户指南。 图1 从DWS导入数据 集群名称:系统自动将当前账号下的DWS集群展现在列表中,您可以在下拉框中选择您所需的DWS集群。 数据库名称:根据选
数据库名称:根据选择的队列展现所有的数据库,请在下拉框中选择您所需的数据库。 表名称:根据选择的数据库展现此数据库中的所有表。请在下拉框中选择您所需的表。 DLI的default队列只用作体验,不同账号间可能会出现抢占的情况,需进行资源排队,不能保证每次都可以得到资源执行相关操作。 DLI支
读取文件报错,如何正确读取文件 问题现象 创建训练作业如何读取“json”和“npy”文件。 训练作业如何使用cv2库读取文件。 如何在MXNet环境下使用torch包。 训练作业读取文件,出现如下报错: NotFoundError (see above for traceback):
numpy to >= xxx to use this pandas version” 问题现象 在安装其他包的时候,有依赖冲突,对numpy库有其他要求,但是发现numpy卸载不了。出现如下类似错误: your numpy version is 1.14.5.Please upgrade
上传数据至OBS,具体操作请参见上传文件至OBS桶。 将OBS中的数据传至Notebook中,通过在本地IDE的Terminal中使用ModelArts提供的Moxing库的文件操作API(mox.file.copy_parallel)完成。 在PyCharm环境中开启Terminal,VS Code中操作类似。
Compare工具比对GPU训练脚本和NPU训练脚本之间是否存在差异。例如是否GPU环境下开启了FA但是NPU上未开启FA。 三方库版本比对 大模型训练通常会使用Deepspeed、Megatron等三方库,需要确保这些三方库的版本一致。 环境版本更新 这一项仅在条件允许的情况下进行,根据精度问题定位经验,部分问题是
托管数据集到AI Gallery AI Gallery上每个资产的文件都会存储在线上的AI Gallery存储库(简称AI Gallery仓库)里面。每一个数据集实例视作一个资产仓库,数据集实例与资产仓库之间是一一对应的关系。例如,模型名称为“Test”,则AI Gallery仓
调优完成后,默认将AOE生成的知识库保存在“/root/Ascend/latest/data/aoe”路径下,同时会在aoe_output路径下输出对应的mindir模型,由于当前模型并没有吸收知识库信息,所以性能不佳,因此需要在保留AOE知识库的情况下,再次进行转换,以达到较优性能。
这些可用区通过延迟低、吞吐量高且冗余性高的网络连接在一起。利用可用区,您可以设计和操作在可用区之间无中断地自动实现故障转移的应用程序和数据库。与传统的单个或多个数据中心基础设施相比,可用区具有更高的可用性、容错性和可扩展性。 ModelArts通过对DB的数据进行备份,保证在原数据被破坏或损坏的情况下可以恢复业务。