检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
perchannel的量化形式,使用W8A16的量化不仅可以保证精度在可接受的范围内,同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见表3。 本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ (huggingface.co)量化模型权重,然后在NPU的机器上实现推理量化。 具体操作如下:
不仅可以保证精度在可接受的范围内,同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见支持的模型列表和权重文件。 本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ (huggingface.co)量化模型权重,然后在NPU的机器上实现推理量化。 具体操作如下:
不仅可以保证精度在可接受的范围内,同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见支持的模型列表和权重文件。 本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ (huggingface.co)量化模型权重,然后在NPU的机器上实现推理量化。 具体操作如下:
Server资源时如果无可选资源规格,需要联系华为云技术支持申请开通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后,检查NPU设
最优性能的配置 支持的模型列表 本方案支持以下模型的训练,如表1所示。 表1 支持的模型列表 序号 支持模型 支持模型参数量 权重文件获取地址 1 llama2 llama2-7b https://huggingface.co/meta-llama/Llama-2-7b-chat-hf
${container_model_path}:模型地址,模型格式是HuggingFace的目录格式。即上传的HuggingFace权重文件存放目录。如果使用了量化功能,则使用量化章节转换后的权重。如果使用的是训练后模型转换为HuggingFace格式的地址,还需要有Tokenizer原始文件。
购买Server资源时如果无可选资源规格,需要联系华为云技术支持申请开通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后,检查NPU卡
${container_model_path}:模型地址,模型格式是HuggingFace的目录格式。即上传的HuggingFace权重文件存放目录。如果使用了量化功能,则使用量化章节转换后的权重。如果使用的是训练后模型转换为HuggingFace格式的地址,还需要有Tokenizer原始文件。
会话对象,初始化方法请参考Session鉴权。 offset 否 Integer 查询作业的偏移量,最小为0。例如设置为1,则表示从第二条开始查。 limit 否 Integer 查询作业的限制量。最小为1,最大为50。 sort_by 否 String 查询作业排列顺序的指标。默认使用create_time排序。
通过SSH登录,不同机器之间网络互通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 检查环境。 SSH登录机器后,
不支持图片动态维度,如果图片不是(1,336,336)shape,将会被resize。 --image-feature-size:图片输入解析维度大小;llava-v1.6图片输入维度与image-feature-size关系映射表见git;计算原理如下: 最小处理单元为14*14
程,再开始操作购买Cluster资源。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 购买专属资源池注意事项 使用场景需要选择ModelArts
选择优先级1和2,配置了“设置作业为高优先级权限”的用户可选择优先级1~3。 如何设置训练作业优先级 在创建训练作业页面可以设置训练的“作业优先级”。取值为1~3,默认优先级为1,最高优先级为3。 如何修改训练作业优先级 在训练作业列表页面,选择“状态”为“等待中”的训练作业。 单击训练作业名称,进入详情页面。
程,再开始操作购买Cluster资源。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 购买专属资源池注意事项 使用场景需要选择ModelArts
程,再开始操作购买Cluster资源。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 购买专属资源池注意事项 使用场景需要选择ModelArts
程,再开始操作购买Cluster资源。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 购买专属资源池注意事项 使用场景需要选择ModelArts
processes”或“Buildimge,False,Error response from daemon,Cannot pause container xxx”如何解决? 问题现象 在Notebook里保存镜像时报错“there are processes in 'D' status, please check
execution_code String 执行代码存放的OBS地址,名称固定为“customize_service.py”。 schema_doc String 模型schema文档的下载地址。 image_address String 模型打包后的镜像地址。 output_params Array
常见问题 首次使用ModelArts如何配置授权? 直接选择“新增委托”中的“普通用户”权限即可,普通用户包括用户使用ModelArts完成AI开发的所有必要功能权限,如数据的访问、训练任务的创建和管理等。一般用户选择此项即可。 如何获取访问密钥AK/SK? 如果在其他功能(
程,再开始操作购买Cluster资源。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 购买专属资源池注意事项 使用场景需要选择ModelArts