检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Cluster。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。 支持的模型列表和权重文件 本方案支持vLLM的v0.6.3版本。不同vLLM版本支持的模型列表有差异,具体如表1所示。 表1 支持的模型列表和权重获取地址 序号 模型名称 是否支持fp16/bf16推理 是否支持W4A16量化
容器共享内存过小 共享内存默认为64M,可按需修改 分布式训练时共享内存不足导致训练失败 - 方式一: 修改/etc/docker/daemon.json配置文件default-shm-size字段 方式二: docker run 命令中使用 --shm-size 参数来设置单个容器的共享内存大小
指定排序字段,可选“create_at”、“model_version”、“model_size”,默认是可选“create_at”。 order 否 String 排序方式,可选“asc”或“desc”,代表递增排序及递减排序,默认是“desc”。 workspace_id 否 String 工作空间ID,默认为“0”。
本文档中的模型运行环境是ModelArts Lite Server。 镜像适配的Cann版本是cann_8.0.rc2。 确保容器可以访问公网。 训练支持的模型列表 本方案支持以下模型的训练,如表1所示。 表1 支持的模型 序号 支持模型 支持模型参数量 1 llama2 llama2-7b
运行环境:6348(单核48U超线程) 性能指标:QPS 10/s(四进程) 性能约束:单次请求最大可以接受时延需小于1s 性能预期:QPS 20/s - 业务访问方式 推理业务访问:“客户端 -> 云服务” 或 “云客户端 -> 云服务”。 推理业务时延要求,客户端到云服务端到端可接受时延。 例如:当前是“客户端
Studio大模型即服务平台提供了丰富的开源大模型,在模型详情页可以查看模型的详细介绍,根据这些信息选择合适的模型进行训练、推理,接入到企业解决方案中。 访问模型广场 登录ModelArts管理控制台。 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。
#检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net.ipv4
startOrStopService 启停边缘服务节点 service startOrStopNodesService 添加用户访问密钥 service addAkSk 删除用户访问密钥 service deleteAkSk 创建专属资源池 cluster createCluster 删除专属资源池
startOrStopService 启停边缘服务节点 service startOrStopNodesService 添加用户访问密钥 service addAkSk 删除用户访问密钥 service deleteAkSk 创建专属资源池 cluster createCluster 删除专属资源池
g.py”文件中已有“c.ServerProxy.servers”字段,新增对应的key-value键值对即可。 适配JupyterLab访问地址。 在左侧导航打开“ vi /home/ma-user/work/grf/grafana-9.1.6/conf/defaults.ini”文件。
运行环境:6348(单核48U超线程) 性能指标:QPS 10/s(四进程) 性能约束:单次请求最大可以接受时延需小于1s 性能预期:QPS 20/s - 业务访问方式 推理业务访问:“客户端 -> 云服务” 或 “云客户端 -> 云服务”。 推理业务时延要求,客户端到云服务端到端可接受时延。 例如:当前是“客户端
rack:表示整柜。 表12 NodePoolStatus 参数 参数类型 描述 resources resources object 节点池中不同状态的资源量。 表13 resources 参数 参数类型 描述 creating PoolResourceFlavorCount object
制作自定义镜像。 场景三:通过预置的镜像创建Notebook实例,在预置镜像上安装对应的自定义软件和依赖,进而将运行的实例环境以容器镜像的方式保存下来。具体案例参考在Notebook中通过镜像保存功能制作自定义镜像。 Notebook自定义镜像规范 制作自定义镜像时,Base镜像需满足如下规范:
权重百分比,分配到此模型的流量权重,仅当infer_type为real-time时需要配置,多个权重相加必须等于100;当在一个在线服务中同时配置了多个模型版本且设置不同的流量权重比例时,持续地访问此服务的预测接口,ModelArts会按此权重比例将预测请求转发到对应的模型版本实例。 specification
rack:表示整柜。 表12 NodePoolStatus 参数 参数类型 描述 resources resources object 节点池中不同状态的资源量。 表13 resources 参数 参数类型 描述 creating PoolResourceFlavorCount object
表示训练类型。可选择值:[pretrain, sft, lora]。 DATA_TYPE GeneralPretrainHandler 示例值需要根据数据集的不同,选择其一。 GeneralPretrainHandler:使用预训练的alpaca数据集。 GeneralInstructionHandler:使用微调的alpaca数据集。
表示训练类型。可选择值:[pretrain, sft, lora]。 DATA_TYPE GeneralInstructionHandler 示例值需要根据数据集的不同,选择其一。 GeneralPretrainHandler:使用预训练的alpaca数据集。 GeneralInstructionHandler:使用微调的alpaca数据集。
speed。 -v ${work_dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录,目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。
权限”,单击右上角的“创建自定义策略”,设置策略,单击“确定”。 “策略名称”:设置自定义策略名称,例如:不允许用户使用公共资源池创建。 “策略配置方式”:选择可视化视图或者JSON视图均可。 “策略内容”:拒绝,云服务中搜索“ModelArts”服务并选中,“操作”中查找写操作“mode
在续费管理页面修改自动续费 进入“费用中心 > 续费管理”页面。 选择需要修改自动续费的专属资源池,单击操作列“修改自动续费”。 设置续费方式,选择续费时长,并根据需要设置自动续费次数,单击“确认”。 父主题: 续费