检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
vpc_id String 实例所在虚拟私有云ID。 endpoints Array of EndpointsRes objects 服务器的私有IP信息。 image ServerImageResponse object 服务器镜像信息。
vpc_id String 实例所在虚拟私有云ID。 endpoints Array of EndpointsRes objects 服务器的私有IP信息。 image ServerImageResponse object 服务器镜像信息。
expandable_segments-使能内存池扩展段功能,即虚拟内存特性。 ${RANKTABLEFILE}:rank_table_file.json文件挂载到容器中的地址${container_work_dir}/rank_table_file.json。
登录服务器,激活python虚拟环境。 conda activate [env_name] # 例如使用conda管理python环境(需要确认环境已安装Anaconda) 在python环境中安装CLI工具。 pip install .
注意:创建的ECS虚拟机使用ARM镜像创建。 图1 购买ECS 安装Docker。 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。
注意:创建的ECS虚拟机使用ARM镜像创建。 图1 购买ECS 安装Docker。 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。
your pool id", # 专属资源池id train_instance_type="modelarts.pool.visual.xlarge", # 专属池的虚拟子规格
是,demo.sh添加变量; export PYTORCH_NPU_ALLOC_CONF = expandable_segments:False 否,demo.sh添加变量,开启虚拟显存。
SMN FullAccess 可选 VPC虚拟私有云 子用户在创建ModelArts的专属资源池过程中,如果需要开启自定义网络配置,需要配置VPC权限。
export VLLM_IMAGE_FETCH_TIMEOUT=100 export VLLM_ENGINE_ITERATION_TIMEOUT_S=600 # PYTORCH_NPU_ALLOC_CONF优先设置为expandable_segments:True # 如果有涉及虚拟显存相关的报错
scripts_llamafactory下修改启动脚本,其中{work_dir}为容器挂载路径 ①是否为PPO强化训练; 是,demo.sh添加变量; export PYTORCH_NPU_ALLOC_CONF = expandable_segments:False 否,demo.sh添加变量,开启虚拟显存
pip install galleryformers 建议在虚拟环境(Python 3.8+)中安装AI Gallery SDK,以便管理不同的项目,避免依赖项之间产生兼容性问题。 构建自定义模型。 编写自定义配置类。
PYTORCH_NPU_ALLOC_CONF=expandable_segments:False;llava多卡启动时需要关闭虚拟内存扩展;开启时可能提升模型性能。允许分配器最初创建一个段,然后在以后需要更多内存时扩展它的大小。
PYTORCH_NPU_ALLOC_CONF=expandable_segments:False;llava多卡启动时需要关闭虚拟内存扩展;开启时可能提升模型性能。允许分配器最初创建一个段,然后在以后需要更多内存时扩展它的大小。
vpc_id String 在线服务实例所在的虚拟私有云ID,服务自定义网络配置时返回。 subnet_network_id String 在线服务实例所在的子网的网络ID,服务自定义网络配置时返回。
export VLLM_IMAGE_FETCH_TIMEOUT=100 export VLLM_ENGINE_ITERATION_TIMEOUT_S=600 # PYTORCH_NPU_ALLOC_CONF优先设置为expandable_segments:True # 如果有涉及虚拟显存相关的报错
export VLLM_IMAGE_FETCH_TIMEOUT=100 export VLLM_ENGINE_ITERATION_TIMEOUT_S=600 # PYTORCH_NPU_ALLOC_CONF优先设置为expandable_segments:True # 如果有涉及虚拟显存相关的报错
虚拟私有云:默认为CCE集群所在VPC网络,不可修改。 节点子网:选择同一VPC网络下的子网作为节点子网,新创建的节点将会使用该子网资源。 关联安全组:用于指定节点池创建出来的节点使用的安全组。最多选择4个安全组。节点安全组需要放通一些端口以保障节点通信。
PYTORCH_NPU_ALLOC_CONF=expandable_segments:False;llava多卡启动时需要关闭虚拟内存扩展;开启时可能提升模型性能。允许分配器最初创建一个段,然后在以后需要更多内存时扩展它的大小。
PYTORCH_NPU_ALLOC_CONF=expandable_segments:False;llava多卡启动时需要关闭虚拟内存扩展;开启时可能提升模型性能。允许分配器最初创建一个段,然后在以后需要更多内存时扩展它的大小。