检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 场景描述 ranktable路由规划是一种用于分布式并行训练中的通信优化能力,在使用NPU的场景下,支持对节点之间的通信路径根据交换机实际topo做网络路由亲和规划,进而提升节点之间的通信速度。 本案例介绍如何在ModelArts
网络调整公告 ModelArts针对网络进行安全加固和优化,新的网络模式可以为用户的资源提供更好的隔离性,提升云上资源的安全。为保障您的网络安全,建议您后续使用新网络创建Standard资源池。 表1 上线局点 上线局点 上线时间 华东二 2024年10月29日 20:00 父主题:
机器翻译、文本分类等任务。 AIGC 提供AIGC场景化解决方案,辅助创作文案、图像、音视频等数字内容。 自动驾驶 实现车辆自主感知环境、规划路径和控制行驶。支持自动驾驶场景PB级数据下模型高效训练,助力自动驾驶特有的感知、规控、仿真生成等全链路相关算法深度优化并快速迭代。 内容审核
H 【预训练:pt】预训练数据集相对或绝对地址 【微调:sft】微调数据集相对或绝对地址 【必改】训练时指定的输入原始数据路径。请根据实际规划修改。用户根据训练情况二选一; USER_PROCESSED_DATA_DIR /home/ma-user/ws/process_data
H 【预训练:pt】预训练数据集相对或绝对地址 【微调:sft】微调数据集相对或绝对地址 【必改】训练时指定的输入原始数据路径。请根据实际规划修改。用户根据训练情况二选一; USER_PROCESSED_DATA_DIR /home/ma-user/ws/process_data
必须修改。训练时指定的输入数据路径。请根据实际规划修改。 ORIGINAL_HF_WEIGHT /home/ma-user/work/model/llama-2-13b-chat-hf 必须修改。加载tokenizer与Hugging Face权重时,对应的存放地址。请根据实际规划修改。 对于ChatG
资源购买 购买弹性文件服务SFS 弹性文件服务默认为按需计费,即按购买的存储容量和时长收费。您也可以购买包年包月套餐,提前规划资源的使用额度和时长。在欠费时,您需要及时(15天之内)续费以避免您的文件系统资源被清空。SFS购买指导请参考如何购买弹性文件服务?。 购买容器镜像服务SWR
现。 更加完善的集群信息:全新改版的专属资源池详情页面中,提供了作业、节点、资源监控等更加全面的集群信息,可帮助您及时了解集群现状,更好的规划使用资源。 自助管理集群GPU/NPU驱动:每个用户对集群的驱动要求不同,在新版专属资源池列表页中,可自行选择加速卡驱动,并根据业务需要进行立即变更或平滑升级。
为了避免因网络下载不稳定而产生不必要的困扰,建议开发者合理安排下载时间,尽量避开高峰时段。同时,对于一些对下载速度有较高要求的场景,建议提前做好规划,或者考虑使用其他备选方案。 父主题: Standard Notebook
#原始权重/tokenizer目录,用户手动创建,用户根据实际规划目录修改,后续操作步骤中会提示 |── Qwen2-72B # 输出权重及日志路径,用户可根据实际自行规划,无需手动创建,此路径对应表1表格中output_dir参数值 |── saved_dir_for_output_lf
#原始权重/tokenizer目录,用户手动创建,用户根据实际规划目录修改,后续操作步骤中会提示 |── Qwen2-72B # 输出权重及日志路径,用户可根据实际自行规划,无需手动创建,此路径对应表1表格中output_dir参数值 |── saved_dir_for_output_lf
#原始权重/tokenizer目录,用户手动创建,用户根据实际规划目录修改,后续操作步骤中会提示 |── Qwen2-72B # 输出权重及日志路径,用户可根据实际自行规划,无需手动创建,此路径对应表1表格中output_dir参数值 |── saved_dir_for_output_lf
#原始权重/tokenizer目录,用户手动创建,用户根据实际规划目录修改,后续操作步骤中会提示 |── Qwen2-72B # 输出权重及日志路径,用户可根据实际自行规划,无需手动创建,此路径对应表1表格中output_dir参数值 |── saved_dir_for_output_lf
#原始权重/tokenizer目录,用户手动创建,用户根据实际规划目录修改,后续操作步骤中会提示 |── Qwen2-72B # 输出权重及日志路径,用户可根据实际自行规划,无需手动创建,此路径对应表1表格中output_dir参数值 |── saved_dir_for_output_lf
权限管理 ModelArts作为一个完备的AI开发平台,支持用户对其进行细粒度的权限配置,以达到精细化资源、权限管理之目的。这类特性在大型企业用户的使用场景下很常见,但对个人用户则显得复杂而意义不足,所以建议个人用户在使用ModelArts时,参照配置访问授权来进行初始权限设置。
必须修改。训练时指定的输入数据路径。请根据实际规划修改。 ORIGINAL_HF_WEIGHT /home/ma-user/work/model/llama-2-13b-chat-hf 必须修改。加载tokenizer与Hugging Face权重时,对应的存放地址。请根据实际规划修改。 对于ChatG
上,出现该错误日志, 并不会造成数据丢失, 只是SFS客户端I/O速度变慢或卡顿,但最终会争取处理。 处理方法 结合当前购买的SFS盘性能规划业务, 建议不要运行到性能上限。 可以购买多个SFS Turbo实例分担业务压力, 或者更换高性能的SFS盘。 一个SFS实例容量建议不要
Cluster资源使用 在Lite Cluster资源池上使用Snt9B完成分布式训练任务 在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 在Lite Cluster资源池上使用Snt9B完成推理任务
中的所有存储路径,主要分为以下两个功能: 输入目录管理:开发者在编辑开发工作流时可以对所有数据的存储路径做统一管理,规定用户按照自己的目录规划来存放数据,而存储的根目录可以根据用户自己的需求自行配置。该方式只做目录的编排,不会自动创建新的目录。 输出目录管理:开发者在编辑开发工作
可能影响ModelArts侧基本功能,包括但不限于节点管理、扩缩容、驱动升级、带本地盘机型的本地盘数据丢失等。 高 不可恢复。 修改网络安全组 可能影响ModelArts侧基本功能,包括但不限于节点管理、扩缩容、驱动升级等。 中 改回原有内容。 网络 修改/删除集群关联网段。