检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
背景说明 目前大模型的参数量已经达到千亿甚至万亿,随之大模型的体积也越来越大。千亿参数大模型的体积超过200G,在版本管理、生产部署上对平台系统产生了新的要求。例如:导入AI应用时,需要支持动态调整租户存储配额;模型加载、启动慢,部署时需要灵活的超时配置;当负载异常重启,模型需要重新加载,服务恢复时间长的问题亟待解决。
容的情况,例如transformers包,导致import的时候出现了错误。 用户代码问题,出现了内存越界、非法访问内存空间的情况。 未知系统问题导致,建议先尝试重建作业,重建后仍然失败,建议提工单定位。 处理方法 如果存在之前能跑通,什么都没修改,过了一阵跑不通的情况,先去排查
以下案例以缺失OBS权限不足为例,介绍如何进行授权操作。 由于ModelArts的使用权限依赖OBS服务的授权,您需要为用户授予OBS的系统权限。 如果您需要授予用户关于OBS的所有权限和ModelArts的基础操作权限,请参见配置基础操作权限。 如果您需要对用户使用OBS和M
nfs-common 获取SFS Turbo的挂载命令。 进入弹性文件服务SFS管理控制台。 选择“SFS Turbo”进入文件系统列表,单击文件系统名称,进入详情页面。 在“基本信息”页签获取并记录“Linux挂载命令”。 在ECS服务器中挂载NFS存储。 首先保证对应目录存在,然后输入对应指令即可。命令参考:
本文介绍开发环境场景下子账号所需的基本使用权限,您可参考权限清单新增对应业务场景的权限。示例场景为授权子账号使用Notebook进行调试,数据和代码存放在并行文件系统。以下内容需使用管理账号进行配置。 权限清单 权限 表1 开发环境所需权限 业务场景 依赖的服务 依赖策略项 支持的功能 配置建议 开发环境实例生命周期管理
print('OMPI_COMM_WORLD_SIZE: ' + os.environ['OMPI_COMM_WORLD_SIZE']) print('OMPI_COMM_WORLD_RANK: ' + os.environ['OMPI_COMM_WORLD_RANK'])
print('OMPI_COMM_WORLD_SIZE: ' + os.environ['OMPI_COMM_WORLD_SIZE']) print('OMPI_COMM_WORLD_RANK: ' + os.environ['OMPI_COMM_WORLD_RANK'])
pip源中不存在该包,当前默认pip源为pypi.org中的包,请在pypi.org中查看是否有对应版本的包并查看包安装限制。 下载的包与对应基础镜像架构不匹配,如arm系统下载了x86的包,python2版本的pip下载了python3的包。具体基础镜像运行环境请参见推理基础镜像列表。 安装pip包有先后依赖关系。
设置在线服务故障自动重启 场景描述 当系统检测到Snt9b硬件故障时,自动复位Snt9B芯片并重启推理在线服务,提升了推理在线服务的恢复速度。 约束限制 仅支持使用Snt9b资源的同步在线服务。 只支持针对整节点资源复位,请确保部署的在线服务为8*N卡规格,请谨慎评估对部署在该节点的其他服务的影响。
PYTHONPATH=${MA_JOB_DIR}:${PYTHONPATH} 选择的启动文件将会被系统自动以python命令直接启动,因此请确保镜像中的Python命令为您预期的Python环境。通过系统自动注入的PATH环境变量,可以参考下述命令确认训练作业最终使用的Python版本。 export
查看在线服务的事件 服务的(从用户可看见部署服务任务开始)整个生命周期中,每一个关键事件点在系统后台均有记录,用户可随时在对应服务的详情页面进行查看。 方便用户更清楚的了解服务部署和运行过程,遇到任务异常时,更加准确的排查定位问题。可查看的事件点包括: 表1 事件 事件类型 事件
Host ModelArts-xx …… ServerAliveInterval 3600 # 增加这个配置,单位是秒,每1h向服务端主动发个包 ServerAliveCountMax 3 # 增加这个配置,3次发包均无响应会断开连接 比如防
智能标注失败,如何处理? 当前智能标注为免费使用阶段,当系统的标注任务过多时,因免费资源有限,导致任务失败,请您重新创建智能标注任务或建议您避开高峰期使用。 智能标注时间过长,如何处理? 当前智能标注为免费使用阶段,当系统的标注任务过多时,因免费资源有限,需要排队,您的标注任务会
Host ModelArts-xx …… ServerAliveInterval 3600 # 增加这个配置,单位是秒,每1h向服务端主动发个包 ServerAliveCountMax 3 # 增加这个配置,3次发包均无响应会断开连接 比如防
导入AI应用对于镜像大小的限制 ModelArts部署使用的是容器化部署,容器运行时有空间大小限制,当用户的模型文件或者其他自定义文件,系统文件超过容器引擎空间大小时,会提示镜像内空间不足。 当前,公共资源池容器引擎空间的大小最大支持50G,专属资源池容器引擎空间的默认为50G,
名称或所在目录,导入文件的列数需与数据集schema一致。MRS的详细功能说明,请参考MRS用户指南。 图1 从MRS导入数据 集群名称:系统自动将当前账号下的MRS集群展现在此列表中,但是流式集群不支持导入操作。请在下拉框中选择您所需的集群。 文件路径:根据选择的集群,输入对应的文件路径,此文件路径为HDFS路径。
如果资源中存在游离节点,即没有被纳管到资源池中的节点,可在“AI专属资源池 > 弹性集群Cluster >节点”下查看此类节点的相关信息。 系统支持对游离节点进行续费、退订、开通/修改自动续费、添加/编辑资源标签、删除资源标签、搜索等操作。 续费/开通自动续费/修改自动续费 对于包
如果资源中存在游离节点,即没有被纳管到资源池中的节点,可在“AI专属资源池 > 弹性集群Cluster >节点”下查看此类节点的相关信息。 系统支持对游离节点进行续费、退订、开通/修改自动续费、添加/编辑资源标签、删除资源标签、搜索等操作。 续费/开通自动续费/修改自动续费 对于包
本文旨在指导客户将已有的推理业务迁移到昇腾设备上运行(单机单卡、单机多卡),并获得更好的推理性能收益。 ModelArts针对上述使用场景,在给出系统化推理业务昇腾迁移方案的基础上,提供了即开即用的云上集成开发环境,包含迁移所需要的算力资源和工具链,以及具体的Notebook代码运行示例
码。所导入表的schema(列名和类型)需要跟数据集相同。DWS的详细功能说明,请参考DWS用户指南。 图1 从DWS导入数据 集群名称:系统自动将当前账号下的DWS集群展现在列表中,您可以在下拉框中选择您所需的DWS集群。 数据库名称:根据选择的DWS集群,填写数据所在的数据库名称。