检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注意:CPU架构必须选择鲲鹏计算,镜像推荐选择EulerOS。 图1 购买ECS Step2 创建镜像组织 在SWR服务页面创建镜像组织。 图2 创建镜像组织 Step3
整代码示例,供用户学习参考。 训练流程简述 相比于DP,DDP能够启动多进程进行运算,从而大幅度提升计算资源的利用率。可以基于torch.distributed实现真正的分布式计算,具体的原理此处不再赘述。大致的流程如下: 初始化进程组。 创建分布式并行模型,每个进程都会有相同的模型和参数。
已注册华为账号并开通华为云,且在使用ModelArts前检查账号状态,账号不能处于欠费或冻结状态。 配置委托访问授权 ModelArts使用过程中涉及到OBS、SWR、IEF等服务交互,首次使用ModelArts需要用户配置委托授权,允许访问这些依赖服务。 使用华为云账号登录Model
查询节点列表 功能介绍 查询资源池中的节点列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/pools/{pool_name}/nodes
查询OS的配额 功能介绍 获取ModelArts OS服务中部分资源的配额,如资源池配额、网络配额等。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1
给出置信度最高的5类商品的置信度得分。 步骤1:准备工作 已注册华为账号并开通华为云,进行了实名认证,且在使用ModelArts前检查账号状态,账号不能处于欠费或冻结状态。 注册华为账号并开通华为云 进行实名认证 配置委托访问授权 ModelArts使用过程中涉及到OBS、SWR
中处理并进行提炼,从而总结得到研究对象的内在规律。 对数据进行分析,一般通过使用适当的统计、机器学习、深度学习等方法,对收集的大量数据进行计算、分析、汇总和整理,以求最大化地开发数据价值,发挥数据作用。 AI开发的基本流程 AI开发的基本流程通常可以归纳为几个步骤:确定目的、准备数据、训练模型、评估模型、部署模型。
重置节点后无法正常使用? 问题现象 当ModelArts Lite的CCE集群在资源池上只有一个节点,且用户设置了volcano为默认调度器时,在ModelArts侧进行重置节点的操作后,节点无法正常使用,节点上的POD会调度失败。 原因分析 在ModelArts侧进行节点重置后
键字、系统日志过滤能力。 预览 系统日志窗口提供训练日志预览功能,如果训练作业有多个节点,则支持查看不同计算节点的日志,通过右侧下拉框可以选择目标节点预览。 图4 查看不同计算节日志 当日志文件过大时,系统日志窗口仅加载最新的部分日志,并在日志窗口上方提供全量日志访问链接。打开该链接可在新页面查看全部日志。
将模型权重的梯度数据导出。这种功能可以将模型权重的梯度值以统计量的形式采集出来,用以分析问题,例如检测确定性问题,使用训练状态监控工具监控NPU训练过程中的确定性计算问题。 将两份梯度数据进行相似度对比。在有标杆问题中,可以确认训练过程中精度问题出现的Step,以及抓取反向过程中的问题。 使用步骤如下:
显存以及需要部署的资源依赖,减小推理过程中的计算量,降低增量推理时延,提升吞吐。 FASP (Fast and Accurate Structured Pruning) 一种针对LLM进行结构化剪枝的算法,可以减少大模型对于内存和计算资源的需求,提升推理速度,同时其具备比较高的剪
修复节点 授权运维 华为云技术支持在故障定位和性能诊断时,部分运维操作需要用户授权才可进行。您可在资源池详情页的节点页签下,找到对应节点,在操作列单击“更多 > 授权”,在弹出的提示框中单击“确认”即可完成授权。 图3 授权 正常情况下,该授权按钮为置灰状态。当华为云技术支持发起运维申请后,按钮会变为可点状态。
Standard资源池节点故障定位 节点故障定位 对于Standard资源池,ModelArts平台在识别到节点故障后,通过给K8S节点增加污点的方式(taint)将节点隔离避免新作业调度到该节点而受到影响,并且使本次作业不受污点影响。当前可识别的故障类型如下,可通过隔离码及对应检测方法定位故障。
而且,由于实现过程差异,不同硬件对于同样的计算过程,数值计算结果通常会有差异,比如GPU和CPU之间,GPU各版本之间,数值计算结果都有一定差异,在特定的容限范围内,不会影响模型的最终收敛。所以,计算的数值差异是很常规的现象,并非错误。 为了更好地了解这种计算差异,并且能够正确区分正常计算差异和引起模型精
自动续费可以减少手动续费的管理成本,避免因忘记手动续费而导致ModelArts中专属资源池不能使用。自动续费的规则如下所述: 以专属资源池的到期日计算第一次自动续费日期和计费周期。 专属资源池自动续费周期以您选择的续费时长为准。例如,您选择了3个月,专属资源池即在每次到期前自动续费3个月。
服务预测请求内容过大时,会因数据处理慢导致请求超时,优化预测代码,缩短预测时间。 推理速度与模型复杂度强相关,优化模型,缩短预测时间。 扩容实例数或者选择性能更好的“计算节点规格”,例如使用GPU资源代替CPU资源,提升服务处理能力。 服务出错 报错:{"error_code": "ModelArts.4503"
配置多分支节点数据 功能介绍 仅用于存在多分支执行的场景,在编写构建工作流节点时,节点的数据输入来源暂不确定,可能是多个依赖节点中任意一个节点的输出。只有当依赖节点全部执行完成后,才会根据实际执行情况自动获取有效输出作为输入。 使用案例 from modelarts import
保云服务的安全性和可靠性而设计的。 根据责任共担模型,云服务提供商和云服务客户各自有一些责任。云服务提供商负责管理云基础架构,提供安全的硬件和软件基础设施,并确保云基础架构的可用性。而云服务客户则需要负责保护自己的数据和应用程序,以及遵守相关的合规性要求。 具体而言,云服务提供商应该提供以下服务和功能:
Cluster资源池节点故障如何定位 故障说明和处理建议 图1 Lite池故障处理流程 对于ModelArts Lite资源池,每个节点会以DaemonSet方式部署node-agent组件,该组件会检测节点状态,并将检测结果写到K8S NodeCondtition中。同时,节点
获取Workflow工作流节点度量信息 功能介绍 获取Workflow工作流节点的度量信息。 接口约束 无 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /