检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过VPN和云连接构建跨境网络连接 方案概述 资源和成本规划 实施步骤(手动) 父主题: 站点入云VPN经典版
是否可以通过VPN实现跨境访问网站? 您咨询的场景不属于此范畴。 VPN实现的是将云上的VPC子网和用户侧数据中心的IDC网络打通的场景,即站点与站点互通(site to site)。 父主题: 热点问题
是否可以通过VPN实现跨境访问网站? 您咨询的场景不属于此范畴。 VPN实现的是将云上的VPC子网和用户侧数据中心的IDC网络打通的场景,即站点与站点互通(site to site)。 父主题: 产品咨询
是否可以通过VPN实现跨境访问网站? 不可以。 VPN实现的是将云上的VPC子网和用户侧数据中心的IDC网络打通的场景,即站点与站点互通(site to site)。 父主题: 产品咨询
是否可以通过VPN实现跨境访问网站? 不可以。 VPN实现的是将云上的VPC子网和用户侧数据中心的IDC网络打通的场景,即站点与站点互通(site to site)。 父主题: 组网与使用场景
是否可以通过VPN实现跨境访问网站? 您咨询的场景不属于此范畴。 VPN实现的是将云上的VPC子网和用户侧数据中心的IDC网络打通的场景,即站点与站点互通(site to site)。 父主题: 组网与使用场景
是否可以通过VPN实现跨境访问网站? 不可以。 VPN实现的是将云上的VPC子网和用户侧数据中心的IDC网络打通的场景,即站点与站点互通(site to site)。 父主题: 热点问题
开发环境提供的预置镜像版本是依据用户反馈和版本稳定性决定的。当用户的功能开发基于ModelArts提供的版本能够满足的时候,建议用户使用预置镜像,这些镜像经过充分的功能验证,并且已经预置了很多常用的安装包,用户无需花费过多的时间来配置环境即可使用。 开发环境提供的预置镜像主要包含:
安装远端插件时不稳定,需尝试多次 方法一:离线包安装方式(推荐) 到VS Code插件官网vscode_marketplace搜索待安装的Python插件,Python插件路径。 单击进入Python插件的Version History页签后,下载该插件的离线安装包,如图所示。 图1
有错误,提供的失败可能原因仅供参考。针对分布式作业,只会显示当前节点的一个分析结果,作业的失败需要综合各个节点的失败原因做一个综合判断。 常见训练问题定位思路如下: 根据日志界面提示中提供的分析建议解决。 参考案例解决:会提供当前故障对应的指导文档链接,请参照文档中的解决方案修复问题。
模型训练高可靠性 训练作业容错检查 训练日志失败分析 训练作业卡死检测 训练作业重调度 设置断点续训练 设置无条件自动重启 父主题: 使用ModelArts Standard训练模型
存储路径。 如果type为“obs”类型,该值必须填写,该值需为有效的OBS桶路径,且以“/”结束。不能指定为OBS桶的根目录,需指定为OBS桶下的具体目录。 如果type为“obsfs”类型,该值需为有效的OBS并行文件系统的桶名(当前CCE不支持挂载子目录)。 如果type为“evs”类型,该值不需要填写。
设置无条件自动重启 背景信息 训练过程中可能会碰到预期外的情况导致训练失败,且无法及时重启训练作业,导致训练周期长,而无条件自动重启可以避免这类问题。无条件自动重启是指当训练作业失败时,不管什么原因系统都会自动重启训练作业,提高训练成功率和提升作业的稳定性。为了避免无效重启浪费算力资源,系统最多只支持连续无条件重启3次。
阶段。 资源利用率:在作业进程IO没有变化的情况下,采集一定时间段内的GPU利用率或NPU利用率,并根据这段时间内的GPU利用率或NPU利用率的方差和中位数来判断资源使用率是否有变化。如果没有变化,则判定作业卡死。 系统预置了卡死检测的环境变量“MA_HANG_DETECT_TI
补充健康的计算节点至专属资源池。(该功能即将上线) 容错检查详细介绍请参考: 开启容错检查 检测项目与执行条件 触发容错环境检测达到的效果 环境预检查通过后,如果发生硬件故障会导致用户业务中断。您可以在训练中补充reload ckpt的代码逻辑,使能读取训练中断前保存的预训练模型。指导请参考设置断点续训练。
卡死等)导致训练作业还未完成就被中断,下一次训练可以在上一次的训练基础上继续进行。这种方式对于需要长时间训练的模型而言比较友好。 断点续训练是通过checkpoint机制实现。 checkpoint的机制是:在模型训练的过程中,不断地保存训练结果(包括但不限于EPOCH、模型权重
了训练作业的启停情况。 在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。 在训练作业列表中,单击作业名称进入训练作业详情页面。 在训练作业详情页面,单击“故障恢复详情”页签查看故障恢复信息。 图1 查看故障恢复详情 父主题: 模型训练高可靠性
要长时间训练的模型的稳定性和可靠性,避免重头训练耗费的时间与计算成本 支持训练数据使用SFS Turbo文件系统进行数据挂载,训练作业产生的中间和结果等数据可以直接高速写入到SFS Turbo缓存中,并可被下游业务环节继续读取并处理,结果数据可以异步方式导出到关联的OBS对象存储
OBS连接不稳定可能会出现报错,“Unable to connect to endpoint”。 处理方法 对于OBS连接不稳定的现象,通过增加代码来解决。您可以在代码最前面增加如下代码,让TensorFlow对ckpt和summary的读取和写入可以通过本地缓存的方式中转解决:
Point)和FP16(Float16)都是使用的半精度浮点数格式,但它们在结构和适用性上有一些重要的区别。 BF16:具有8个指数位和7个小数位。在处理大模型时有优势,能够避免在训练过程中数值的上溢或下溢,从而提供更好的稳定性和可靠性,在大模型训练和推理以及权重存储方面更受欢迎。
Point)和FP16(Float16)都是使用的半精度浮点数格式,但它们在结构和适用性上有一些重要的区别。 BF16:具有8个指数位和7个小数位。在处理大模型时有优势,能够避免在训练过程中数值的上溢或下溢,从而提供更好的稳定性和可靠性,在大模型训练和推理以及权重存储方面更受欢迎。
Point)和FP16(Float16)都是使用的半精度浮点数格式,但它们在结构和适用性上有一些重要的区别。 BF16:具有8个指数位和7个小数位。在处理大模型时有优势,能够避免在训练过程中数值的上溢或下溢,从而提供更好的稳定性和可靠性,在大模型训练和推理以及权重存储方面更受欢迎。
障存储在ModelArts中的数据安全可靠。 数据保护手段 说明 静态数据保护 对于AI Gallery收集的用户个人信息中的敏感信息,如用户邮箱和手机号,AI Gallery在数据库中做了加密处理。其中,加密算法采用了国际通用的AES算法。 传输中的数据保护 在ModelArt
如何关闭Mox的warmup 问题现象 训练作业mox的Tensorflow版本在运行的时候,会先执行“50steps” 4次,然后才会开始正式运行。 warmup即先用一个小的学习率训练几个epoch(warmup),由于网络的参数是随机初始化的,如果一开始就采用较大的学习率会出现数值不稳定的问题,这是使用warm
两个过程可以相互转换。如开发阶段代码稳定后,则会进入实验阶段,通过不断尝试调整超参来迭代模型;或在实验阶段,有一个可以优化训练的性能的想法,则会回到开发阶段,重新优化代码。 图1 模型开发过程 ModelArts提供了模型训练的功能,方便您查看训练情况并不断调整您的模型参数。您还可以基于不同的数据,选择不同规格的资源池用于模型训练。
/包月计费模式的业务场景: 稳定业务需求:对于长期运行且资源需求相对稳定的业务,例如大模型训练单任务运行时间较长的场景,包年/包月计费模式能提供较高的成本效益。 长期项目:对于周期较长的项目,例如科研类的模型训练,包年/包月计费模式可以确保在整个项目周期内资源的稳定使用。 约束限制
文件。 在新建的Notobook中,在代码输入栏输入如下命令。 !pip install xxx 在Terminal中安装 在Terminal里激活需要的anaconda python环境后再进行安装。 例如,通过terminal在“TensorFlow-1.8”的环境中使用pip安装Shapely。