检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
认证证书 合规证书 华为云服务及平台通过了多项国内外权威机构(ISO/SOC/PCI等)的安全合规认证,用户可自行申请下载合规资质证书。 图1 合规证书下载 资源中心 华为云还提供以下资源来帮助用户满足合规性要求,具体请查看资源中心。 图2 资源中心 销售许可证&软件著作权证书 另
summary可能是本地缓存,在每次触发flush时将该summary文件覆盖OBS上的原文件。当超过5GB后,由于达到了OBS单次导入文件大小的上限,导致无法继续写入。 处理方法 如果在运行训练作业的过程中出现该问题,建议处理方法如下: 推荐使用本地缓存的方式来解决,使用如下方法:
Ctrl+Shift+P,macOS:Cmd+Shift+P),搜索“Kill VS Code Server on Host”,选择出问题的实例进行自动清除,然后重新进行连接。 图1 清除异常的实例 方法二(远端):在VS Code的Terminal中删除“/home/ma-user/.vscode-serv
6:删除失败 7:停止失败 remove_sample_usage Boolean 发布时是否清除数据集已有的usage信息。可选值如下: true:清除数据集已有的usage信息(默认值) false:不清除数据集已有的usage信息 rotate Boolean 是否对图片进行旋转。可选值如下:
Access Key)加密调用请求。 Token认证 Token的有效期为24小时,需要使用同一个Token鉴权时,可以缓存起来,避免频繁调用。 Token在计算机系统中代表令牌(临时)的意思,拥有Token就代表拥有某种权限。Token认证就是在调用API的时候将Token加到请求
NA MAC上行pause帧总数 ma_node_npu_roce_mac_tx_pause_packets_total NPU RoCE网络MAC发送的pause帧总报文数。 个 ≥0 NA NA NA MAC下行pause帧总数 ma_node_npu_roce_mac_rx
device”。可能是inode不足,或者是触发操作系统的文件索引缓存问题,导致操作系统无法创建文件,造成用户磁盘占满。 触发条件和下面的因素有关: 文件名越长,文件数量的上限越小。 blocksize越小,文件数量的上限越小。 blocksize系统默认为4096B,总共有三种大小:1024B、2048B、4096B。
约束与限制 需要申请单个模型大小配额和添加使用节点本地存储缓存的白名单。 需要使用自定义引擎Custom,配置动态加载。 需要使用专属资源池部署服务。 专属资源池磁盘空间需大于1T。 操作事项 申请扩大模型的大小配额和使用节点本地存储缓存白名单 上传模型数据并校验上传对象的一致性 创建专属资源池
6:删除失败 7:停止失败 remove_sample_usage Boolean 发布时是否清除数据集已有的usage信息。可选值如下: true:清除数据集已有的usage信息(默认值) false:不清除数据集已有的usage信息 rotate Boolean 是否对图片进行旋转。可选值如下:
如果是分布式作业有的节点有错误,有的节点正常,建议提工单请求隔离有问题的节点。 如果是触发了欧拉操作系统的限制,有如下建议措施。 分目录处理,减少单个目录文件量。 减慢创建文件的速度。 关闭ext4文件系统的dir_index属性,具体可参考:https://access.redhat.com/solutions/
cmanager方法。 NCCL必须和CUDA版本相匹配,可单击此处可查看配套关系和安装方法。 使用该裸金属服务器制作自定义镜像时, 必须清除残留文件,请参考清理文件。 父主题: Lite Server
enabled=1 gpgcheck=1 gpgkey=https://mirrors.huaweicloud.com/euler/2.10/os/RPM-GPG-KEY-EulerOS #清除原有yum缓存 yum clean all #生成新的yum缓存 yum makecache # 测试 yum
ModelArts训练专属资源池如何与SFS弹性文件系统配置对等链接? 配置训练专属资源池与SFS弹性文件系统的对等链接,需要资源池打通VPC,使得资源池与SFS弹性文件系统所配置的VPC相同。配置完成后,在创建训练作业时,就可以看到SFS的配置选项。 打通VPC步骤请参考打通VPC。
在创建AI应用页面,系统会自动根据上一步训练作业填写参数,参考如下说明确认关键参数。 “元模型来源”:系统自动选择“从训练中选择”。 “选择训练作业”:系统自动选择上一步创建的训练作业。 “AI引擎”:系统自动写入该模型的AI引擎,无需修改。 “推理代码”:系统自动放置推理代码到OBS输出路径,无需修改。
目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时,可通过缓存文件来快速完成图编译的过程,避免长时间的等待,并且基于图编译缓存文件来启动服务可获得更优的推理性能,因此请在有图编译缓存文件的前提下启动服务。另外,当启动服务时的模型或者参数发生改变时,请删除
的模型的稳定性和可靠性,避免重头训练耗费的时间与计算成本 支持训练数据使用SFS Turbo文件系统进行数据挂载,训练作业产生的中间和结果等数据可以直接高速写入到SFS Turbo缓存中,并可被下游业务环节继续读取并处理,结果数据可以异步方式导出到关联的OBS对象存储中进行长期低
通过重写pandas源码API的方式,将该API改造成支持OBS路径的形式。 写h5到OBS = 写h5到本地缓存 + 上传本地缓存到OBS + 删除本地缓存 从OBS读h5 = 下载h5到本地缓存 + 读取本地缓存 + 删除本地缓存 即将以下代码写在运行脚本的最前面,就能使运行过程中的to_hdf和read_hdf支持OBS路径。
在服务器执行如下命令,可以从AI Gallery仓库下载单个文件到服务器的缓存目录下。 gallery-cli download {repo_id} {文件名} 如下所示,表示下载文件“config.json”到服务器的缓存目录“/test”下,当回显“100%”时表示下载完成。 gallery-cli
ToolKit的版本不正确,请按照文档要求下载新版本的PyCharm ToolKit。 下载前请先清除浏览器缓存,如果之前下载过老版本的PyCharm ToolKit,浏览器会有缓存,可能会导致新版本下载失败。 在KeyPair中选择该Notebook实例对应的密钥,选择完成后,
提供posix协议的文件系统; 需要和资源池在同一个VPC下或VPC互通; 价格较高。 静态挂载 动态挂载:不支持 SFS 适用于多读多写场景的持久化存储。 适用大容量扩展以及成本敏感型的业务场景,包括媒体处理、内容管理、大数据分析和分析工作负载程序等。 SFS容量型文件系统不适合海量小文件业务。