检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CCAC445CAA1A71019C9D0 retry:0 原因分析 出现该问题的可能原因如下: OBS服务的权限出现问题,导致无法正常读取数据 处理方法 请检查OBS权限配置,如未解决问题可参考OBS文档的已配置OBS权限,仍然无法访问OBS(403 AccessDenied)。
ParserError: Error tokenizing data. C error: Expected .* fields” 问题现象 使用pandas读取csv数据表时,日志报出如下错误导致训练作业失败: pandas.errors.ParserError: Error tokenizing
场景描述 为了完成AI计算的各种操作,AI平台ModelArts在任务执行过程中需要访问用户的其他服务,典型的就是训练过程中,需要访问OBS读取用户的训练数据。在这个过程中,就出现了ModelArts“代表”用户去访问其他云服务的情形。从安全角度出发,ModelArts代表用户访问
算法请参考开发用于预置框架训练的代码。创建训练作业请参考创建训练作业指导。 解析输入路径参数、输出路径参数 运行在ModelArts的模型读取存储在OBS服务的数据,或者输出至OBS服务指定路径,输入和输出数据需要配置3个地方: 训练代码中需解析输入路径参数和输出路径参数。ModelArts推荐以下方式实现参数解析。
是什么样的? 问题现象 创建模型时,元模型来源指定的OBS目录下存放了自定义的文件和文件夹,都会复制到镜像中去。复制进去的路径是什么,怎么读取对应的文件或者文件夹里面的内容? 原因分析 通过OBS导入模型时,ModelArts会将指定的OBS目录下的所有文件和文件夹复制到镜像中的指定路径下,镜像内路径可以通过self
配置SWR组织权限 IAM用户创建后,需要管理员在组织中为用户添加授权,使IAM用户对组织内所有镜像享有读取/编辑/管理的权限。 只有具备“管理”权限的账号和IAM用户才能添加授权。 登录容器镜像服务控制台。 在左侧菜单栏选择“组织管理”,单击组织名称。 在“用户”页签下单击“添
2.6,PyTorch 1.10,可以接受切换MindSpore。 - 业务编程语言、框架、版本。 C++/Python/JAVA等。 例如:业务逻辑使用JAVA,推理服务模块使用C++自定义实现推理框架,Python 3.7等。 - CPU使用率 业务中是否有大量使用CPU的代码
练。 但有时候会出现读取速度变慢的现象,并且SFS提示报错"rpc_check_timeout:939 callbacks suppressed"。 原因分析 根据SFS客户端日志分析出现问题的时间点发现,SFS盘连接的客户端个数较多,在问题的时间点并发读取数据,I/O超高;当前
h_YLLsize过大导致内存溢出。 提升数据读取的效率:如果读取一个batch数据的时间要长于GPU/NPU计算一个batch的时间,就有可能出现GPU/NPU利用率上下浮动的情况。建议优化数据读取和数据增强的性能,例如将数据读取并行化,或者使用NVIDIA Data Loading
TensorFlow为ps,worker “MA_TASK_NAME=worker” MA_NUM_HOSTS 实例数。系统自动从资源参数的“实例数”中读取。 “MA_NUM_HOSTS=4” VC_TASK_INDEX 当前容器索引,容器从0开始编号。单机训练的时候,该字段无意义。在多机作业
其中,“表格”类型的数据集,支持从OBS、DWS、DLI和MRS等数据源导入数据。 从OBS目录导入数据时,当前操作用户需具备此OBS路径的读取权限。 同时确保数据存储的OBS桶与ModelArts在同一区域。 图像分类 图像分类的数据支持两种格式: ModelArts imageNet
(0)[0] >= 7 修改文件tokenization_qwen.py: # tonkenization_qwen.py会在cache中读取SimSun.ttf 文件,如果没有,就会联网下载,ModelArts作业在执行过程中可能不能请求网络,会遇到报错。 # 直接手动下载 https://qianwen-res
(0)[0] >= 7 修改文件tokenization_qwen.py: # tonkenization_qwen.py会在cache中读取SimSun.ttf 文件,如果没有,就会联网下载,ModelArts作业在执行过程中可能不能请求网络,会遇到报错。 # 直接手动下载 https://qianwen-res
oint进行本地Fine Tune? 训练作业使用MoXing复制数据较慢,重复打印日志 MoXing如何访问文件夹并使用get_size读取文件夹大小?
硬盘限制故障 下载或读取文件报错,提示超时、无剩余空间 复制数据至容器中空间不足 Tensorflow多节点作业下载数据到/cache显示No space left 日志文件的大小达到限制 日志提示"write line error" 日志提示“No space left on device”
选择左侧导航栏的“总览”,单击页面右上角的“登录指令”,在弹出的页面中单击复制登录指令。 此处生成的登录指令有效期为24小时,如果需要长期有效的登录指令,请参见获取长期有效登录指令。获取了长期有效的登录指令后,在有效期内的临时登录指令仍然可以使用。 登录指令末尾的域名为镜像仓库地址,请记录该地址,后面会使用到。
处理方法 对于OBS连接不稳定的现象,通过增加代码来解决。您可以在代码最前面增加如下代码,让TensorFlow对ckpt和summary的读取和写入可以通过本地缓存的方式中转解决: import moxing.tensorflow as mox mox.cache() 父主题:
JupyterLab目录的文件相同。 挂载EVS存储的Notebook,JupyterLab目录的文件可使用Moxing接口或SDK接口,读取OBS中的文件。Terminal的文件与JupyterLab目录的文件相同。 父主题: Standard Notebook
使用reload ckpt恢复中断的训练 在容错机制下,如果因为硬件问题导致训练作业重启,用户可以在代码中读取预训练模型,恢复至重启前的训练状态。用户需要在代码里加上reload ckpt的代码,使能读取训练中断前保存的预训练模型。具体请参见断点续训练。 父主题: 模型训练高可靠性
retCode=0x91, [the model stream execute failed]” 使用moxing适配OBS路径,pandas读取文件报错 日志提示“Please upgrade numpy to >= xxx to use this pandas version” 重装的包与镜像装CUDA版本不匹配