正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
PP=1 WORK_DIR=/home/ma-user/ws sh scripts/baichuan2/baichuan2.sh 以上超参配置中,其中 MODEL_TYPE 、RUN_TYPE、DATA_PATH、TOKENIZER_MODEL为必填;TRAIN_ITERS、MBS、GBS、
网卡名称错误 当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。 比如,ifconfig看到当前机器IP对应的网卡名称为enp67s0f5,则可以设置环境变量指定该值。 export GLOO_SOCKET_IFNAME=enp67s0f5
在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。 配置本地IDE(Pycharm或者VsCode)联接云上环境调试请参考使用本地IDE开发模型。 父主题: 业务代码问题
原因分析二 本地系统为Linux,由于使用root用户安装VS Code,打开VS Code显示信息It is not recommended to run Code as root user 解决方法二 请使用非root用户安装VS Code后,回到ModelArts控制台界面再次单击界面上的“VS
Code。VS Code安装请参考安装VS Code软件。 图4 下载并安装VS Code 如果用户之前未安装过ModelArts VS Code插件,此时会弹出安装提示,请单击“Install and Open”进行安装;如果之前已经安装过插件,则不会有该提示,请跳过此步骤,直接执行5。 图5
资源成本和运维成本构成。 成本分配 ModelArts支持企业项目管理,可以由企业项目服务来管理同一账号下不同项目的成本。 成本分析 通过华为云费用账单来分析账号下的成本支出情况。 成本优化 长期使用的资源,建议客户使用更优惠的方式购买(包年包月);针对临时使用的资源,您可选择按需的资源规格,避免浪费。
使用PyCharm Toolkit提交训练作业时,训练作业详情页的“日志”页签存在报错“errorCode:NoSuchKey”。 原因分析 检查配置后发现,是镜像版本太低,旧版的镜像与当前训练作业不兼容。 解决措施 使用PyCharm Toolkit提交训练作业时,常用框架选择训练作业
it也同步删除掉本地的配置信息,单击“Edit Training Configuration”,找到作业名称,单击右上角的减号并确认删除。 图2 删除配置信息 在弹出的确认对话框中,确认信息无误后,单击“是”删除对应配置信息。删除后您可以创建新的训练作业配置并提交训练作业。 父主题:
并直接重启Notebook实例。重启后多种配置重置,会导致用户数据丢弃,环境丢失,造成很不好的使用体验。因此需要提供cache盘使用情况的监控和告警,并将数据上报至AOM平台。 配置流程 填写告警基本信息 设置告警规则 监控对象指标配置 告警触发条件设置 告警通知设置 创建主题、设置主题策略、订阅主题
使用此类镜像做基础镜像,安装自己需要的引擎版本和依赖包,可扩展性更高。并且这些镜像预置了一些开发环境启动所必要的配置,用户无需对此做任何适配,安装所需的软件包即可使用。 此类镜像为最基础的镜像,主要应对用户做自定义镜像时基础镜像太大的问题,所以镜像中未安装任何组件;如果需使用OBS
Session(username='***', password='***', region_name='***', project_id='***') 如果您的华为云账号已经升级为华为账号,则账号认证方式将不可用,请创建一个IAM用户,使用IAM用户认证。 使用IAM用户认证 “account”填写您的账号名,
Turbo中的数据。 Notebook中安装依赖包并保存镜像 在后续训练步骤中,训练作业启动命令中包含sh scripts/install.sh,该命令用于git clone完整的代码包和安装必要的依赖包,每次启动训练作业时会执行该命令安装。 您可以在Notebook中导入完代码之后,在Notebook运行sh
模型转换方式下,暂时只能把lora合并到unet主模型内,在每次加载模型前lora特性就被固定了(无法做到pytorch每次推理都可以动态配置的能力)。 目前临时的静态方案可参考sd-scripts, 使用其中的“networks/merge_lora.py”把lora模型合入unet和text-encoder模型。
ModelArts会挂载硬盘至“/cache”目录,用户可以使用此目录来储存临时文件。“/cache”与代码目录共用资源,不同资源规格有不同的容量。 映射规则:当前不支持CPU配置cache盘;GPU与昇腾资源为单卡时,cache目录保持500G大小限制;除单卡外,cache盘大小与卡数有关,计算方式为卡数*500G,上限为3T。详细表1所示。
JupyterLab中文件保存失败,如何解决? 问题现象 JupyterLab中保存文件时报错如下: 原因分析 浏览器安装了第三方插件proxy进行了拦截,导致无法进行保存。 在Notebook中的运行文件超过指定大小就会提示此报错。 jupyter页面打开时间太长。 网络环境原因,是否有连接网络代理。
数据集 ”,单击“创建数据集”,如果可以成功访问对应的OBS路径,表示用户有OBS权限。如果没有OBS权限,请执行2配置OBS权限。 如没有OBS权限,请配置OBS权限配置。 父主题: PyCharm Toolkit使用
使用自定义镜像创建训练作:选择创建方式(使用自定义镜像) 配置训练参数:配置训练作业的输入、输出、超参、环境变量等参数。 根据需要选择不同的资源池用于训练作业,推荐使用专属资源池,两者的差异说明请参见专属资源池和公共资源池的能力差异。 配置资源池(公共资源池) 配置资源池(专属资源池) (可选)选择训
务必保证OBS桶与ModelArts所在区域一致。 配置访问授权(权限管理) 登录ModelArts管理控制台,在左侧导航栏选择“权限管理”,进入“权限管理”页面。 单击“添加授权”,进入“访问授权”页面,根据参数说明进行配置。 图2 查看权限列表 然后勾选“我已经详细阅读并同意
只有当创建团队标注任务时,标注人员才会收到邮件。创建标注团队及添加标注团队的成员并不会发送邮件。 请确保您的邮箱已完成配置且配置无误。可参考管理成员,完成邮箱配置。 团队成员自检其邮箱是否有拦截设置。 父主题: Standard数据管理
ILE表示作业的配置文件路径,如果不指定该参数,则表示配置文件为空。配置文件是一个YAML格式的文件,里面的参数就是命令的option参数。此外,如果用户在命令行中同时指定YAML_FILE配置文件和option参数,命令行中指定的option参数的值将会覆盖配置文件相同的值。 命令参数预览