检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
hmark的请求频率(request-rate参数)较高,会触发推理平台的流控,请在ModelArts Standard“在线服务”详情页修改服务流量限制。 同步请求时,平台每次请求预测的时间不能超过60秒。例如输出数据比较大的调用请求(例如输出大于1k),请求预测会超过60秒导
model_service.tfserving_model_service import TfServingBaseService PyTorch PTServingBaseService from model_service.pytorch_model_service import
_step 10。训练启动脚本修改命令如下。 vim shell/internvl2.0/2nd_finetune/internvl2_40b_hermes2_yi_34b_dynamic_res_2nd_finetune_lora.sh 图2 修改训练steps 父主题: AIGC模型训练推理
modelarts-latest-py2.py3-none-any.whl中的latest修改为任意版本号,例如modelarts-1.0.0-py2.py3-none-any.whl,修改后不影响实际安装SDK的真实版本号。
像地址获取。 docker pull {image_url} Step3 启动容器镜像 启动容器镜像前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。启动容器命令如下。 export work_dir="自定义挂载的工作目录" #容器内挂载的目录,例如/home/ma-user/ws
e_url}参见获取软件和镜像。 docker pull {image_url} 启动容器镜像。启动前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。训练默认使用单机8卡。 docker run -itd --net=host \ --device=/dev/davinci0
用户选择了1/2/4卡这些规格的作业,然后设置了CUDA_VISIBLE_DEVICES=‘1’这种类似固定的卡ID号,与实际选择的卡ID不匹配。 处理方法 尽量代码里不要去修改CUDA_VISIBLE_DEVICES变量,用系统默认里面自带的。 如果必须指定卡ID,需要注意1/2/4规格下,指定的卡ID与实际分配的卡ID不匹配的情况。
tensorflow包含所有的接口,对TensorFlow做了优化,里面的实际接口还是TensorFlow的原生接口。 当非MoXing代码中没有Adam名称范围时,需要修改非MoXing代码,在其中增加如下内容: with tf.variable_scope("Adam"): 在增加代码时不建议使用自定义“global_step”,推荐使用tf
当使用推理的镜像并且出现MR.XXXX类型的错误时,表示已进入模型服务,一般是模型推理代码编写有问题。 请根据构建日志报错信息,定位服务预测失败原因,修改模型推理代码后,重新导入模型进行预测。 经典案例:在线服务预测报错MR.0105 出现其他情况,优先检查客户端和外部网络是否有问题。 以上方法均未解决问题,请联系系统管理员。
在notebook调试用户代码,并找出问题的代码段。 通过关键代码段 + 退出码尝试去搜索引擎寻找解决办法。, 通过训练日志排查问题 通过日志判断出问题的代码范围。 修改代码,在问题代码段添加打印,输出更详细的日志信息。 再次运行作业,判断出问题的代码段。 父主题: 业务代码问题
标注成员登出labelConsole标注平台 labelConsoleWorker workerLogOutLabelConsole 标注成员修改labelConsole平台密码 labelConsoleWorker workerChangePassword 标注成员忘记labelConsole平台密码
标注成员登出labelConsole标注平台 labelConsoleWorker workerLogOutLabelConsole 标注成员修改labelConsole平台密码 labelConsoleWorker workerChangePassword 标注成员忘记labelConsole平台密码
e_url}参见获取软件和镜像。 docker pull {image_url} 启动容器镜像。启动前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。训练默认使用单机8卡。 docker run -itd --net=host \ --device=/dev/davinci0
列出相关的静态文件路径,删除并且卸载镜像中的Jupyterlab服务; 用户自己业务占用了开发环境官方的8888、8889端口的,需要用户修改自己的进程端口号; 用户的镜像指定了PYTHONPATH、sys.path导致服务启动调用冲突的,需在实例启动后,再指定PYTHONPATH、sys
是,重新“启动”边缘服务,若还是“异常”则联系技术支持处理。 否,执行下一步,给用户添加委托权限。 添加委托权限。 如果是IAM子账号,没有修改委托权限,请联系管理员添加Tenant Adiministrator委托权限。 登录统一身份认证服务IAM管理控制台。 单击导航栏的“委托”,进入委托页面。
用户代码问题,出现了内存越界、非法访问内存空间的情况。 未知系统问题导致,建议先尝试重建作业,重建后仍然失败,建议提工单定位。 处理方法 如果存在之前能跑通,什么都没修改,过了一阵跑不通的情况,先去排查跑通和跑不通的日志是否存在pip源更新了依赖包,如下图,安装之前跑通的老版本即可。 图1 PIP安装对比图
进入容器。默认使用ma-user用户,后续所有操作步骤都在ma-user用户下执行。 docker exec -it sdxl-train bash Step5 修改算法脚本 进入容器后,修改启动脚本文件。 vi /home/ma-user/sdxl-train/user-job-dir/code/diffusers_finetune_train
e_url}参见获取软件和镜像。 docker pull {image_url} 启动容器镜像。启动前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。 docker run -it --net=host \ --device=/dev/davinci0 \ --
hmark的请求频率(request-rate参数)较高,会触发推理平台的流控,请在ModelArts Standard“在线服务”详情页修改服务流量限制。 同步请求时,平台每次请求预测的时间不能超过60秒。例如输出数据比较大的调用请求(例如输出大于1k),请求预测会超过60秒导
on ModelArts console.” 原因分析 文件夹“.ssh”的权限不仅是Windows当前用户拥有,或者当前用户权限不足,故修改权限即可。 解决方案 找到.ssh文件夹。一般位于“C:\Users”,例如“C:\Users\xxx”。 “C:\Users”目录下的文