检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练作业进程异常退出 问题现象 训练作业运行失败,日志中出现如下类似报错: [Modelarts Service Log]Training end with return code: 137 原因分析 日志显示训练进程的退出码为137。训练进程表示用户的代码启动后的进程,所以这里
作业状态“status”。 order 否 String 可选值。 “asc”为递增排序,默认为“asc”。 “desc”为递减排序。 search_content 否 String 指定要查询的文字信息,例如可视化作业名字,默认为空,字符串的长度为[0,64]。 workspace_id
resource_categories Array of strings 镜像支持的规格。枚举值如下: CPU GPU ASCEND service_type String 镜像支持服务类型。枚举值如下: COMMON:通用镜像。 INFERENCE: 建议仅在推理部署场景使用。 TRAIN:
的排序方式。 order 否 String 可选值有以下两种。 “asc”为递增排序。 “desc”为递减排序,默认为“desc”。 search_content 否 String 指定要查询的文字信息,例如参数名称。默认为空。 config_type 否 String 指定要查询的配置类型,可选值有以下两种
JOBSTAT_SCALING,作业正在扩容。 16 JOBSTAT_SUBMIT_MODEL_FAILED,提交模型失败。 17 JOBSTAT_DEPLOY_SERVICE_FAILED,部署服务失败。 18 JOBSTAT_CHECK_INIT,审核作业初始化。 19 JOBSTAT_CHECK_RUNNING,审核作业正在运行中。
部署服务:AI应用构建完成后,根据您的业务场景,选择将模型部署成对应的服务类型。 将AI应用部署为实时推理作业 将AI应用部署为一个Web Service,并且提供在线的测试UI与监控功能,部署成功的在线服务,将为用户提供一个可调用的API。 将AI应用部署为批量推理服务 批量服务可对批
AscendCloud-OPP-6.3.909-xxx.zip pip install ascend_cloud_ops_cann-xx.whl pip install ascend_cloud_ops_atb-xx.whl Step4 开始推理 在容器工作目录下进到Qwen-VL/in
描述 allowed_access_ips 否 Array of strings 允许远程接入的公网IP地址列表,最多5个。 dev_service 否 String 支持的服务,枚举值如下: NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。
log”中筛查,筛查关键字有:[“ModelArts Service Log]”或“Platform=ModelArts-Service”。 类型一:[ModelArts Service Log] xxx [ModelArts Service Log][init] download code_url:
对应描述。 表10 policies 参数 参数类型 描述 auto_search auto_search object 超参搜索配置。 表11 auto_search 参数 参数类型 描述 skip_search_params String 需要排除的超参组合。 reward_attrs
返回多条正常结果。 约束与限制: 不使用beam_search场景下,n取值建议为1≤n≤10。如果n>1时,必须确保不使用greedy_sample采样。也就是top_k > 1; temperature > 0。 使用beam_search场景下,n取值建议为1<n≤10。如果n=1,会导致推理请求失败。
训练作业失败,返回错误码139 问题现象 训练作业运行失败,返回错误码139,如下图所示: [Modelarts Service Log]Training end with reeturn code: 139 INFO:root:Using MoXing-v1.17.2-c806a92f
start: 0.001\n stop: 0.1\n\nsearch_algorithm:\n type: bayes_opt_search\n max_concurrent: 4\n reward_attr: accuracy\n num_samples: 8\n
返回多条正常结果。 约束与限制: 不使用beam_search场景下,n取值建议为1≤n≤10。如果n>1时,必须确保不使用greedy_sample采样。也就是top_k > 1; temperature > 0。 使用beam_search场景下,n取值建议为1<n≤10。如果n=1,会导致推理请求失败。
报错504 如果报此错误时,请提工单或拨打热线电话协助解决。提工单和热线电话请参见:https://www.huaweicloud.com/service/contact.html。 报错500 Notebook JupyterLab页面无法打开,报错500,可能是工作目录work下的磁
作列单击“授权”,勾选步骤2创建的自定义策略,单击“下一步”,选择授权范围方案,单击“确定”。 此时,该用户组下的所有用户均有权限通过Cloud Shell登录运行中的训练作业容器。 如果没有用户组,也可以创建一个新的用户组,并通过“用户组管理”功能添加用户,并配置授权。如果指定
对应描述。 表10 policies 参数 参数类型 描述 auto_search auto_search object 超参搜索配置。 表11 auto_search 参数 参数类型 描述 skip_search_params String 需要排除的超参组合。 reward_attrs
报错504 如果报此错误时,请提工单或拨打热线电话协助解决。提工单和热线电话请参见:https://www.huaweicloud.com/service/contact.html。 报错500 Notebook JupyterLab页面无法打开,报错500,可能是工作目录work下的磁
action=allow protocol=TCP localport=22 启动OpenSSH服务,在CMD执行以下命令: Start-Service sshd 若OpenSSH未安装在默认路径下,打开命令面板(Windows: Ctrl+Shift+P,macOS:Cmd+Shift+P),
action=allow protocol=TCP localport=22 启动OpenSSH服务,在CMD执行以下命令: Start-Service sshd 若OpenSSH未安装在默认路径下,打开命令面板(Windows: Ctrl+Shift+P,macOS:Cmd+Shift+P),