检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
"status": 10, "app_url": "/usr/app/", "boot_file_url": "/usr/app/boot.py", "create_time": 1524189990635
或重启节点。观测方式:Xid事件中包含95事件。(Remapped的Pending记录只作为提示,当业务空闲时进行卡重置触发重映射即可) L4: 需要换卡,SRAM Uncorrectable>4或者Remapped Failed。 可能是亚健康,建议先重启节点,如果重启节点后未恢复,发起维修流程。
实例运行中,处于健康状态 重要 CreateNotebookFailed 创建实例失败 紧急 PullImageFailed 镜像拉取失败 紧急 FailedCreate Failed to create notebook container. Please contact SRE to check
请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 Content-Type 是 String 消息体的类型(格式),取值为application/merge-patch+json。 表3 请求Body参数 参数 是否必选 参数类型 描述 metadata 否 NetworkMetadataUpdate
资源池中节点的AZ信息。 nodePool 否 String 节点池名称。比如:nodePool-1。 taints 否 Array of Taint objects 支持给创建出来的节点加taints来设置反亲和性,非特权池不能指定。 labels 否 Map<String,String>
模型修改。 表1 模型训练脚本参数 参数 示例值 参数说明 ORIGINAL_TRAIN_DATA_PATH /home/ma-user/ws/training_data/pretrain/train-00000-of-00001-a09b74b3ef9c3b56.parquet
co/01-ai/Yi-6B-Chat 14 yi-34b https://huggingface.co/01-ai/Yi-34B-Chat 15 ChatGLMv3 glm3-6b https://huggingface.co/THUDM/chatglm3-6b 16 Baichuan2
co/01-ai/Yi-6B-Chat 14 yi-34b https://huggingface.co/01-ai/Yi-34B-Chat 15 ChatGLMv3 glm3-6b https://huggingface.co/THUDM/chatglm3-6b 16 Baichuan2
kernelgateway --KernelGatewayApp.ip=${HOST_IP} --KernelGatewayApp.port=8889 --KernelGatewayApp.api=${API_TYPE} --KernelGatewayApp.auth_token=${JPY_AUTH_TOKEN}
server_name_in_redirect off; include /etc/nginx/mime.types; default_type application/octet-stream; ## # SSL Settings ## ssl_protocols
py”),任务会在启动容器后执行。 config.yaml内容如下: apiVersion: apps/v1 kind: Deployment metadata: name: yourapp labels: app: infers spec: replicas: 1 selector:
/v2/{project_id}/training-jobs/{training_job_id}/tasks/{task_id}/logs/url 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id
odels/official/cv/resnet/”下创建train_notebook.py, 复制代码至train_notebook.py, 运行train_notebook.py,进行训练作业提交。 # train_notebook.py # 导入ModelArts SDK的
在ModelArts创建训练作业界面选择AI框架时,有一个AI框架是“Ascend-Powered-Engine”,它既不是一个AI框架(如:PyTorch、TensorFlow)也不是一个并行执行框架(如:MPI),而是适配加速芯片Ascend的一组AI框架+运行环境+启动方式的集合。
动态扩充云硬盘EVS容量 什么是动态扩容EVS 存储配置采用云硬盘EVS的Notebook实例, 存储盘是挂载至容器/home/ma-user/work/目录下, 可以在实例运行中的状态下,动态扩充存储盘容量,单次最大动态扩容100GB。 动态扩容EVS适用于哪些使用场景 在No
日志提示“Please set the train_url to an empty obs directory” 问题现象 日志提示“Please set the train_url to an empty obs directory”。 原因分析 对于不支持断点训练的模型,如果
训练作业的日志出现detect failed(昇腾预检失败) 问题现象 训练启动的日志出现如下相关错误: time="2023-05-27T07:07:08Z" level=error msg="detect failed, error: dsmi-checker detect failed, error:
克隆GitHub开源仓库文件到JupyterLab 在Notebook的JupyterLab中,支持从GitHub开源仓库Clone文件。 通过JupyterLab打开一个运行中的Notebook。 单击JupyterLab窗口上方导航栏的ModelArts Upload Fil
sh需要自定义。示例如下: #!/bin/bash # 自定义脚本内容 ... # run.sh调用app.py启动服务器,app.py请参考https示例 python app.py 除了按上述要求设置启动命令,您也可以在镜像中自定义启动命令,在创建模型时填写与您镜像中相同的启动命令。
若要在生产环境中进行精度测试,还需修改benchmark_eval/config/config.json中app_code,app_code获取方式见访问在线服务(APP认证)。 Step2 查看精度测试结果 默认情况下,评测结果会按照result/{service_name}