检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如果已安装fabricmanager,运行以下命令重启fabricmanager.service。 systemctl restart nvidia-fabricmanager.service 建议您进一步定位出nvidia-fabricmanager不工作原因,避免该问题再次发生。
什么是动态挂载OBS并行文件系统 并行文件系统(Parallel File System)是对象存储服务(Object Storage Service,OBS)提供的一种经过优化的高性能文件系统,详细介绍可以参见并行文件系统。 在ModelArts运行态的Notebook容器中,采用
使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed 问题现象 弹性文件服务(Scalable File Service,SFS)提供按需扩展的高性能文件存储(NAS),可以在裸金属服务器中通过网络协议挂载使用,SFS支持NFS和CIFS的网络协议。在使用裸金属服务器时,
"outputs" : [ { "name" : "service_output", "type" : "service", "config" : { "service_id" : "81f22d60-5488-4e3d-bba9-08c812ae84b0"
deployed service will stop in hours, where -1 means the service will always run", "delay" : true, "used_steps" : [ "service_step" ]
"support_app_code" : true, "service_id" : "ae20fc9f-b37c-48c2-8ebc-3f3a638c9f48", "service_name" : "service-3c02" } ], "count" : 1 }
返回多条正常结果。 约束与限制: 不使用beam_search场景下,n取值建议为1≤n≤10。如果n>1时,必须确保不使用greedy_sample采样。也就是top_k > 1; temperature > 0。 使用beam_search场景下,n取值建议为1<n≤10。如果n=1,会导致推理请求失败。
"name" : "service-link", "type" : "service_content", "config" : { "config_file" : "$ref/parameters/service_config1"
式部署方式。 在线服务 在线推理服务,可以实现高并发,低延时,弹性伸缩,并且支持多模型灰度发布、A/B测试。将模型部署为一个Web Service,并且提供在线的测试UI与监控能力。 发布区域:华北-北京一、华北-北京四、华北-乌兰察布一、华东-上海一、华南-广州、西南-贵阳一、
出现ModelArts.6333错误,如何处理? 问题现象 在使用Notebook过程中,界面出现“ModelArts.6333”报错信息。 原因分析 可能由于实例过负载引起故障,Notebook正在自动恢复中,请刷新页面并等待几分钟。常见原因是内存占用满。 处理方法 当出现此错
"mock-service-python", "namespace" : "mock-service1", "origin" : "CUSTOMIZE", "resource_categories" : [ "CPU" ], "service_type" : "UNKNOWN"
eval_test.py \ --max_workers=1 \ --service_name=llama2-13b-chat-test \ --eval_dataset=ceval \ --service_url=http://${docker_ip}:8080/v1/completions
├── service_predict.py # 发送请求的服务 执行精度测试启动脚本eval_test.py,具体操作命令如下,可以根据参数说明修改参数。 python eval_test.py \ --max_workers=1 \ --service_name=qwen-14b-test
康检查URL默认必须为/health。 图4 设置健康检查URL 模型推理代码customize_service.py编写有问题 如果模型推理代码customize_service.py编写有误,可以通过查看服务运行日志,定位具体原因进行修复。 拉取镜像失败 服务启动失败,提示拉
"workflow_name" : "wf-test-service-xiahou", "execution_id" : "837f989e-ff44-4089-90f5-ec6d790d339d", "step_name" : "service_step", "step_title"
Turbo的VPC网段的安全组是否被限制了。 在所选专属资源池中新建一个未挂载的SFS Turbo的训练作业,当训练作业处于“运行中”时,通过Cloud Shell功能登录训练作业worker-0实例,使用curl {sfs-turbo-endpoint}:{port}命令检查port是否正常打开,SFS
建议您按以下步骤排查处理: 确认部署在线服务时是否选择了GPU规格。 在customize_service.py中添加一行代码os.system('nvcc -V)查看该镜像的cuda版本(customize_service.py编写指导请见模型推理代码编写说明)。 确认该cuda版本与您安装的mmcv版本是否匹配。
Query参数 参数 是否必选 参数类型 描述 service_id 否 String 服务ID,在创建服务时即可在返回体中获取,也可通过查询服务列表接口获取当前用户拥有的服务,其中service_id字段即为服务ID。默认不过滤服务ID。 service_name 否 String 服务名
model_service.tfserving_model_service import TfServingBaseService PyTorch PTServingBaseService from model_service.pytorch_model_service import
deployed service will stop in hours, where -1 means the service will always run", "delay" : true, "used_steps" : [ "service_step" ]