华为云用户手册

  • 方案概述 用户可以将本地NAS存储中的数据,使用rclone工具通过公网或内网迁移至云上SFS Turbo中,进行云上业务拓展。 此方案通过在云上和本地分别创建一台Linux操作系统的服务器,将本地NAS存储中的数据迁移至云上。两台服务器端口号22的出入方向需允许访问。本地服务器用于访问本地NAS存储,云上服务器用于访问云上SFS Turbo。 通过公网或内网将云上NAS存储数据迁移至SFS Turbo中也可以参考本方案完成。
  • 约束与限制 暂不支持使用公网迁移本地NAS存储至SFS容量型文件系统。 仅支持使用Linux系统的云服务器进行数据迁移。 文件UID和GID在同步操作后将不再保持一致。 文件访问模式同步操作后不再保持一致。 端口号22的出入方向需允许访问。 支持实现增量迁移,即只迁移发生变化的数据。 通过 rclone 工具进行同步时,在执行命令之前写入的数据,可以完全同步;在执行命令之后写入的数据,不能保证完全同步。
  • 方案概述 用户可以将本地NAS存储中的数据,通过云专线和rsync工具迁移至云上SFS Turbo文件系统中,进行云上业务拓展。 此方案通过在云上创建一台Linux操作系统的云服务器,来连接本地NAS存储以及云上SFS Turbo文件系统的通信,并通过这台服务器将本地NAS存储中的数据迁移至云上。 将云上NAS存储数据迁移至SFS Turbo文件系统中也可以参考本方案,云上NAS和SFS Turbo文件系统需要配置在同一个VPC下。
  • 方案概述 用户可以将本地NAS存储中的数据,通过云专线和rclone工具迁移至云上SFS Turbo文件系统中,进行云上业务拓展。 此方案通过在云上创建一台Linux操作系统的云服务器,来连接本地NAS存储以及云上SFS Turbo文件系统的通信,并通过这台服务器将本地NAS存储中的数据迁移至云上。 将云上NAS存储数据迁移至SFS Turbo文件系统中也可以参考本方案,具体说明请参考云上NAS数据迁移至弹性文件服务。
  • 背景说明 用户可以将本地NAS存储中的数据,通过云专线迁移至云上SFS Turbo文件系统中,进行云上业务拓展。 此方案通过在云上创建一台Linux操作系统的云服务器,来连接本地NAS存储以及云上SFS Turbo文件系统的通信,并通过这台服务器将本地NAS存储中的数据迁移至云上。 将云上NAS存储数据迁移至SFS Turbo文件系统中也可以参考本方案,具体说明请参考云上NAS数据迁移至高性能弹性文件服务。
  • 建议方案 此时,您可以尝试: 通过配置镜像加速器拉取。 如果配置了SWR镜像加速器依然拉取失败,建议您将需要的镜像从Docker Hub同步到SWR私有仓库使用。关于Docker Hub收费标准、访问限制的详细介绍,请参见Docker官方网站。 面向生产环境使用场景,为避免Docker访问网络问题导致的镜像拉取失败,建议您在生产环境中慎重考虑对Docker Hub容器镜像的依赖,将需要的镜像从Docker Hub同步到SWR私有仓库使用。
  • SDK列表 表1提供了文档数据库服务DDS支持的SDK列表,您可以在GitHub仓库查看SDK更新历史、获取安装包以及查看指导文档。 如果无法正常打开GitHub仓库,请检查您所使用的网络是否可以正常访问公网。由于GitHub的服务器部署在国外,国内用户访问时容易遇到无法打开的情况,请切换网络后再尝试打开。 表1 SDK列表 编程语言 Github地址 参考文档 Java huaweicloud-sdk-java-v3 Java SDK使用指导 Python huaweicloud-sdk-python-v3 Python SDK使用指导 Go huaweicloud-sdk-go-v3 Go SDK使用指导
  • 基础指标: CS E指标 介绍CSE服务上报到 AOM 的监控指标,包括指标的类别、名称、含义等信息。 表1 CSE服务监控指标 指标类别 分类 指标 指标名称 指标含义 取值范围 单位 ServiceComb registry servicecomb_service_center_db_service_total 微服务版本数 微服务版本数。 ≥0 个 servicecomb_service_center_db_instance_total 微服务实例数 微服务实例数。 ≥0 个 servicecomb_service_center_http_request_total http请求次数 http请求次数,包括多种url、方法、code。 ≥0 次 servicecomb_service_center_http_request_durations_microseconds http请求总耗时 http请求总耗时,包括多种url、方法、code。 ≥0 微秒(μs) config servicecomb_kie_request_count http请求次数 http请求次数,包括多种url、方法、code。 ≥0 次 servicecomb_kie_request_process_duration http请求总耗时 http请求总耗时,包括多种url、方法、code。 ≥0 毫秒(ms) servicecomb_kie_config_count 配置个数 ServiceComb配置个数。 ≥0 个 Nacos config nacos_configCount Nacos config配置个数 Nacos集群内各节点的配置个数。 ≥0 个 nacos_getConfig Nacos config读配置请求数 Nacos集群内各节点的读配置请求次数。 ≥0 次 nacos_longPolling Nacos config HTTP长连接数(监听者数) Nacos config HTTP长连接数。 ≥0 个 nacos_publish Nacos config写配置请求数 Nacos集群内各节点的写配置请求次数。 ≥0 次 nacos_subscriberCount Nacos config订阅者数量 Nacos config订阅者数量。 ≥0 个 nacos_configPushCost Nacos config推送时延 Nacos config推送时延。 ≥0 毫秒(ms) http nacos_http_server_requests_seconds_count http请求次数 http请求次数,包括多种url、方法、code。 ≥0 次 nacos_http_server_requests_seconds_max http请求总耗时最大值 统计周期内http请求时延的最大值,包括多种url、方法、code,使用Nacos-Client 1.x时上报。 ≥0 秒(s) nacos_http_server_requests_seconds_sum http请求总耗时 http请求总耗时,包括多种url、方法、code。 ≥0 秒(s) naming nacos_avgPushCost Nacos naming平均推送耗时 Nacos naming平均推送耗时(ms)。 ≥0 毫秒(ms) nacos_maxPushCost Nacos naming最大推送耗时 Nacos naming最大推送耗时(ms)。 ≥0 毫秒(ms) nacos_failedPush Nacos naming推送失败数 Nacos naming推送失败数。 ≥0 次 nacos_ipCount Nacos naming ip个数 微服务注册实例数。 ≥0 个 nacos_serviceSubscriberCount Nacos naming订阅者数量 Nacos naming订阅者数量。 ≥0 个 nacos_serviceCount Nacos naming 域名 个数(2.x 版本) Nacos集群内各节点的服务个数。 ≥0 个 应用网关 envoy cpuUsage CPU使用率 该指标用于统计测量对象的CPU使用率。 0~100 百分比(%) envoy_http_downstream_cx_active 活跃连接总数 该指标用于统计活跃连接数。 ≥0 个 downstream_cx_delayed_close_timeout 延迟关闭连接总数 该指标用于统计延迟关闭的连接数。 ≥0 个 envoy_http_downstream_cx_destroy 摧毁连接总数 该指标用于统计摧毁的链接数。 ≥0 个 envoy_http_downstream_cx_destroy_active_rq 摧毁活跃连接数 该指标用于统计摧毁的活跃链接数。 ≥0 个 envoy_http_downstream_cx_destroy_local 摧毁本地的连接数 该指标用于统计摧毁的本地连接数。 ≥0 个 envoy_http_downstream_cx_destroy_local_active_rq 摧毁本地活跃连接数 该指标用于统计摧毁本地活跃连接数。 ≥0 个 envoy_http_downstream_cx_destroy_remote 摧毁远端关闭的连接数 该指标用于统计因为远端关闭而摧毁的连接数。 ≥0 个 envoy_http_downstream_cx_destroy_remote_active_rq 摧毁远端关闭的活跃连接数 该指标用于统计因为远端关闭而摧毁的活跃连接数。 ≥0 个 envoy_http_downstream_cx_drain_close 驱逐关闭连接数 该指标用于统计因为驱逐而关闭的连接数。 ≥0 个 envoy_http_downstream_cx_http1_active http1获取连接数 该指标用于统计http1的连接数。 ≥0 个 envoy_http_downstream_cx_max_duration_reached 超时连接数 该指标用于统计因超过最大连接时间而关闭的连接数。 ≥0 个 envoy_http_downstream_cx_tx_bytes_total 总发送字节数 该指标用于统计总发送的字节数。 ≥0 字节(Byte) envoy_http_downstream_rq 总请求数 该指标用于统计总请求数。 ≥0 个 envoy_http_downstream_rq_http1_total http1总请求数 该指标用于统计http1总请求数。 ≥0 个 envoy_http_downstream_rq_http2_total http2总请求数 该指标用于统计http2总请求数。 ≥0 个 envoy_http_downstream_rq_idle_timeout 空闲时间超时关闭请求数 该指标用于统计因空闲时间超时的请求数。 ≥0 个 envoy_http_downstream_rq_too_large 请求体过大请求数 该指标用于统计请求body过大返回413的请求数。 ≥0 个 downstream_rq_ws_on_non_ws_route websocket没有路由的请求数 该指标用于统计因为没有路由而被拒绝的请求数。 ≥0 个 envoy_http_local_rate_limiter_http_local_rate_limit_enforced 限流请求数 该指标用于统计被限流的请求数。 ≥0 个 envoy_cluster_circuit_breakers_default_cx_open 连接断路器触发状态 0:连接断路器低于其并发限制。 1:连接断路器已达到容量限制不再接纳。 0、1 无 envoy_cluster_circuit_breakers_high_cx_open envoy_cluster_circuit_breakers_default_cx_pool_open 连接池断路器触发状态 0:连接池断路器低于其并发限制。 1:连接池断路器已达容量限制不再接纳。 0、1 无 envoy_cluster_circuit_breakers_high_cx_pool_open envoy_cluster_circuit_breakers_default_remaining_cx 连接断路器的剩余连接数 断路器达到并发限制之前的剩余连接数。 ≥0 个 envoy_cluster_circuit_breakers_high_remaining_cx envoy_cluster_circuit_breakers_default_remaining_cx_pools 连接池断路器的剩余连接数 断路器连接池达到并发限制之前的剩余连接数。 ≥0 个 envoy_cluster_circuit_breakers_high_remaining_cx_pools envoy_cluster_circuit_breakers_default_remaining_pending 断路器达到并发限制之前剩余的待处理请求数 断路器达到并发限制之前剩余的待处理请求数。 ≥0 个 envoy_cluster_circuit_breakers_high_remaining_pending envoy_cluster_circuit_breakers_default_remaining_retries 断路器达到并发限制之前的剩余重试次数 断路器达到并发限制之前的剩余重试次数。 ≥0 次 envoy_cluster_circuit_breakers_high_remaining_retries envoy_cluster_circuit_breakers_default_remaining_rq 断路器达到并发限制之前剩余的请求数 断路器达到并发限制之前剩余的请求数。 ≥0 个 envoy_cluster_circuit_breakers_high_remaining_rq envoy_cluster_circuit_breakers_default_rq_open 请求断路器触发状态 0:请求断路器低于其并发限制。 1:请求断路器已达容量限制不再接纳。 0、1 无 envoy_cluster_circuit_breakers_high_rq_open envoy_cluster_circuit_breakers_default_rq_retry_open 重试断路器触发状态 0:重试断路器低于其并发限制。 1:重试断路器已达容量限制不再接纳。 0、1 无 envoy_cluster_circuit_breakers_high_rq_retry_open envoy_cluster_ejections_overflow 驱逐达到最大驱逐阈值的次数 主机因请求异常率达到最大驱逐比例而被限制驱逐的次数。 ≥0 次 envoy_cluster_ejections_consecutive_5xx 连续5xx 驱逐次数 主机因连续返回5xx导致的驱逐次数。 ≥0 次 envoy_cluster_ejections_detected_consecutive_5xx 连续5xx 驱逐次数(即使未强制执行) 主机因连续返回5xx导致的驱逐次数(即使未强制执行)。 ≥0 次 envoy_cluster_ejections_detected_consecutive_gateway_failure 检测到的连续网关故障的驱逐次数 检测到的连续网关故障的驱逐次数(即使未强制执行)。 ≥0 次 envoy_cluster_ejections_detected_consecutive_local_origin_failure 连续本地源故障的驱逐次数 检测到的连续本地源故障导致的驱逐次数(即使未强制执行)。 ≥0 次 envoy_cluster_ejections_enforced_consecutive_local_origin_failure 连续本地源故障强制驱逐次数 主机因检测到的连续本地源故障导致的驱逐次数。 ≥0 次 envoy_cluster_ejections_detected_failure_percentage 请求失败率超阈值的驱逐次数 主机因请求失败率达到失败率阈值而被驱逐的次数。 ≥0 次 envoy_cluster_ejections_detected_local_origin_failure_percentage 本地主动请求检测失败率超阈值的驱逐次数 主机因本地主动请求检测失败率超阈值的驱逐次数。 ≥0 次 envoy_cluster_ejections_detected_local_origin_success_rate 本地主动请求检测成功率未达阈值的驱逐次数 主机因本地主动请求检测成功率未达到阈值而触发的驱逐次数(即使未强制执行)。 ≥0 次 envoy_cluster_ejections_detected_success_rate 本地主动请求检测成功率未达阈值的驱逐次数 主机因本地主动请求检测成功率未达到阈值而触发的驱逐次数。 ≥0 次 envoy_cluster_ejections_enforced_consecutive_5xx 连续 5xx 强制驱逐次数 主机因连续 5xx 强制驱逐次数。 ≥0 次 envoy_cluster_ejections_enforced_consecutive_gateway_failure 连续网关故障强制驱逐次数 主机因连续网关故障强制驱逐次数。 ≥0 次 envoy_cluster_ejections_enforced_failure_percentage 请求失败率超阈值而被强制驱逐次数 主机因请求失败率超阈值而被强制驱逐的次数。 ≥0 次 envoy_cluster_ejections_enforced_local_origin_failure_percentage 本地主动请求失败率超阈值而被强制驱逐次数 主机因本地主动请求失败率超过阈值而被强制驱逐的次数。 ≥0 次 envoy_cluster_ejections_enforced_local_origin_success_rate 本地主动请求成功率未达阈值驱逐次数 主机因本地主动请求成功率未达阈值而强制驱逐的次数。 ≥0 次 envoy_cluster_ejections_enforced_success_rate 请求成功率未达阈值驱逐次数 主机因请求成功率未达阈值而强制驱逐的次数。 ≥0 次 envoy_cluster_ejections_enforced_total 强制驱逐的次数 由于任何异常类型而强制驱逐的次数。 ≥0 次 envoy_http_downstream_cx_rx_bytes_total 请求收到的总字节数 请求收到的总字节数。 ≥0 字节(Byte) 父主题: 指标总览
  • 基础指标:IEF指标 介绍IEF服务上报到AOM的监控指标,包括指标的类别、名称、含义等信息。IEF服务的指标上报到AOM后,系统会根据指标映射规则将IEF指标转换后,呈现在AOM控制台的“指标浏览”界面。 表1 IEF服务监控指标 指标类别 分类 AOM呈现的指标 IEF上报的指标 指标名称 指标含义 取值范围 单位 主机指标 CPU aom_node_cpu_limit_core cpuCoreLimit CPU内核总量 该指标用于统计测量对象申请的CPU核总量。 ≥1 核(Core) aom_node_cpu_used_core cpuCoreUsed CPU内核占用量 该指标用于统计测量对象已经使用的CPU核数。 ≥0 核(Core) aom_node_cpu_usage cpuUsage CPU使用率 该指标用于统计测量对象的CPU使用率。 0~100 百分比(%) 内存 aom_node_memory_total_megabytes totalMem 物理内存容量 该指标用于统计测量对象申请的物理内存总量。 ≥0 兆字节(MB) aom_node_memory_free_megabytes freeMem 可用物理内存 该指标用于统计测量对象上的尚未被使用的物理内存。 ≥0 兆字节(MB) aom_node_memory_usage memUsedRate 物理内存使用率 该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。 0~100 百分比(%) aom_node_virtual_memory_usage virMemUsedRate 虚拟内存使用率 该指标用于统计测量对象已使用虚拟内存占虚拟内存总量的百分比。 ≥0 百分比(%) 网络 aom_node_network_receive_bytes recvBytesRate 下行Bps 该指标用于统计测试对象的入方向网络流速。 ≥0 字节/秒(Byte/s) aom_node_network_transmit_bytes sendBytesRate 上行Bps 该指标用于统计测试对象的出方向网络流速。 ≥0 字节/秒(Byte/s) 磁盘 aom_node_disk_capacity_megabytes diskCapacity 磁盘空间容量 总的磁盘空间容量。 ≥0 兆字节(MB) aom_node_disk_available_capacity_megabytes diskAvailableCapacity 可用磁盘空间 还未经使用的磁盘空间。 ≥0 兆字节(MB) aom_node_disk_usage diskUsedRate 磁盘使用率 已使用的磁盘空间占总的磁盘空间容量百分比。 0~100 百分比(%) aom_node_disk_read_kilobytes diskReadRate 磁盘读取速率 该指标用于统计每秒从磁盘读出的数据量。 ≥0 千字节/秒(kB/s) aom_node_disk_write_kilobytes diskWriteRate 磁盘写入速率 该指标用于统计每秒写入磁盘的数据量。 ≥0 千字节/秒(kB/s) GPU aom_node_gpu_memory_free_megabytes gpuMemCapacity 显存容量 该指标用于统计测量对象的显存容量。 ≥0 兆字节(MB) aom_node_gpu_memory_usage gpuMemUsage 显存使用率 该指标用于统计测量对象已使用的显存占显存容量的百分比。 0~100 百分比(%) aom_node_gpu_memory_used_megabytes gpuMemUsed 显存使用量 该指标用于统计测量对象已使用的显存。 ≥0 兆字节(MB) aom_node_gpu_usage gpuUtil GPU使用率 该指标用于统计测量对象显卡使用率。 0~100 百分比(%) 主机 aom_node_process_number processNum 进程数量 该指标用于统计测量对象上正在运行的进程个数。 ≥0 无 Atlas 500 智能小站 aom_node_npu_temperature_centigrade node_temperature 节点温度 Atlas 500小站节点温度,由用户调用edgecore接口上报。 ≥0 摄氏度(℃) node_power node_power 节点功率 Atlas 500小站节点功率,由用户调用edgecore接口上报。 ≥0 瓦(W) node_voltage node_voltage 节点电压 Atlas 500小站节点电压,由用户调用edgecore接口上报。 ≥0 伏(V) npu_temperature npu_temperature 芯片温度 Atlas 500小站节点NPU卡温度,由用户调用edgecore接口上报。 ≥0 摄氏度(℃) npu_health npu_health 芯片健康状态 Atlas 500小站节点NPU卡的健康状态,由用户调用edgecore接口上报。 ≥0 无 ai_cpu_rate ai_cpu_rate AI cpu占用率 昇腾AI加速卡的AI CPU使用率,由用户调用edgecore接口上报。 0~100 百分比(%) ai_core_rate ai_core_rate AI core占用率 昇腾AI加速卡的AI Core使用率,由用户调用edgecore接口上报。 0~100 百分比(%) ctrl_cpu_rate ctrl_cpu_rate 控制cpu占用率 昇腾AI加速卡在控制CPU使用率,由用户调用edgecore接口上报。 0~100 百分比(%) ddr_cap_rate ddr_cap_rate ddr内存占用率 Atlas 500小站节点的ddr内存占用率,由用户调用edgecore接口上报。 0~100 百分比(%) ddr_bw_rate ddr_bw_rate ddr带宽占用率 Atlas 500小站节点的ddr带宽占用率,由用户调用edgecore接口上报。 0~100 百分比(%) 容器指标 CPU aom_container_cpu_limit_core cpuCoreLimit CPU内核总量 该指标用于统计测量对象申请的CPU核总量。 ≥1 核(Core) aom_container_cpu_used_core cpuCoreUsed CPU内核占用量 该指标用于统计测量对象已经使用的CPU核数。 ≥0 核(Core) aom_container_cpu_usage cpuUsage CPU使用率 该指标用于统计测量对象的CPU使用率。 0~100 百分比(%) 内存 aom_container_memory_request_megabytes memCapacity 物理内存容量 该指标用于统计测量对象申请的物理内存总量。 ≥0 兆字节(MB) aom_container_memory_used_megabytes memUsed 物理内存使用量 该指标用于统计测量对象上已使用的物理内存。 ≥0 兆字节(MB) memUsedRate memUsedRate 物理内存使用率 该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。 0~100 百分比(%) 磁盘 aom_container_disk_read_kilobytes diskReadRate 磁盘读取速率 该指标用于统计每秒从磁盘读出的数据量。 ≥0 千字节/秒(kB/s) aom_container_disk_write_kilobytes diskWriteRate 磁盘写入速率 该指标用于统计每秒写入磁盘的数据量。 ≥0 千字节/秒(kB/s) 网络 aom_container_network_receive_bytes recvBytesRate 下行Bps 该指标用于统计测试对象的入方向网络流速。 ≥0 字节/秒(Byte/s) aom_container_network_transmit_bytes sendBytesRate 上行Bps 该指标用于统计测试对象的出方向网络流速。 ≥0 字节/秒(Byte/s) GPU aom_container_gpu_memory_free_megabytes gpuMemCapacity 显存容量 该指标用于统计测量对象的显存容量。 ≥0 兆字节(MB) aom_container_gpu_memory_usage gpuMemUsage 显存使用率 该指标用于统计测量对象已使用的显存占显存容量的百分比。 0~100 百分比(%) aom_container_gpu_memory_used_megabytes gpuMemUsed 显存使用量 该指标用于统计测量对象已使用的显存。 ≥0 兆字节(MB) aom_container_gpu_usage gpuUtil GPU使用率 该指标用于统计测量对象显卡使用率。 0~100 百分比(%) 容器状态 aom_container_status status 容器状态 该指标用于统计容器的状态。 ≥0 无 进程指标 CPU aom_process_cpu_usage cpuUsage CPU使用率 该指标用于统计测量对象的CPU使用率。 0~100 百分比(%) 内存 aom_process_memory_used_megabytes memUsed 物理内存使用量 该指标用于统计测量对象上已使用的物理内存。 ≥0 兆字节(MB) 进程状态 aom_process_status status 进程状态 该指标用于统计进程的状态。 ≥0 无 GPU gpuMemCapacity gpuMemCapacity 显存容量 该指标用于统计测量对象的显存容量。 ≥0 兆字节(MB) gpuMemUsage gpuMemUsage 显存使用率 该指标用于统计测量对象已使用的显存占显存容量的百分比。 0~100 百分比(%) gpuMemUsed gpuMemUsed 显存使用量 该指标用于统计测量对象已使用的显存。 ≥0 兆字节(MB) gpuUtil gpuUtil GPU使用率 该指标用于统计测量对象显卡使用率。 0~100 百分比(%) 父主题: 指标总览
  • 指标命名空间 指标命名空间是对一组资源和对象产生的指标的抽象整合,不同命名空间中的指标彼此独立,因此来自不同应用程序的指标不会被错误地汇聚到相同的统计信息中。 系统指标的命名空间:命名空间是固定不变的,均以“PAAS.”开头,如表1所示。 表1 系统指标命名空间 命名空间名称 说明 PAAS.AGGR 集群指标的命名空间。 PAAS.NODE 主机指标、网络指标、磁盘指标和文件系统指标的命名空间。 PAAS.CONTAINER 组件指标、实例指标、进程指标和容器指标的命名空间。 PAAS.SLA SLA指标的命名空间。 自定义指标的命名空间:用户自定义,自定义时命名空间必须以字母开头,但不能以“PAAS.”、“SYS.”和“SRE.”开头,且以0~9、a~z、A~Z或下划线(_)组成的格式为XX.XX的3~32位字符串。
  • 基础指标:node-exporter指标 介绍通过中间件Exporter上报到AOM的node-exporter指标的类别、名称、含义等信息。 表1 node-exporter指标 Job名称 指标 指标含义 node-exporter node_filesystem_size_bytes 挂载的文件系统占用空间。 node_filesystem_readonly 只读挂载的文件系统。 node_filesystem_free_bytes 挂载的文件系统剩余空间。 node_filesystem_avail_bytes 挂载的文件系统可用空间。 node_cpu_seconds_total 节点CPU时间。 node_network_receive_bytes_total 累积接收数据总量。 node_network_receive_errs_total 接收时遇到的错误累积计数。 node_network_transmit_bytes_total 累积传输数据总量。 node_network_receive_packets_total 接收数据包的累积计数。 node_network_transmit_drop_total 传输时丢弃的累积计数。 node_network_transmit_errs_total 传输时遇到的错误累积计数。 node_network_up 网卡的状态。 node_network_transmit_packets_total 传输数据包的累积计数。 node_network_receive_drop_total 接收时丢弃的累积计数。 go_gc_duration_seconds 数据来自调用debug.ReadGCStats(),调用该函数时,会将传入参数GCStats结构体的PauseQuantile字段设置为5,这样函数将会返回最小、25%、50%、75% 和最大这5个GC暂停时间百分位数。然后prometheus Go客户端根据返回的GC暂停时间百分位数、以及NumGC和PauseTotal变量创建摘要类型指标。 node_load5 节点5分钟CPU负载。 node_filefd_allocated 已分配的文件描述符。 node_exporter_build_info Node Exporter构建信息。 node_disk_written_bytes_total 写入成功的字节总数。 node_disk_writes_completed_total 写入完成的总数。 node_disk_write_time_seconds_total 写入花费的总时长。 node_nf_conntrack_entries 链接状态跟踪表分配的数量。 node_nf_conntrack_entries_limit 链接状态跟踪表总量。 node_processes_max_processes PID限制值。 node_processes_pids PID个数。 node_sockstat_TCP_alloc 已分配的TCP套接字数量。 node_sockstat_TCP_inuse 正在使用的TCP套接字数量。 node_sockstat_TCP_tw 等待关闭的TCP连接数。 node_timex_offset_seconds 时钟时间偏移。 node_timex_sync_status 节点时钟同步状态。 node_uname_info 节点uname信息。 node_vmstat_pgfault /proc/vmstat中的pgfault。 node_vmstat_pgmajfault /proc/vmstat中的pgmajfault。 node_vmstat_pgpgin /proc/vmstat中的pgpgin。 node_vmstat_pgpgout /proc/vmstat中的pgpgout。 node_disk_reads_completed_total 读取完成的总数。 node_disk_read_time_seconds_total 读取花费的总时长。 process_cpu_seconds_total 该指标计算使用到utime(Go进程执行在用户态模式下的滴答数)和stime(Go进程执行在内核态时候的滴答数,例如系统调用时),参数的单位为jiffies,jiffy描述了两次系统定时器中断之间的滴答时间。process_cpu_seconds_total等于utime和stime之和除以USER_HZ。即将程序滴答总数除以 Hz(每秒滴答数)得到就是操作系统运行该进程的总时间(以秒为单位)。 node_disk_read_bytes_total 读取成功的字节总数。 node_disk_io_time_weighted_seconds_total 执行I/O所花费的加权秒数。 node_disk_io_time_seconds_total I/O总耗时。 node_disk_io_now 当前运行的I/O数量。 node_context_switches_total 上下文切换总数。 node_boot_time_seconds 节点开机时间。 process_resident_memory_bytes 即RSS(Resident Set Size),指的是常驻内存集,是进程实际使用的内存,他不包括分配但未使用的内存,也不包括换出的内存页面,但包含共享内存。 node_intr_total 节点中断总数。 node_load1 节点1分钟CPU负载。 go_goroutines 通过runtime.NumGoroutine()调用获取,基于调度器结构sched和全局allglen变量计算得来。由于sched结构体的所有字段可能并发的更改,因此最后会检查计算的值是否小于1,如果小于1,那么返回1。 scrape_duration_seconds 采集scrape target花费的时间 node_load15 节点15分钟CPU负载。 scrape_samples_post_metric_relabeling metric被重设标签后,剩余sample数量。 node_netstat_Tcp_PassiveOpens 从LISTEN状态直接转换到SYN-RCVD状态的TCP连接数。 scrape_samples_scraped scrape target暴露的sample数量。 node_netstat_Tcp_CurrEstab 当前状态为ESTABLISHED或CLOSE-WAIT的TCP连接数。 scrape_series_added scrape target新增加的系列数。 node_netstat_Tcp_ActiveOpens 从CLOSED状态直接转换到SYN-SENT状态的TCP连接数。 node_memory_MemTotal_bytes 节点内存总量。 node_memory_MemFree_bytes 节点空闲内存。 node_memory_MemAvailable_bytes 节点可用内存。 node_memory_Cached_bytes 节点页面缓存中的内存。 up scrape target的状态。 node_memory_Buffers_bytes 节点缓冲区的内存。 父主题: 指标总览
  • 为什么移动端登录邮箱后,关闭APP再重新打开邮箱需要重新登录? 出于安全考虑,2023年2月邮箱增加了如下机制:邮箱设置为 企业邮箱 。 且成员的信息里面并没有绑定邮箱,如下图所示: 该成员在移动端登录,需要手动输入邮件地址和密码,但是不会自动绑定,再次打开APP需要重新登录。 针对以上策略的解决措施: 修改为个人邮箱类型,用户登录后可以自动绑定,缺点是无法限制成员登录的邮箱(比如:管理员想让成员登录公司邮箱,成员可以自行登录其他邮箱); 管理员在成员的个人信息里面增加邮箱即可。 父主题: 邮件
  • IM消息 收发IM消息 支持收发文本消息、文件、音视频等各种富媒体消息,在线播放音视频,支持显示已读/未读消息。 长按某条文本消息,在弹出的菜单,可随手复制、转发、收藏、引用、撤回、删除等,文件/音视频等消息还支持转存至云空间。 点击“保存到手机”,还可将收到的图片、视频、文件下载到本地指定目录。需要管理员在后台开启白名单权限。 收藏IM消息 用户可在“个人中心>收藏”,查看所有收藏的文字或网页等。 引用并回复IM消息 长按某条消息,在弹出的菜单,单击“引用”,可引用并回复该消息。 拷贝IM消息到外部应用 管理员在管理后台将员工加入到安全沙箱白名单后,该员工在手机端可将文档、压缩文件、音视频和图片(只支持邮箱附件的音视频和图片,消息和云空间里暂不支持)等文件下载到本地,还可复制文本信息,并粘贴到其他应用。 云端存储IM消息 当前IM消息云端存储周期为90天,企业可通过购买消息存储周期服务套餐将存储周期延长至180天、360天、720天。 编辑拍照获取的图片并发送。
  • 移动端绑定邮箱 已绑定企业邮箱 管理员为您开通账号的同时为您绑定了企业邮箱。 单击“邮件”,输入企业邮箱的密码后,就能在外收发企业邮件啦。 未绑定企业邮箱 管理员在管理后台,设置邮箱登录方式为“个人邮箱”。 员工单击“邮件”,可登录任意邮箱。 您在登录时遇到任何问题,可点击界面下方“客服”,转到智能客服寻求帮助。 当您绑定的邮箱为QQ邮箱时,请使用授权码登录。单击“快速获取授权码”,可直接跳转到网页版QQ邮箱,登录后获取授权码。具体方法请参考1.21.1 如何获取QQ邮箱授权码?。 当您绑定的邮箱为网易邮箱时,请使用授权码登录。具体方法请参考1.21.2 如何获取网易邮箱授权码?。
  • 预约会议 进入 WeLink 【消息】界面,点击右上角的“+”>“会议”,或者在 “业务”中搜索 “会议”,选择“应用>会议”,进入“会议”界面。 点击“预约会议”。 选择设置会议主题、会议类型、开会时间、会议时长、会议ID和与会人等信息后,点击“预约会议”,即可预约会议。 新注册企业默认关闭短信通知功能,不能收到会议通知、会议邀请等所有会议相关短信。如有需求,请申请开通。 可以选择使用不同类型的会议ID,并设置来宾密码 个人会议ID:保持不变,方便记忆,适合召开部门例会。 此时可对来宾密码进行修改或置空的操作,置空后,其他用户无需输入会议密码即可主动接入会议。 随机会议ID:随机产生,适合发起临时讨论,或召开安全性高的会议。 此时可以选择是否启用来宾密码。 在“高级设置>通知”中选择是否发送邮件、短信通知和邮件日历给所有与会者。 预约会议后,可再次编辑和修改会议信息 在“会议”界面的会议列表里,选择需要修改的会议,进入“会议详情”,点击右上角的,选择“编辑会议”,即可修改会议信息。 使用个人会议ID预约会议,如果通过会议链接提前加入,此会议会被提前召开,此时使用个人会议ID发起立即会议进入会议或者通过会议链接/会议ID+密码的方式进入个人会议的其他预约会议,都会进入到正在召开的会议中。 当会议中的所有人退出会议后半小时内,此时使用个人会议ID发起立即会议进入会议或者通过会议链接/会议ID+密码的方式进入个人会议的其他预约会议,都会进入到正在召开的会议中。 当会议中的所有人退出会议半小时后,正在召开的会议会被自动结束并转为历史会议记录,预约记录会保留,此后仍可以进入会议。 如果主持人离开会议的时候选择了离开并结束会议,会将此在线会议结束,并清除预约记录。
  • 加入会议 用户可通过多种方式加入会议 点击邀请邮件/短信中的会议分享链接即可入会。 在“会议”界面的会议列表里,选择需要参加的会议,点击“开始”。 在“会议”界面选择“加入会议”,输入会议ID、姓名和密码(若会议发起者没有设置密码,则不需要),点击“加入会议”即可入会。 会议ID和密码从会议通知邮件/短信中获取。 移动端支持扫描二维码,加入会议。会议二维码请会议发起者从会议详情中获取。 电话主动入会 在未安装 WeLink客户端 ,或者没有移动网络情况下,手机或者固话直接拨打号码02153290005,根据语音提示输入会议ID和密码,即可入会。
  • 快速创会 进入WeLink【消息】界面,点击右上角的“+”>“会议”,或者在 “业务”中搜索 “会议”,选择“应用>会议”,进入“会议”界面。 点击“发起会议”。 输入会议名称,选择会议类型、添加与会者、会议ID,设置“来宾密码”等信息后,单击“立即开始”,即可发起会议。 邀请与会人 在发起会议界面,点击“邀请”,可添加与会者,拉会参会更便捷。 发起的会议支持同步到WeLink日历 支持分享会议,与会人可直接点击链接入会 移动端和PC端可以同时发起会议,互不影响。
  • 收发文件 您可以在WeLink云空间中直接管理云端文件,支持文件上传、下载、分类、在线预览,随时随地简单、快捷、高效地收发文件。 注:首次使用WeLink浏览文档时,需要按照提示安装并激活WPS,后续可直接浏览各类文档。 文件支持上传云空间 点击“业务>日常办公>云空间”,点击右上角的,选择要上传的文件类型,即可将文件上传到云空间。 在线查看文档 申请了在线文档试用权限的组织,可免下载文档,可在线查看7类文档,包括doc、docx、xls、xlsx、ppt、pptx、pdf。
  • SSL证书即将到期,该如何处理? SSL证书存在有效期限制。证书过期前必须及时续费,否则将导致证书过期后不被信任,已安装证书的网站业务会受到影响(提示访问不安全或无法访问)。 SSL证书即将到期前,可在控制台设置开通自动续费或手动执行续费操作。手动续费操作入口将在SSL证书到期前30个自然日内开放,其余时间不支持操作。 SCM会在证书到期前30天提醒您证书即将到期。 已签发的证书,系统还会在证书到期前两个月、一个月、一周、三天、一天和到期时,发送邮件和短信提醒用户。 上传的第三方证书过期后,如您需要继续使用,请重新购买并上传,上传证书操作具体请参考上传已有SSL证书。 重新购买或续费证书成功后(重新购买、手动续费时您需要重新提交证书审核申请),您将获得一张新的证书,您需要在您的服务器上安装新证书来替换即将过期的证书,或在对应的云产品中替换新的证书。 新证书签发后即可替换,替换过程不会影响业务。 如果您未开通自动续费,证书到期前您需预留3-10个工作日重新购买或手动续费,如果您已开通自动续费,请注意查收验证提醒的短信通知,您收到验证通知后请提前3-10个工作日配合完成相关的验证操作,以免证书审核还未完成之前现有证书已经过期。 证书续费后,新旧证书有效期说明如下: 续费证书信息不变 在证书信息不变情况下,新申请的证书的到期时间=原证书到期时间+新申购证书的有效期。最多累加30天,如果您未开通自动续费,建议您提前30天开始申请证书。 示例:您的原有证书到期时间是2019年10月1号,您于2019年8月31号申请同品牌、同类型SSL证书,有效期为1年。新证书于2019年9月1号签发,签发有效期将为2019年9月1号~2020年9月30号。 此条规则由证书签发CA制定、解释和澄清,如有疑问,华为云将配合您与CA机构进行沟通和协商。 手动续费过程中修改了新证书信息(如域名、证书类型或公司名称等不同于旧证书) 新旧证书有效期分别计算。 新签发证书不影响之前旧证书,旧证书到期前均可使用,两张证书均可使用。 父主题: 证书有效期
  • 解决方案 查看用户Dockerfile中的COPY命令中的文件的路径。将要复制的文件放到Dockerfile同级目录或子目录中,如图,Dockerfile在“./.ma/customize_from_ubuntu_18.04_to_modelarts/路径下”,需要将文件放到“/home/ma-user/work/.ma/customize_from_ubuntu_18.04_to_modelarts”下。 图3 查询Dockerfile的路径 Dockerfile命令修改为相对路径,举例如下: COPY ./mindspore-2.1.0-cp39-cp39-linux_aarch64.whl /tmp/mindspore-2.1.0-cp39-cp39 -linux_aarch64.whl
  • 原因分析 根据现象描述可能出现了nvidia-smi D+进程。 "D+"表示进程状态为"Uninterruptible Sleep (usually IO)",即进程正在等待I/O操作完成,此时无法被中断。 在正常情况下,nvidia-smi进程通常只会短暂地出现D+状态,因为它们是由内核控制的,该进程处于等待I/O操作完成的状态,可能是在读取或写入GPU相关的数据,这是正常的操作。但是,如果该进程一直处于"D+"状态,可能表明出现了I/O操作阻塞或其他问题,这可能导致系统死锁或其他问题。 如果想构造nvidia-smi D+进程,可以死循环一直执行nvidia-smi体验D+进程带来的系统不稳定性, 如: #!/bin/bash while true; do nvidia-smi & sleep 1 # 可以根据需要调整间隔时间 done 然后执行查看产生nvidia D+进程 ps -aux | grep -w D+ 结果如下: 图1 nvidia D+进程 此时可以观察你的训练任务或者执行“nvidia-smi”等命令,几乎是卡顿无法执行,因为内核IO已经阻塞, 无法执行相关GPU命令,只能尝试释放D+进程。
  • 解决方法 在遇到资源不足的情况时,ModelArts会进行三次重试,在服务重试期间,如果有资源释放出来,则服务可以正常部署成功。 如果三次重试后依然没有足够的资源,则本次服务部署失败。参考以下方式解决: 如果是在公共资源池部署服务,可等待其他用户释放资源后,再进行服务部署。 如果是在专属资源池部署服务,在满足模型需求的前提下,尝试选用更小的容器规格或自定义规格,进行服务部署; 如果当前资源池的资源确实不够,也可以考虑将资源池扩容后再进行服务部署。公共资源池扩容,请联系系统管理员。专属资源池扩容,可参考扩缩容资源池。 如果磁盘空间不够,可以尝试重试,使实例调度到其他节点。如果单实例仍磁盘空间不足,请联系系统管理员,更换合适的规格。 如果是大模型导入的模型部署服务,请确保专属资源池磁盘空间大于1T(1000GB)。
  • 处理方法 到SWR检查下对应的镜像是否存在,对应镜像的镜像地址是否和实际地址一致,大小写,拼写等是否一致。 检查用户给ModelArts的委托中是否有SWR的权限,可以在权限管理中查看对应用户的授权内容,查看授权详情。如果没有对应权限,需要到 统一身份认证 服务给对应委托中加上对应权限。 图1 权限管理 图2 查看权限详情和去 IAM 修改委托权限 图3 给委托添加授权 将镜像设置成私有镜像 登录 容器镜像服务 (SWR),左侧导航栏选择“我的镜像”,查看镜像详情,单击右上角“编辑”按钮,把镜像类型修改为“私有”。 图4 修改镜像类型为私有
  • 处理方法1 在ModelArts管理控制台,选择“权限管理”。 在用户名对应的“授权内容”列,单击“查看权限”,确认用户的委托权限是否已包含Tenant Administrator。 图1 查看委托权限详情 是,重新“启动”边缘服务,如果还是“异常”则联系技术支持处理。 否,执行下一步,给用户添加委托权限。 添加委托权限。 如果是IAM子账号,没有修改委托权限,请联系管理员添加Tenant Administrator委托权限。 登录统一身份认证服务IAM管理控制台。 单击导航栏的“委托”,进入委托页面。 搜索ModelArts使用的委托,例如“modelarts_agency”,单击委托名称进入“基本信息”页面。 单击“授权”,添加Tenant Administrator权限,按操作指引完成授权。 授权完成后,重新“启动”边缘服务,观察状态是否正常。
  • 常见问题 模型文件目录下不能出现dockerfile文件; “查看构建日志”中显示“Not only a Dockerfile in your OBS path, please make sure, The dockerfile list”,表示dockerfile文件目录有问题,模型文件目录下不能出现dockerfile文件,需要去掉模型文件目录下存在dockerfile文件。 图2 构建日志:dockerfile文件目录有问题 pip软件包版本不匹配,需要修改为日志中打印的存在的版本。 图3 pip版本不匹配 构建日志中出现报错:“exec /usr/bin/sh: exec format error”。 这种报错一般是因为所用镜像系统引擎和构建镜像的系统引擎不一致引起的,例如使用的是x86的镜像却标记的是arm的系统架构。 可以通过查看模型详情看到配置的系统运行架构。基础镜像的系统架构详情可以参考推理基础镜像列表。
  • 问题定位和处理 创建模型失败有两种场景:创建模型时直接报错或者是调用API报错和创建模型任务下发成功,但最终模型创建失败。 创建模型时直接报错或者是调用API报错。一般都是输入参数不合法导致的。您可以根据提示信息进行排查修改即可。 创建模型任务下发成功,但最终模型创建失败。需要从以下几个方面进行排查: 在模型详情页面,查看“事件”页签中的事件信息。根据事件信息分析模型失败原因,进行处理。 如果模型状态为“构建失败”,可以在模型详情页面,查看“事件”页签中的“查看构建日志”。构建日志中有对应的构建镜像失败的详细原因,根据构建失败的原因进行排查处理。 图1 查看构建日志
  • 解决方案 查看“/home/ma-user/log/”下以“kernelgateway”开头的最新日志文件,搜索“Starting kernel”附近的日志。如果看到如下类似的堆栈,可看到是因为用户工作目录下的“code.py”和创建kernel依赖的import code文件名冲突: 重命名当前工作目录下和创建kernel依赖的库文件冲突的文件名称。 常见容易冲突的文件:code.py、select.py。
  • 解决方法一 方法一:检查VS Code网络是否正常。在VS Code插件市场上搜索ModelArts-HuaweiCloud,如果显示如下则网络异常,请切换代理或使用其他网络。 操作完成后再次执行搜索,如果显示如下则网络正常,请回到ModelArts控制台界面再次单击界面上的“VS Code接入”按钮。 方法二:出现如下图报错,是由于VS Code版本过低,建议升级VS Code版本为1.57.1或者最新版。
  • 解决方法 如果当前环境未安装OpenSSH,请下载并安装OpenSSH。 当通过“可选功能”未能成功安装时,请手动下载OpenSSH安装包,然后执行以下步骤: 下载zip包并解压放入“C:\Windows\System32”。 以管理员身份打开CMD,在“C:\Windows\System32\OpenSSH-xx”目录下,执行以下命令: powershell.exe -ExecutionPolicy Bypass -File install-sshd.ps1 添加环境变量:将“C:\Program Files\OpenSSH-xx”(路径中包含ssh可执行exe文件)添加到环境系统变量中。 重新打开CMD,并执行ssh,结果如下图即说明安装成功,如果还未装成功则执行5和6。 OpenSSH默认端口为22端口,开启防火墙22端口号,在CMD执行以下命令: netsh advfirewall firewall add rule name=sshd dir=in action=allow protocol=TCP localport=22 启动OpenSSH服务,在CMD执行以下命令: Start-Service sshd 如果OpenSSH未安装在默认路径下,打开命令面板(Windows: Ctrl+Shift+P,macOS:Cmd+Shift+P), 搜索“Open settings”。 然后将remote.SSH.path属性添加到settings.json中,例如:"remote.SSH.path": "本地OpenSSH的安装路径"
  • 处理方法 ModelArts.3551:到obs检查输入数据目录是否存在,如果不存在,请按照实际需要创建obs目录;如果检查发现目录存在,但依然报同样的错,可以提工单申请技术支持 ModelArts.3567:用户只能访问自己账号下的obs目录,ModelArts在读取其他用户obs下的数据时,需要用户委托权限,没有创建委托,就没有权限使用其他用户obs中的数据。 登录ModelArts控制台,管理控制台,在左侧导航栏中选择“权限管理”,单击“查看权限”,检查是否配置了obs的委托权限。 图1 查看权限 如果检查后已经存在委托,但是仍然无法访问,可以提工单寻求技术支持。
共100000条
提示

您即将访问非华为云网站,请注意账号财产安全