华为云用户手册

  • 获取转发列表 获取指定微博的转发微博列表。 输入参数 输入参数说明如表5所示。 表5 获取转发列表输入参数说明 参数 必填 说明 access_token 否 access_token。 微博ID 是 需要获取数据的微博ID。 起始ID 否 返回ID比起始ID大的微博(即比起始ID时间晚的微博),默认为0。 最大ID 否 返回ID小于或等于最大的微博,默认为0。 记录条数 否 单页返回的记录条数,最大不超过100,超过100以100处理,默认为20。 页码 否 返回结果的页码,默认为1。 作者筛选 否 作者筛选类型。默认为0。 0:全部 1:我关注的人 2:陌生人 输出参数 用户可以在之后的执行动作中调用该输出参数,输出参数说明请参见表6。 表6 获取转发列表输出参数说明 参数 说明 reposts 转发列表。 -created_at 微博创建时间。 -id 微博ID。 -text 微博信息内容。 -source 微博来源。 -favorited 是否已收藏。 true:是 false:否 -truncated 是否被截断。 true:是 false:否 -in_reply_to_status_id 回复ID。 -in_reply_to_user_id 回复人UID。 -in_reply_to_screen_name 回复人昵称。 -geo 地理信息字段。 -mid 微博MID。 -reposts_count 转发数。 -comments_count 评论数。 -annotations annotations。 -user 用户。 --id 用户UID。 --screen_name 用户昵称。 --name 用户友好显示名称。 --province 用户所在省级ID。 --city 用户所在城市ID。 --location 用户所在地。 --description 用户个人描述。 --url 用户博客地址。 --profile_image_url 用户头像地址。 --domain 用户的微博统一的URL地址。 --gender 性别。 m:男 f:女 n:未知 --followers_count 粉丝数。 --friends_count 关注数。 --statuses_count 微博数。 --favourites_count 收藏数。 --created_at 用户创建(注册)时间。 --following following。 --allow_all_act_msg 是否允许所有人给我发私信。 true:是 false:否 --remark remark。 --geo_enabled 是否允许标识用户的地理位置。 true:是 false:否 --verified 是否是微博认证用户,即加V用户。 true:是 false:否 --allow_all_comment 是否允许所有人对我的微博进行评论。 true:是 false:否 --avatar_large 用户头像地址,大图。 --verified_reason 认证原因。 --follow_me 该用户是否关注当前登录用户。 true:是 false:否 --online_status 用户的在线状态。 0:不在线 1:在线 --bi_followers_count 用户的互粉数。 -retweeted_status retweeted_status。 --created_at 微博创建时间。 --id 微博ID。 --text 微博信息内容。 --source 微博来源。 --favorited 是否已收藏。 true:是 false:否 --truncated 是否被截断。 true:是 false:否 --in_reply_to_status_id 回复ID。 --in_reply_to_user_id 回复人UID。 --in_reply_to_screen_name 回复人昵称。 --geo 地理信息字段。 --mid 微博MID。 --annotations annotations。 --reposts_count 转发数。 --comments_count 评论数。 --user 用户。 ---id 用户UID。 ---screen_name 用户昵称。 ---name 用户友好显示名称。 ---province 用户所在省级ID。 ---city 用户所在城市ID。 ---location 用户所在地。 ---description 用户个人描述。 ---url 用户博客地址。 ---profile_image_url 用户头像地址。 ---domain 用户的微博统一的URL地址。 ---gender 性别。 m:男 f:女 n:未知 ---followers_count 粉丝数。 ---friends_count 关注数。 ---statuses_count 微博数。 ---favourites_count 收藏数。 ---created_at 用户创建(注册)时间。 ---following following。 ---allow_all_act_msg 是否允许所有人给我发私信。 true:是 false:否 ---remark remark。 ---geo_enabled 是否允许标识用户的地理位置。 true:是 false:否 ---verified 是否是微博认证用户,即加V用户。 true:是 false:否 ---allow_all_comment 是否允许所有人对我的微博进行评论。 true:是 false:否 ---avatar_large 用户头像地址,大图。 ---verified_reason 认证原因。 ---follow_me 该用户是否关注当前登录用户。 true:是 false:否 ---online_status 用户的在线状态。 0:不在线 1:在线 ---bi_followers_count 用户的互粉数。 total_number 总数。
  • 获取转发数评论数 批量获取指定微博的转发数、评论数。 输入参数 输入参数说明如表3所示。 表3 获取转发数评论数输入参数说明 参数 必填 说明 微博ID 是 需要获取数据的微博ID,多个之间用逗号分隔,最多不超过100个。 输出参数 用户可以在之后的执行动作中调用该输出参数,输出参数说明请参见表4。 表4 获取转发数评论数输出参数说明 参数 说明 id 微博ID。 comments 评论数。 reposts 转发数。
  • 通过个性化 域名 获取用户资料 通过个性化域名获取用户资料以及用户最新的一条微博。 输入参数 输入参数说明如表1所示。 表1 通过个性化域名获取用户资料输入参数说明 参数 必填 说明 个性化域名 是 需要查询的个性化域名。 输出参数 用户可以在之后的执行动作中调用该输出参数,输出参数说明请参见表2。 表2 通过个性化域名获取用户资料输出参数说明 参数 说明 id 用户UID。 screen_name 用户昵称。 name 用户友好显示名称。 province 用户所在省级ID。 city 用户所在城市ID。 location 用户所在地。 description 用户个人描述。 url 用户博客地址。 profile_image_url 用户头像地址。 domain 用户的微博统一的URL地址。 gender 性别。 m:男 f:女 n:未知 followers_count 粉丝数。 friends_count 关注数。 statuses_count 微博数。 favourites_count 收藏数。 created_at 用户创建(注册)时间。 allow_all_act_msg 是否允许所有人给我发私信。 true:是 false:否 geo_enabled 是否允许标识用户的地理位置。 true:是 false:否 verified 是否是微博认证用户,即加V用户。 true:是 false:否 status 用户的最近一条微博信息字段。 -created_at 微博创建时间。 -id 微博ID。 -text 微博信息内容。 -source 微博来源。 -favorited 是否已收藏。 true:是 false:否 -truncated 是否被截断。 true:是 false:否 -in_reply_to_status_id 回复ID。 -in_reply_to_user_id 回复人UID。 -in_reply_to_screen_name 回复人昵称。 -geo 地理信息字段。 -mid 微博MID。 -reposts_count 转发数。 -comments_count 评论数。 allow_all_comment 是否允许所有人对我的微博进行评论。 true:是 false:否 avatar_large 用户头像地址,大图。 verified_reason 认证原因。 follow_me 该用户是否关注当前登录用户。 true:是 false:否 online_status 用户的在线状态。 0:不在线 1:在线 bi_followers_count 用户的互粉数。
  • 菜谱查询 查询指定食材或菜名的做法。 输入参数 用户配置菜谱查询执行动作,相关参数说明如表2所示。 表2 菜谱查询输入参数说明 参数 必填 说明 食材或菜名 是 输入食材或菜名。 返回数量 否 返回信息数量。 页数 否 页数。 输出参数 用户可以在之后的执行动作中调用该输出参数,输出参数说明请参考表3。 表3 菜谱查询输出参数说明 参数 说明 菜谱ID 菜谱ID。 类型ID 类型ID。 类型名称 所属类型名称。 菜肴名称 菜肴名称。 做法 做法。 菜肴特性 菜肴特性。 提示 小提示。 调料 需要添加的调料。 原料 需要的原料。
  • 实时汇率查询换算 输入参数 输入参数说明如表2所示。 表2 实时汇率查询换算输入参数说明 参数 必填 说明 源货币 是 源货币。 人民币、美元、日元、欧元、英镑、韩元、港币等。 目标货币 是 目标货币。 人民币、美元、日元、欧元、英镑、韩元、港币等。 输出参数 用户可以在之后的执行动作中调用该输出参数,输出参数说明请参见表3。 表3 实时汇率查询换算输出参数说明 参数 说明 查询结果 查询结果。 -源货币代码 源货币代码。 -源货币名称 源货币名称。 -目标货币代码 目标货币代码。 -目标货币名称 目标货币名称。 -当前汇率 当前汇率。 -当前汇率 当前汇率(保留4位)。 -更新时间 更新时间。
  • 意图理解 针对天气类、报时、新闻类、笑话类、翻译类、提醒类、闹钟类、音乐类8个领域进行意图理解。意图理解包括对用户的问题,陈述进行领域识别以及对所对应领域所包含的实体进行抽取。 输入参数 用户配置意图理解执行动作,相关参数说明如表16所示。 表16 意图理解输入参数说明 参数 必填 说明 待分析的文本 是 待分析文本,长度在32个字符以内,文本长度超过32字符时,只检测前32个字符。 文本语言类型 否 支持的文本语言类型,目前只支持zh(中文),默认zh,有下拉框和输入框模式。 输出参数 用户可以在之后的执行动作中调用该输出参数,输出参数说明请参考表17。 表17 意图理解输出参数说明 参数 说明 置信度 分析结果的可信程度。 意图标签 文本的意图标签。 拆解结果 意图的拆解结果。 待分析文本 输入的意图文本。 实体类型 实体的类型。 实体文本长度 实体的文本长度。 同义词或者其他标准表达的词 同义词或者其他标准表达的词,默认为原始的word。 返回待分析文本 返回待分析的文本。 错误码 调用失败时的错误码,调用成功时无此字段。 错误信息 调用失败时的错误信息,调用成功时无此字段。
  • 实体级情感分析 实体级情感分析,本接口用于检测指定实体(entity)在文本(content)中的正负面分析,适用于金融方面公司实体正负面新闻的分析。 输入参数 用户配置实体级情感分析执行动作,相关参数说明如表10所示。 表10 实体级情感分析输入参数说明 参数 必填 说明 待分析的文本 是 待分析文本,仅支持中文,限定512个字符以内,超过512字符,只检测前512个字符。 待分析的实体 是 待分析实体名称。 领域类型 是 支持的领域类型,目前支持金融领域,有下拉框和输入框模式。 输出参数 用户可以在之后的执行动作中调用该输出参数,输出参数说明请参考表11。 表11 实体级情感分析输出参数说明 参数 说明 待分析文本 输入待分析的文本。 实体名称 输入的实体名称。 情感标签 0表示负面,1表示非负面,2表示不相关。 置信度 分析实体结果可靠程度。
  • 文档分类 文档分类接口对用户输入的文本自动分类,给文本具体的分类。用户只要提供待处理的文本,而不用关注具体实现。主要应用场景:新闻内容分类,广告识别等。 输入参数 用户配置文档分类执行动作,相关参数说明如表14所示。 表14 文档分类输入参数说明 参数 必填 说明 待分析文档内容 是 待分析文档内容,长度限定10000个字符以内,超过10000个字符截取前10000个字符。 文本语言类型 否 支持的文本语言类型,目前只支持zh(中文),默认zh,有下拉框和输入框模式。 输出参数 用户可以在之后的执行动作中调用该输出参数,输出参数说明请参考表15。 表15 文档分类输出参数说明 参数 说明 文档标签 输入的文档标签。 置信度 分类结果的可靠程度。
  • 文本分类 针对广告领域的自动分类,判断是否是广告。 输入参数 用户配置文本分类执行动作,相关参数说明如表12所示。 表12 文本分类输入参数说明 参数 必填 说明 待分析的文本 是 待分析文本,仅支持中文和英文,限定400个字符以内,超过400字符,只检测前400个字符。 检测类型 否 支持的检测类型,目前支持广告检测,有下拉框和输入框模式。 输出参数 用户可以在之后的执行动作中调用该输出参数,输出参数说明请参考表13。 表13 文本分类输出参数说明 参数 说明 待分析文本 输入待分析的文本。 分析结果 1为广告,0为非广告。 置信度 分类结果的可靠程度。
  • 情感分析(领域版) 领域情感分析,针对电商,汽车领域,自适应领域(通用、电商、汽车)的用户评论进行情感分析。 输入参数 用户配置情感分析(领域版)执行动作,相关参数说明如表4所示。 表4 情感分析(领域版)输入参数说明 参数 必填 说明 待分析的文本 是 自适应/电商领域,支持输入200个字,汽车领域支持输入400个字。 所属领域 否 有自适应,电商,汽车三种领域,可使用输入框或者下拉框输入方式。
  • 属性级情感分析 本产品适用于评论文本的属性级正负面分析。 输入参数 用户配置属性级情感分析执行动作,相关参数说明如表6所示。 表6 属性级情感分析输入参数说明 参数 必填 说明 待分析的文本 是 待分析文本,仅支持中文。文本长度在1000个字符以内。 领域类型 是 支持的领域类型,目前只支持手机领域,有下拉框和输入框模式。 输出参数 用户可以在之后的执行动作中调用该输出参数,输出参数说明请参考表7。 表7 属性级情感分析输出参数说明 参数 说明 待分析文本 输入待分析的文本。 文本情感标签分析结果 1表示积极,0表示消极。 置信度 识别结果的可靠程度。 挖掘列表 属性级情感挖掘列表。 属性类别 属性的类别。 属性词 属性词,与对应的描述词至少出现其中之一,可能为null。 描述词 描述词,与对应的属性词至少出现其中之一,可能为null。 情感标签 情感标签,0:负向,1:正向。 置信度 属性分析结果可靠程度。 属性-描述词片段所对应的标签 属性-描述词片段所对应的标签如果分类为“其他”,则不给出标签,返回null。
  • 属性级情感分析(高级版) 本产品适用于评论文本的属性级正负面分析,文本长度不超过4096字符。 输入参数 用户配置属性级情感分析(高级版)执行动作,相关参数说明如表8所示。 表8 属性级情感分析(高级版)输入参数说明 参数 必填 说明 待分析的文本 是 待分析文本,仅支持中文,建议文本长度300个字符以内。 领域类型 是 支持的领域类型,目前支持手机领域和汽车领域,有下拉框和输入框模式。 输出参数 用户可以在之后的执行动作中调用该输出参数,输出参数说明请参考表9。 表9 属性级情感分析(高级版)输出参数说明 参数 说明 待分析文本 输入待分析的文本。 情感标签 1表示积极,0表示消极。 置信度 识别结果的可靠程度。 挖掘列表 属性级情感挖掘列表。 属性类别 属性的类别。 情感标签 情感标签,0:负向,1:正向。 情感标签置信度 属性分析结果可靠程度。 属性描述词 属性的描述词。 观点描述词 观点的描述词。 观点标签 观点的标签。
  • 全国景点查询接口 输入参数 输入参数说明如表7所示。 表7 全国景点查询接口输入参数说明 参数 必填 说明 景点名称的汉字 否 景点名称的汉字。 省级id 否 省级ID。 城市id 否 城市ID。 镇id 否 镇ID。 第几页 否 第几页。 输出参数 用户可以在之后的执行动作中调用该输出参数,输出参数说明请参见表8。 表8 全国景点查询接口输出参数说明 参数 说明 分页数据 分页数据。 总数量 总数量。 总页数 总页数。 页面内数据列表 页面内数据列表。 -省级id 省级ID。 -省级名称 省级名称。 -城市id 城市ID。 -城市名 城市名。 -镇id 镇ID。 -镇名称 镇名称。 -景点名称 景点名称。 -景点地址 景点地址。 -质量等级 质量等级。 -注意事项 注意事项。 -开放时间 开放时间。 -优惠政策 优惠政策。 -景区介绍 景区介绍。 -坐标 坐标。 --经度 经度。 --维度 维度。 -景点描述 景点描述。 -最低门票价 最低门票价。 -价格列表 价格列表。 --景区图片url 景区图片url。 --景区缩略图url 景区缩略图url。 -当前页 当前页。 -每页最大条目数 每页最大条目数。 调用状态 调用状态。 0为成功,其他失败。
  • 包年/包月资源 对于包年/包月计费模式的弹性公网IP,用户在购买时会一次性付费,服务将在到期后自动停止使用。 如果在计费周期内不再使用包年/包月资源,您可以执行退订操作,系统将根据资源是否属于五天无理由退订、是否使用代金券和折扣券等条件返还一定金额到您的账户。详细的退订规则请参见云服务退订规则概览。 如果您已开启“自动续费”功能,为避免继续产生费用,请在自动续费扣款日(默认为到期前7日)之前关闭自动续费。
  • 按需计费的EIP费用 按需计费的EIP费用由弹性公网IP保有费和固定带宽费用组成。 表1 按需计费的EIP费用组成 计费项 计费说明 弹性公网IP保有费 已购买的EIP未绑定云资源时,会收取弹性公网IP保有费,即IP保有费。 固定带宽费用 (不同计费方式有不同的计费主体) 按需计费(按带宽计费)的带宽费用 按需计费(按流量计费)的流量费用 共享带宽费用 不同的EIP资源状态,EIP的费用不同。具体参见表2。 表2 按需计费EIP在不同资源状态的费用 EIP资源状态 按需计费(按带宽计费) 按需计费(按流量计费) 按需计费(加入共享带宽) 未绑定EIP计费 弹性公网IP保有费 带宽费 弹性公网IP保有费 弹性公网IP保有费 共享带宽费 绑定EIP计费 带宽费 说明: 无论EIP绑定的实例是否运行,都会收取带宽费,比如E CS 关机后,会继续收取带宽费,不收取弹性公网IP保有费。 流量费 说明: EIP绑定的实例停止运行后,不产生流量则不收取流量费,比如ECS关机后,停止收取流量费,不收取弹性公网IP保有费。 共享带宽费 解绑EIP计费 弹性公网IP保有费 带宽费 弹性公网IP保有费 弹性公网IP保有费 共享带宽费 释放EIP计费 停止收取带宽费和弹性公网IP保有费。 停止收取流量费和弹性公网IP保有费。 停止收取弹性公网IP保有费。 删除共享带宽,停止收取带宽费。
  • 变更配置后对计费的影响 如果您在购买增强型95计费的共享带宽后变更了共享带宽配置,会产生一个新订单并开始按新配置的价格计费,旧订单自动失效。 如果您在一个小时内变更了共享带宽配置,将会产生多条计费信息。每条计费信息的开始时间和结束时间对应不同配置在该小时内的生效时间。 例如,您在9:00:00购买了一个按增强型95计费共享带宽,带宽大小500Mbit/s,并在9:30:00升配带宽大小1000Mbit/s,那么在9:00:00 ~ 10:00:00间会产生两条计费信息。 9:00:00 ~ 9:30:00,按照带宽大小500Mbit/s计费。 9:30:00 ~ 10:00:00,按照带宽大小1000Mbit/s计费。
  • 可能原因 表1 按需计费EIP继续扣费可能原因 EIP当前情况 EIP计费方式 可能产生费用的原因 EIP已经和实例解绑 按需计费,按流量计费 弹性公网IP保有费:按需计费的EIP和实例解绑的情况下,会收取弹性公网IP保有费。 如果您的EIP已经不需要使用,那么解绑后,为了避免产生额外费用(即弹性公网IP保有费),请您释放弹性公网IP。 流量费:按流量计费的EIP,与实例解绑后,会停止计费。 按需计费,按带宽计费 弹性公网IP保有费:按需计费的EIP和实例解绑的情况下,会收取弹性公网IP保有费。 如果您的EIP已经不需要使用,那么解绑后,为了避免产生额外费用(即弹性公网IP保有费),请您释放弹性公网IP。 带宽费:按带宽计费的EIP,与实例解绑后,还会继续收取带宽费。 如果您希望免除带宽费,可以将EIP的计费方式从按带宽计费变为按流量计费。 按需计费,加入共享带宽 弹性公网IP保有费:按需计费的EIP和实例解绑的情况下,会收取弹性公网IP保有费。 如果您的EIP已经不需要使用,那么解绑后,为了避免产生额外费用(即弹性公网IP保有费),请您释放弹性公网IP。 带宽费:加入共享带宽的EIP,与实例解绑后,还会继续收取共享带宽费。 共享带宽和EIP是分开计费的,解绑和释放EIP不会影响共享带宽的计费,如果您不再需要共享带宽,请删除共享带宽。 EIP已经释放 按需计费,按流量计费 按需计费,按带宽计费 按需计费EIP释放后,EIP相关的弹性公网IP保有费、流量费、带宽费均会停止计费,如果此时您发现账号还在继续扣费,请您查看账号下是否存在共享带宽。 按需计费,加入共享带宽 共享带宽和EIP是分开计费的,解绑和释放EIP不会影响共享带宽的计费,如果您不再需要共享带宽,请删除共享带宽。
  • 修订记录 发布日期 更新特性 2022-11-07 第六次正式发布 新增以下章节: 责任共担 身份认证与访问控制 数据保护技术 审计与日志 2022-07-01 第五次正式发布 新增以下章节: 1-图解 容器镜像服务 2021-06-30 第四次正式发布。 什么是容器 镜像服务 ,修改容器镜像服务的计费说明。 基本概念,补充镜像仓库概念。 2019-12-30 第三次正式发布。 支持镜像安全扫描,涉及什么是容器镜像服务章节。 2018-07-30 第二次正式发布。 支持镜像加速下载,涉及什么是容器镜像服务、产品优势和应用场景章节。 2018-03-02 第一次正式发布。
  • 与其他云服务的关系 容器镜像服务需要与其他云服务协同工作,容器镜像服务和其他云服务的关系如图1。 图1 容器镜像服务和其他云服务的关系 云容器引擎 云容器引擎(Cloud Container Engine,简称CCE)提供高可靠高性能的企业级容器应用管理服务,支持Kubernetes社区原生应用和工具,简化云上自动化容器运行环境搭建。 容器镜像服务能无缝对接CCE,您可以将容器镜像服务中的镜像部署到CCE中。 云容器实例 云容器实例(Cloud Container Instance, 简称CCI)服务提供 Serverless Container(无服务器容器)引擎,让您无需创建和管理服务器集群即可直接运行容器。 容器镜像服务能无缝对接CCI,您可以将容器镜像服务中的镜像部署到CCI中。 云审计 服务 云审计服务(Cloud Trace Service,简称 CTS )为您提供云服务资源的操作记录,记录内容包括您从公有云管理控制台或者开放API发起的的云服务资源操作请求以及每次请求的结果,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 通过CTS,您可以记录与容器镜像服务相关的操作事件,便于日后的查询、审计和回溯。CTS支持的SWR操作列表参见容器镜像服务的关键操作列表。
  • 产品架构和优势 DWS是基于Shared-nothing架构的分布式、并行数据库集群,其产品架构请参见下图。 图1 产品架构图 该架构保证DWS具有以下关键优势: DWS服务可以在多种云形态下使用,支持华为公有云形态、混合云本地运维HCS形态、混合云长期连线HCSO形态,以及边缘小站IES形态,为不同类型用户对部署形态和运维模式的差异化提供选择。 DWS数据库内核统一使用华为自主研发的 GaussDB数据库 ,兼容PostgreSQL的数据库内核引擎,从单机OLTP数据库改造为企业级MPP(大规模并行处理)架构的OLAP 分布式数据库 ,其主要面向海量数据分析场景。 DWS产品提供标准数仓、IoT数仓和实时数仓三种产品形态,与传统 数据仓库 相比,主要有以下特点与显著优势,可解决多行业超大规模数据处理与通用平台管理问题: 易使用 一站式可视化便捷管理 DWS让您能够轻松完成从项目概念到生产部署的整个过程。通过使用DWS管理控制台,您不需要安装数据仓库软件,也不需要部署数据仓库服务器,就可以在几分钟之内获得高性能、高可靠的企业级数据仓库集群。 您只需点击几下鼠标,就可以轻松完成应用程序与数据仓库的连接、数据备份、数据恢复、数据仓库资源和性能监控等运维管理工作。 提供一键式异构数据库迁移工具 DWS提供配套的迁移工具,可支持Oracle和Teradata的SQL脚本迁移到DWS。 高性能 云化分布式架构 DWS采用全并行的MPP架构数据库,业务数据被分散存储在多个节点上,数据分析任务被推送到数据所在位置就近执行,并行地完成大规模的数据处理工作,实现对数据处理的快速响应。 查询高性能,万亿数据秒级响应 DWS后台通过算子多线程并行执行、向量化计算引擎实现指令在寄存器并行执行,以及LLVM动态编译减少查询时冗余的条件逻辑判断,助力数据查询性能提升。 DWS支持行列混合存储,可以同时为用户提供更优的数据压缩比(列存)、更好的索引性能(列存)、更好的点更新和点查询(行存)性能。 数据加载快 DWS提供了GDS极速并行大规模数据加载工具。 高扩展 按需扩展:Shared-Nothing开放架构,可随时根据业务情况增加节点,扩展系统的数据存储能力和查询分析性能,最高支持2048节点规模。 扩容后性能线性提升:容量和性能随集群规模线性提升,线性比0.8。 扩容不中断业务:扩容过程中支持数据增、删、改、查,及DDL操作(DROP/TRUNCATE/ALTER TABLE),表级别在线扩容技术,扩容期间业务不中断、无感知。 高可靠 ACID 支持分布式事务ACID(Atomicity,Consistency,Isolation,Durability),数据强一致保证。 全方位HA设计 DWS所有的软件进程均有主备保证,集群的协调节点(CN)、数据节点(DN)等逻辑组件全部有主备保证,能够保证在任意单点物理故障的情况下系统依然能够保证数据可靠、一致,同时还能对外提供服务。 安全 DWS支持数据透明加密,同时可与数据库安全服务(DBSS)对接,基于网络隔离及安全组规则,保护系统和用户隐私及数据安全。DWS还支持自动数据全量、增量备份,提升数据可靠性。 融合分析 多模融合:支持流、时序、GIS、全文、AI等类型数据在库内直接计算,融合分析。 多源融合:与大数据无缝融合,您可以使用标准SQL查询HDFS、OBS上的数据,数据无需搬迁。 加速集群:基于OBS数据访问,共享Express加速集群,提供更高效的融合计算分析能力。 高安全 透明加密:对数据库的数据文件进行加密,可以避免恶意攻击者在OS层面绕过数据库权限控制机制或窃取磁盘直接访问用户数据的情况。 数据脱敏:内置数值、字符、时间类型脱敏函数,并提供可自定义的脱敏规则,实现在大数据高效互访的同时,对敏感数据进行有效保护。 父主题: DWS产品简介
  • 生态对接 数据库备份的存储介质目前支持NBU、爱数、A8000、OBS以及磁盘存储介质,本地磁盘存储将会和数据库数据共同占用磁盘,所以一般都是远程存储介质,由外部的存储服务管理备份数据,比如NBU、爱数、A8000,且这些存储服务还会对进行数据重删等技术操作,提供备份的空间使用率。OBS为 对象存储服务 ,是华为提供的数据存储服务,使用方式性对比较简单,备份时直接由备份进程将数据发送给OBS进行存储,不需要再备份本地先建立一个中间客户端。目前主流的备份软件就是使用这种架构如下图3所示,每个节点有一个备份客户端Client,当有备份任务时将给每个客户端下发备份任务,每个客户端将创建一个eefproc进程,该进程将调用数据库的备份命令,产生备份数据后存入管道由该进程读取并发送给备份服务器。 对于备份恢复的生态对接,DWS侧使用标准的XBSA接口进行备份,各备份厂商将实现XBSA协议实现接口并使用DWS侧的roach client非侵入式的方式对接数据库的备份存储服务。 图3 备份恢复生态对接架构 了解更多请参见管理快照。
  • 技术原理 集群管理模块由CMServer,CMAgent和Monitor组件组成,并提供集群状态查询、集群起停、主备切换、实例重建等工具。CMServer只部署在主备CM上,作为整个 GaussDB (DWS)集群的大脑,负责处理CMAgent上报的各种状态信息,并决定是否需要状态变更。CMAgent部署于所有节点,作为实例代理进程,负责上报CN/DN/GTM等实例状态至CMServer,并接收和执行CMServer下发的命令。Monitor部署于所有节点,作为定时任务,在CMAgent停止的情况下将其重启。 图1 集群管理模块架构
  • 数据分布式存储 DWS采用水平分表的方式,将业务数据表的元组分散存储到各个节点内,该优势在于,查询中通过查询条件过滤不必要的数据,快速定位到数据存储位置,可极大提升数据库性能。 水平分表方式将一个数据表内的数据,按合适分布策略分散存储在多个节点内,DWS支持如表1所示的数据分布策略。用户可在CREATE TABLE时增加DISTRIBUTE BY参数,对指定的表应用数据分布功能。 表1 分布式策略 策略 描述 适用场景 优势与劣势 复制表(Replication) 集群中每一个DN实例上都有一份全量表数据。 小表、维度表。 Replication优点是每个DN上都有此表的全量数据,在join操作中可以避免数据重分布操作,从而减小网络开销,同时减少了plan segment(每个plan segment都会起对应的线程)。 Replication缺点是每个DN都保留了表的完整数据,造成数据的冗余。一般情况下只有较小的维度表才会定义为Replication表。 哈希表(Hash) 表数据通过hash方式散列到集群中的所有DN实例上。 数据量较大的事实表。 在读/写数据时可以利用各个节点的IO资源,大大提升表的读/写速度。 一般情况下大表(1000000条记录以上)定义为Hash表。 轮询表(Roundrobin) 8.1.2及以上版本支持 表的每一行被轮番地发送给各个DN,数据会被均匀地分布在各个DN中。 数据量较大的事实表,且使用Hash分布时找不到合适的分布列。 Roundrobin优点是保证了数据不会发生倾斜,从而提高了集群的空间利用率。 Roundrobin缺点是无法像Hash表一样进行DN本地化优化,查询性能通常不如Hash表。 一般在大表无法找到合适的分布列时,定义为Roundrobin表,若大表能够找到合适的分布列,优先选择性能更好的Hash分布。 父主题: 分布式环境的数据布局
  • 产品性能 DWS的产品性能指标如表2所示。 表2 产品性能指标 性能项 支持指标 服务器配置 数据导入能力 单节点80MB/s(行存表),150MB/s(列存表) CPU: 2路12核 E5-2690 内存:256GB 硬盘:20块 600GB SAS盘 网络:10GE 数据导出能力 单节点100MB/s 全表扫能力 单节点3亿条/s 点查询能力 万亿条精确查询秒级响应 分组能力(group by) 单节点2000万条/s 连接能力(join) 单节点500万条/s 排序能力(order by) 单节点300万条/s
  • 技术原理 图1 SQL自诊断技术原理 CN端对SQL进行查询编译生成计划树,通过诊断分析器对执行计划树诊断出查询模式下可识别的问题(包括统计信息未收集和SQL不下推的告警)。 DN端执行SQL语句,在运行时将有关统计信息写入DN共享内存。如果当前SQL运行是算子模式(可以诊断所有支持的告警场景),则在SQL运行过程中收集算子执行统计信息。 DN端完成SQL的执行,向CN返回运行结果。如果是算子模式,则DN向CN端返回收集的运行时状态,并由诊断分析器对其内容进行分析,将有关分析结果进行记录。 内存中统计信息3分钟会被清理一次。如果需要记录所有历史信息,打开GUC参数enable_resource_record,内存中统计信息每3分钟会被持久化到特定系统表中。
  • 效果收益 场景描述 收益 多列/单列统计信息未收集 通过analyze收集统计信息,生成更好的执行计划。 SQL不下推 上报导致不下推的原因。通过SQL调优尽量将SQL下推。 HashJoin中大表做内表 数据量较大并且产生了下盘,对性能影响较大。通过SQL调优避免这种情况。 大表等值连接使用Nestloop Nestloop在数据量较大时对性能影响较大。通过SQL调优避免这种情况。 大表Broadcast 在网络上发送大量数据,对性能影响较大。通过SQL调优避免这种情况。 数据倾斜 造成某些节点成为系统瓶颈。 索引不合理 索引不合理,导致扫描行数过多。修改索引。 估算不准 估算与实际执行行数偏差较大,导致选取计划不是最优。
  • 技术背景 业务中包含大量查询,这些查询在执行计划、执行层面有什么样的问题,比如估算是否不准确、是否存在数据倾斜、是否存在统计信息未收集并且如何收集统计信息等。SQL自诊断为用户提供了一种更为高效易用的性能问题定位方法。主要帮助用户对批处理作业的SQL调优过程进行简化,希望输入SQL之后能够方便的批量得到SQL所存在的问题和针对问题给出的调优建议,而不是让用户依次去把作业集中的SQL单独提取出来改写,重现有性能问题的SQL语句并且通过查看Explain Performance依次排查问题,改写SQL,调整参数等复杂的调优。
  • 技术特点 支持标准SQL查询语法 完全继承GaussDB(DWS)的SQL查询语法的支持,实现HDFS分布式文件系统上的结构化数据分析查询,支持连接、聚合、字符日期等系统函数,支持子查询以及HDFS结构化数据和GaussDB(DWS)本地数据的联合访问,支持窗口函数等。 针对HDFS数据的代价估算模型 在GaussDB(DWS)基于代价估算(Cost-based)的SQL优化器中,增加了针对HDFS分布式文件系统上结构化数据访问的代价估算模型,从而可以制定HDFS数据的最优执行计划。 智能扫描 GaussDB(DWS)可以将适用的谓词条件直接下推到存储在HDFS上的Hadoop原生数据上,在压缩数据上进行谓词过滤,且针对Hadoop ORC(Optimized Row Columnar)列式存储实现后期物化(Late-materialization),从而显著减少HDFS数据读取。 LLVM(Low Level Virtual Machine)优化 基于智能扫描,将下推到Hadoop原生数据上的适用谓词进行LLVM优化,使其谓词条件生成中间表示IR,最终生成与平台相关的机器码,进而提高谓词过滤及查询性能。 支持信息约束(Informational Constraint) 若表上的列具有唯一性特征,则在数据库中创建该表时指定对应列具有信息约束属性,在执行阶段利用该属性提供查询性能。 向量引擎 针对HDFS上存储的ORC列式结构化数据,直接对接GaussDB(DWS)已有成熟的向量化执行引擎,提升分析查询性能。 支持分区表 适配HDFS上依据Hive语法定义的分区表数据,由GaussDB(DWS) SQL优化器来实现自动的分区表访问的剪枝操作,提高分析查询性能。 分布式高效读取HDFS数据 GaussDB(DWS) SQL编译器引入Scheduler组件,来达到GaussDB(DWS) Data Nodes的HDFS数据访问负载均衡,并可以通过HDFS组件的本地读特性(short-circuit)来提升数据读取性能。 了解更多:请参见CREATE FOREIGN TABLE (SQL on Hadoop or OBS)
  • 技术架构 DWS将HDFS上存储的结构化数据映射为外部表,从而重用已有的成熟数据库SQL编译器和向量化执行引擎,对外提供标准SQL接口,完成HDFS上Hadoop原生数据的分析查询。 DWS的SQL编译器中引入了新的Scheduler(调度器)组件。在SQL编译时,如果有针对HDFS外表的访问,Scheduler组件会访问HDFS Name Node元数据信息,获得外表文件在HDFS上的存储路径。CN的SQL引擎在编译查询语句时,将会调用Scheduler获得并指定每个DN将要访问的HDFS文件的具体路径。 HDFS外表数据文件在DN间的分配原则是: 首先以本地读为主任务分配策略。 其次考虑DN之间的任务负载均衡。 图1 逻辑架构
  • 数据仓库迁移 数据仓库是企业的重要数据分析系统,随着业务量的增长,自建数仓性能逐渐不能满足实际要求,同时扩展性差、成本高,导致扩容极为困难。DWS作为云上企业级数据仓库,具备高性能、低成本、易扩展等特性,满足大数据时代企业数据仓库业务诉求。 图1 数据仓库迁移 优势 平滑迁移 DWS提供配套的迁移工具,可支持Teradata、Oracle、MySQL、SQL Server、PostgreSQL、Greenplum、Impala等常用数据分析系统的平滑迁移。 兼容传统数据仓库 DWS支持SQL 2003标准,兼容Oracle的部分语法和数据结构,支持存储过程,可与常用BI(business intelligence)工具无缝对接,业务迁移修改量极小。 安全可靠 DWS支持 数据加密 ,同时可与数据库安全服务对接,保证云上数据安全。同时DWS支持数据自动全量、增量备份,提升数据可靠性。
共100000条