华为云用户手册

  • 什么是 数据仓库 ? 随着数据库的大规模应用,以及信息行业的数据爆炸式的增长。为了研究数据之间的关系,挖掘数据隐藏的价值,人们越来越多的需要使用联机分析处理OLAP(On-Line Analytical Processing)进行数据分析,探究一些深层次的关系和信息。但是不同的数据库之间很难做到数据共享,数据之间的集成与分析也存在非常大的挑战。 为解决企业的数据集成与分析问题,数据仓库之父比尔·恩门于1990年提出数据仓库(Data Warehouse)。数据仓库主要功能是将OLTP经年累月所累积的大量数据,通过数据仓库特有的数据储存架构进行OLAP,最终帮助决策者能快速有效地从大量数据中,分析出有价值的信息,提供决策支持。自从数据仓库出现之后,信息产业就开始从以关系型数据库为基础的运营式系统慢慢向决策支持系统发展。 数据仓库相比数据库,主要有以下两个特点: 数据仓库是面向主题集成的。数据仓库是为了支撑各种业务而建立的,数据来自于分散的操作型数据。因此需要将所需数据从多个异构的数据源中抽取出来,进行加工与集成,按照主题进行重组,最终进入数据仓库。 数据仓库主要用于支撑企业决策分析,所涉及的数据操作主要是数据查询。因此数据仓库通过表结构优化、存储方式优化等方式提高查询速度、降低开销。 表1 数据仓库与数据库的对比 维度 数据仓库 数据库 应用场景 OLAP OLTP 数据来源 多数据源 单数据源 数据标准化 非标准化Schema 高度标准化的静态Schema 数据读取优势 针对读操作进行优化 针对写操作进行优化
  • 如何查看 GaussDB (DWS)表是行存还是列存? 表的存储方式由建表语句中的ORIENTATION参数控制,row表示行存,column表示列存。 8.1.2及之前版本,不指定ORIENTATION参数,默认为row行存。 8.1.3版本后,支持通过GUC参数default_orientation控制,即创建表时,如果不指定ORIENTATION参数时,则根据该GUC参数的值来创建对应类型的表。其中,row表示行存表,column表示列存表,column enabledelta表示创建开启delta表的列存表。该GUC可通过DWS控制台进行设置,如下图。 查看已创建的表是行存还是列存,可通过表定义函数PG_GET_TABLEDEF查询。 如下orientation=column表示为列存表。 目前暂不支持通过ALTER TABLE语句修改ORIENTATION参数,即行存表和列存表无法直接进行转换。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 SELECT * FROM PG_GET_TABLEDEF('customer_t1'); pg_get_tabledef ----------------------------------------------------------------------------------- SET search_path = tpchobs; + CREATE TABLE customer_t1 ( + c_customer_sk integer, + c_customer_id character(5), + c_first_name character(6), + c_last_name character(8) + ) + WITH (orientation=column, compression=middle, colversion=2.0, enable_delta=false)+ DISTRIBUTE BY HASH(c_last_name) + TO GROUP group_version1; (1 row) 父主题: 数据库使用
  • GaussDB(DWS)用户和角色是什么关系? 用户和角色在整个集群范围内是共享的,但是其数据并不共享。即用户可以连接任何数据库,但当连接成功后,任何用户都只能访问连接请求里声明的那个数据库。 角色(ROLE)本质上是一组权限的集合,通常情况下使用ROLE来组织权限,使用用户进行权限的管理和业务操作。 角色之间的权限可以继承,用户组的所有用户可自动继承对应角色的权限。 数据库中USER与ROLE的关系为:USER的权限来自于ROLE。 用户组包含了具有相同权限的用户集合。 用户可以看作是具有登录权限的角色。 角色可以看作是没有登录权限的用户。 Gauss(DWS)提供的权限包括“管控面”各组件的操作维护权限,在实际应用时需根据业务场景为各用户分别配置不同权限。为了提升权限管理的易用性,“管控面”引入角色的功能,通过选取指定的权限并统一授予角色,以权限集合的形式实现了权限集中查看和管理。 集中权限管理中权限、角色和用户的关系如下图所示。 DWS提供多种权限,根据业务场景实际需要选择指定的权限授予不同角色,可能是一个或者多个权限对应一个角色。 通过GRANT把角色授予用户后,用户即具有了角色的所有权限。推荐使用角色进行高效权限分配。只对自己的表有所有权限,对其他用户放在属于各自模式下的表无权限。 角色A:授予操作权限A和B,用户A和用户B通过分配角色A取得对应的权限。 角色B:授予操作权限C,用户C通过分配角色B取得对应的权限。 角色C:授予操作权限D和E,用户C通过分配角色C取得对应的权限。 父主题: 产品咨询
  • 扩容对系统的影响 扩容前,需关闭创建了临时表的客户端连接,因为在扩容过程中及扩容成功之前创建的临时表将会失效,操作临时表也会失败。但是扩容后创建的临时表不受影响。 在执行“扩容”操作后,集群会进行一次自动快照,快照创建成功后进行集群扩容。 正在扩容的集群将禁用重启集群、停止集群、启动集群、规格变更、增删CN、扩容集群、缩容集群、创建快照、重置数据库管理员密码等功能。 离线扩容过程中,集群会自动重启,因此集群会有一段时间变为“不可用”状态,重启成功后集群恢复到“可用”状态。然后在扩容结束阶段,如果用户选择了自动重分布,系统会将集群中用户数据在全部节点重新动态分布,否则需要用户自主开始数据重分布。 离线扩容过程中,应该停止所有业务或运行少量查询语句。表重分布期间会对表加共享锁,所有插入、更新、删除操作和表DDL操作都会长时间阻塞,会出现等锁超时情况。一旦表重分布完成,用户可以正常访问该表。在重分布执行过程中,应当避免执行超过20分钟的查询(在重分布执行时申请写锁的默认时间为20分钟)。否则可能导致重分布出现等待加锁超时失败的问题。 在线扩容过程中,节点添加期间会执行锁集群操作。锁集群操作时会进行数据库对象检查。为保证锁集群成功,在节点添加期间不要执行database和tablespace的创删语句。 在线扩容过程中,表重分布期间可以对该表执行插入、更新、删除等操作,但重分布过程仍然会短时间阻塞数据更新操作,会影响语句的执行性能。扩容重分布过程会消耗大量的CPU和IO资源,因此对作业性能影响较大,应该尽可能在停止业务或业务轻载的情况下执行扩容重分布。也可以考虑分段扩容重分布策略,在系统负载很小的情况下采用高并发进行扩容重分布,在系统负载大的情况下停止扩容重分布或采用低并发进行扩容重分布。 扩容后,如果集群创建新快照,将包含扩容节点上的数据。 如果集群扩容失败,数据库会在后台自动执行扩容回滚操作,集群会恢复到扩容前的节点个数。 如果回滚成功,集群仍可以正常使用,用户可以重新执行“扩容”操作,如果仍扩容失败,请及时联系技术支持人员进行处理。 如果因为某些异常原因后台回滚失败,则集群可能会变为“不可用”状态,此时无法再执行“扩容”或重启集群的操作,请及时联系技术支持人员进行处理。
  • 约束和限制 尽量避免所有业务使用同一个数据库用户运行,按业务模块规划不同数据库用户。 不建议使用系统管理员用户跑业务,不同模块业务请通过多用户和权限进行访问控制。 不建议业务直连单CN,需配置负载均衡保证各CN连接均衡。 连接数据库完成所需操作后,要及时关闭数据库连接,避免空闲连接持续占位,消耗连接和公共资源。 使用数据库连接池的场景,在业务中通过SET语句进行数据库GUC参数设置后,归还连接池前必须通过RESET还原参数设置。 更多开发设计规范参见总体开发设计规范。
  • 功能列表 请使用Google Chrome 73及以上版本、Safari 13及以上版本桌面端浏览器入会,入会流程请参考从桌面端Web入会。 入会后,主要会议控制操作如下表所示。 会议控制操作 主持人 与会者 开启/关闭麦克风 √ √ 开启/关闭视频 √ √ 开启/关闭扬声器 √ √ 选择音视频设备 √ √ 锁定会议 √ - 允许与会者解除静音 √ - 锁定聊天 √ - 锁定共享 √ - 查看与会者列表 √ √ 全场静音/取消全场静音 √ - 改名 √ √ 举手 - √ 共享屏幕、程序、网页 √ √ 聊天 √ √ 分享入会信息 √ √ 云录制 √ - 投票 发起投票、结束投票、公示投票、管理投票 参与投票 反馈 √ √ 切换画面视图 √ √ 选看/取消选看 √ √ 广播 √ - 结束会议 √ - 父主题: 会议控制
  • 会议安全设置 主持人可进行会议安全设置。 加入会议后,单击会控栏中的“安全”。 根据需要勾选开启对应的会议安全设置项。 锁定会议:开启后仅可通过主持人邀请入会,未被邀请人员无法主动入会。取消勾选可关闭锁定。 允许解除静音:开启后,主持人全场静音时,与会者可自己解除静音,可取消勾选。 允许聊天:开启后与会者可进行会中聊天。取消勾选可关闭与会者聊天功能。 允许共享:开启后与会者可在会中发起共享。取消勾选可关闭与会者共享功能。 允许改名:开启后与会者可在会中为自己更改名字。取消勾选可关闭与会者改名功能。
  • 云录制 当企业有录播空间资源时,主持人可单击会控栏中的“录制”开启或停止云录制会议。 录制的视频画面取决于主持人设置的多画面,而不是普通与会者在软终端的会中视图。当主持人设置了多画面,则录制的画面与主持人设置的多画面保持一致。 会议结束后,会议创建者可登录华为云会议管理平台,在“我的录制”中下载云录制文件。 下载完成后,可以在“player”文件夹中双击“play.bat”直接播放视频,也可以从“player\offlineweb\assets\video”目录中获取视频源文件。
  • 画面优先显示 优先显示画面最多可设置49个。 设置后生效范围为:演讲者视图小画面、画廊视图、画中画视图小画面、悬浮视图小画面、共享状态下的悬浮窗口小画面。 当会中已广播多画面时此功能不生效。 参会人数较多,需要置顶部分与会者的小画面时,主持人可在会控助手将对应用户的小画面设置为优先显示,并可拖拽排序或删除优先显示的与会者。详细介绍请参考画面优先显示。 设置后桌面端会中的小画面将优先显示,小画面的左下角将显示置顶图标。 图15 画面优先显示
  • 多画面设置 与会者会中可根据需要切换画面布局,会议观看体验更好。 目前仅Windows客户端支持设置悬浮视图和并排视图。 当会议中有2名或以上与会者时,会中界面右上角将显示“画面布局”按钮。 与会者切换画面视图时,对其他与会者无影响。 会中主持人广播多画面时,其他与会者桌面端将显示主持人设置的多画面,无法切换画面布局。如图1所示。 主持人广播多画面操作请参考广播多画面。 系统默认声控模式,声音大的会场高亮或者大画面显示该会场。 演讲者视图中上方的小窗口按照入会时间排序。 与会者进入会中界面,单击右上角“画面布局”即可进行选择。 画廊视图:单个屏幕同时显示多个与会者,如图2所示。 画中画视图:大画面显示最大发言人视频画面或共享内容,小画面显示自己的视频画面,如图3所示。 演讲者视图:大画面显示最大发言人视频画面或共享内容,界面上方小窗口显示其他与会者视频画面,如图4所示。 悬浮视图:大画面显示最大发言人视频画面或共享内容,右侧悬浮列表显示其他与会者视频画面,如图5所示。 并排视图: 单击“并排-画廊”,可选择“并排-画廊”或“并排-演讲者”视图。 设置后,按住左右画面中间的按钮并拖拽,可调整两侧画面大小。 并排-画廊:左侧画面显示最大发言人或共享画面,右侧画面显示其他与会者画面,如图6所示。 并排-演讲者:会中有共享时,左侧画面显示共享画面,右侧画面显示最大发言人视频画面。 会中无共享时,左侧画面显示最大发言人视频画面,右侧显示与会者自己的视频画面。如图7所示。 图1 广播多画面 图2 画廊视图 图3 画中画视图 图4 演讲者视图 图5 悬浮视图 图6 并排-画廊视图 图7 并排-演讲者视图
  • 禁止截屏 禁止截屏功能暂未开放,如需体验请发送邮件至“hcmeeting@huaweicloud.com”或联系华为销售申请开通。 仅9.7.7及以上版本的客户端支持。 目前Windows、Mac、Android端预约会议时可设置禁止截屏。 设置禁止截屏后,新版本的Windows、Mac、Android、SmartRooms系列(含IdeaHub2代系列)会中禁止截屏,通过SIP方式入会的硬件终端无法禁止截屏,较低版本、iOS等其他端则禁止入会。 可防止截取会中共享内容,部分设备可防止截取会中画面和共享内容。 在对安全性要求较高的会议场景,预约会议时可设置禁止截屏。 设置后新版本的Windows、Mac、Android、SmartRooms系列(含IdeaHub2代系列)会中无法截屏。 登录华为云会议桌面端后,在首页单击“预约会议”。 在“预约会议”弹窗中勾选“禁止截屏”,阅读提示后单击“确定”。 图19 禁止截屏 单击“预约会议”。
  • 会中聊天 会议中单击会控栏的“聊天”打开界面右侧的聊天面板,可支持文字聊天。 主持人可以设置允许自由聊天、仅允许公开聊天、仅允许私聊主持人、全员禁言。 允许自由聊天:与会者可以私聊所有与会者 仅允许公开聊天:只有主持人和联席主持人可以私聊 仅允许私聊主持人:与会者只能私聊主持人和联席主持人 全员禁言:与会者禁止聊天与私聊 与会者可通过以下方式开启私聊。 方法1:在聊天框中单击与会者用户名私聊 方法2:在与会者列表中选择与会者私聊 方法3:在聊天下拉框中选中与会者私聊 会中聊天时,Windows端可识别与会者发送的超链接。您可根据需要在会中界面右侧的聊天面板中访问超链接。
  • 多画面设置 多画面设置,面对面交互更灵活。与会者可以左右滑动自由选择画面布局: “画中画视图”聚焦对方,一对一沟通。 “画廊视图”全场互动,气氛更活跃。 当会议中有2名或以上参会者时,您才能切换到画廊视图。 iOS客户端画廊视图支持3x3布局(仅iPhone 7及以上设备支持)。 画廊视图可根据参会人数,自动显示布局,安卓pad显示视频画面情况如下: 2GHz,4GB内存以上机型支持3x3布局,其他机型仅支持2x2布局。 搭载麒麟990芯片/麒麟9000芯片/麒麟9000E芯片的机型支持4x4布局。
  • 禁止截屏 禁止截屏功能暂未开放,如需体验请发送邮件至“hcmeeting@huaweicloud.com”或联系华为销售申请开通。 仅9.7.7及以上版本的客户端支持。 目前Windows、Mac、Android端预约会议时可设置禁止截屏。 设置禁止截屏后,新版本的Windows、Mac、Android、SmartRooms系列(含IdeaHub2代系列)会中禁止截屏,通过SIP方式入会的硬件终端无法禁止截屏,较低版本、iOS等其他端则禁止入会。 可防止截取会中共享内容,部分设备可防止截取会中画面和共享内容。 在对安全性要求较高的会议场景,预约会议时可设置禁止截屏。 设置后新版本的Windows、Mac、Android、SmartRooms系列(含IdeaHub2代系列)会中无法截屏。 登录华为云会议Android端后,在首页单击“预约会议”。 在“预约会议”界面中单击“信息安全”,将“禁止截屏”右侧的按钮切换至开启状态。 图6 信息安全 单击“预约会议”。
  • DIS对接EPS鉴权后,进入通道列表页面看不见之前创建的通道? 问题原因:因DIS对接EPS鉴权后,租户在原来企业项目中没有查看通道详情的权限,DIS通道列表就不会显示对应的通道: 解决方法:在企业项目中为租户授予查看通道详情的权限: 进入项目管理页面。 图1 项目管理 选择某个企业项目,为租户授予该企业项目对应的权限,如查看通道详情,则需要选择dis:streams:get策略,租户就能在通道列表中看到属于该企业项目中所有通道详情。 图2 添加授权 图3 策略内容 父主题: 一般性问题
  • Agent如何配置AK/SK加密? 在配置项中,需要配置用户的SK,这属于敏感信息,如需加密,可以按如下步骤: 进入bin/目录 cd /opt/dis-agent-X.X.X/bin 执行加密脚本,输入密码后回车 bash dis-encrypt.sh 控制台打印的“Encrypt result:”后面的字符串即为加密后的结果。通过这种方式分别加密MySQL密码和用户SK,并将密文配置到配置文件中即可。 父主题: DIS Agent相关问题
  • Schema如何支持字段缺省或者为NULL 源数据Schema,即用户的JSON数据样例,用于描述JSON数据格式。DIS可以根据此JSON数据样例生成Avro schema,默认情况下不支持字段缺省或者为NULL,如图1。 图1 不支持字段缺省样例 "key1"字段对应的类型为"String"(Avro Schema中体现为:"type": "string"),这时如果源数据中"key1"不传或者传的值为NULL,那么转储任务会报错。 如果需要根据JSON数据样例生成的Schema可以支持缺省或者NULL,则需要勾选"支持空值"复选框,再单击"转换源数据样例",如图2所示。 图2 支持字段缺省样例 这时,"key1"字段对应的类型为"Union"复合类型(Avro Schema中体现为:"type": ["null", "string"]),如果源数据中"key1"不传或者传的值为NULL,那么会自动填补NULL为默认值,转储任务可以正常进行格式转换。 父主题: 转储相关问题
  • Agent如何配置代理? DIS Agent支持通过配置代理上传数据到DIS,需要配置"PROXY_HOST","PROXY_PORT","PROXY_USERNAME","PROXY_PASSWORD",这几个配置项介绍可以查看Agent配置文件说明。 --- region: REGION ak: YOUR_AK sk: YOUR_SK projectId: YOUR_PROJECTID endpoint: ENDPOINT PROXY_HOST: YOUR_PROXY_HOST PROXY_PORT: YOUR_PROXY_PORT PROXY_USERNAME: YOUR_PROXY_USERNAME PROXY_PASSWORD: YOUR_PROXY_PASSWORD flows: - DISStream: YOUR_STREAM filePattern: /home/*.log initialPosition: START_OF_FILE maxBufferAgeMillis: 5000 父主题: DIS Agent相关问题
  • Agent如何配置递归监听一个目录? DIS Agent支持配置递归监听,将配置项"directoryRecursionEnabled"的值配置为"true"即可支持,例如以下配置可以匹配到"/home/one.log","/home/child/two.log","/home/child/child/three.log": --- region: REGION ak: YOUR_AK sk: YOUR_SK projectId: YOUR_PROJECTID endpoint: ENDPOINT flows: - DISStream: YOUR_STREAM filePattern: /home/*.log directoryRecursionEnabled: true initialPosition: START_OF_FILE maxBufferAgeMillis: 5000 父主题: DIS Agent相关问题
  • Agent如何配置监听多目录或文件? DIS Agent支持配置监听多个目录或文件,例如想收集"/home/folder1/file1"和"/home/folder2/file2"这两个文件的日志,可以通过配置多个DISStream来实现: --- region: REGION ak: YOUR_AK sk: YOUR_SK projectId: YOUR_PROJECTID endpoint: ENDPOINT flows: - DISStream: YOUR_STREAM filePattern: /home/folder1/file1 initialPosition: START_OF_FILE maxBufferAgeMillis: 5000 - DISStream: YOUR_STREAM filePattern: /home/folder2/file2 initialPosition: START_OF_FILE maxBufferAgeMillis: 5000 父主题: DIS Agent相关问题
  • DIS如何实现转储数据至DWS的特定列 DIS支持将源数据类型为JSON格式的数据转储至DWS。转储前,需要配置源数据Schema。 源数据Schema,即用户的JSON数据样例,用于描述JSON数据格式。DIS可以根据此JSON数据样例生成Avro schema, 将通道内上传的JSON数据转换为Parquet或CarbonData格式。 参考创建源数据Schema,创建源数据Schema。如下以添加转储任务时创建源数据Schema为例进行说明。 选择源数据类型是Json的通道。 在通道详情页面的“转储任务”页签,单击“添加转储任务”。 转储服务类型选择DWS,通过导入文件的方式配置源数据Schema。 输入源数据样例,单击“转换源数据样例”并提交,生成源数据Schema。 图1 创建源数据Schema 配置Schema属性过滤功能。 schema过滤功能,只针对源数据schema根节点或一级子节点非array类型,才有效。即管理源数据Schema创建的源数据schema,满足根节点或一级子节点非array类型,界面才呈现此配置。 打开Schema过滤开关。 在源数据属性名列表中,勾选对应的属性名,完成DWS表中指定列的映射。 源数据属性名列表中的属性由源数据Schema的name字段生成,匹配DWS的列名称。 图2 配置Schema属性 如图2所示,源数据属性名只选择id,即少于对应表的总字段。 DWS侧创建集群,并执行如下命令创建表。 CREATE TABLE dis_test3(id TEXT,dev TEXT,online BIGINT,module TEXT default 'a',logTime TEXT,appId TEXT,event TEXT); DIS侧转储数据至DWS成功后,登录集群数据库查询dis_test3表格数据,可看到仅id列和module列插入数据,其中module列是默认数据。如图3所示。 图3 Schema属性过滤结果 父主题: 转储相关问题
  • 操作步骤 使用“WinSCP”工具将“huaweicloud-sdk-dis-x.x.x.zip”上传至Linux系统任一目录。 x.x.x表示DIS SDK包的版本号。 使用“PuTTY”工具登录Linux系统,进入到“huaweicloud-sdk-dis-x.x.x.zip”所在目录,执行如下命令,获取DIS SDK压缩包的校验码。 sha256sum huaweicloud-sdk-dis-x.x.x.zip 显示类似如下校验码: # sha256sum dis-sdk-x.x.x.zip 8be2c937e8d78b1a9b99777cee4e7131f8bf231de3f839cf214e7c5b5ba3c088 huaweicloud-sdk-dis-x.x.x.zip 打开DIS SDK的校验文件“huaweicloud-sdk-dis-x.x.x.zip.sha256sum”与上一步骤中获取的校验码进行对比。 一致,说明从获取的DIS SDK压缩包没被篡改。 不一致,说明DIS SDK压缩包被篡改,需要重新获取。
  • DIS有哪些模块及各模块功能? 服务控制面 完成服务的开通、删除、配置操作,并将用户信息同步到数据面。 完成数据面资源的申请与自动部署。 服务数据面 接收用户发送数据的请求,对已鉴权的数据接收并存储。 接收用户获取数据的请求,在鉴权后输出对应的用户数据。 按时老化存储在系统中的用户数据。 根据用户配置,将用户数据存储到 对象存储服务 (Object Storage Service,简称OBS)。 服务维护 负责服务的安装、升级。 负责服务的配置、巡检、日志收集与分析、运行监控。 负责服务工单处理。 用户SDK 提供Java接口,供用户上传与下载数据。 提供 数据加密 功能。 父主题: 一般性问题
  • 数据存储在DIS和转储其他资源有什么区别? 开通DIS通道时需要选择“转储服务类型”。具体区别如表1所示。 选择“OBS”表示存储在DIS中,并周期性导入对象存储服务(Object Storage Service,简称OBS)。 选择“ MRS ”表示存储在DIS中,并周期性导入 MapReduce服务 (MRS)集群的HDFS中。 选择“ DLI ”表示存储在DIS中,并周期性导入DLI。 选择“DWS”表示存储在DIS中,并周期性导入数据仓库服务(DWS)中。 选择“CloudTable”表示存储在DIS中,并实时导入CloudTable集群的HBase表或OpenTSDB表中。 表1 DIS和转储其他资源区别 DIS存储 OBS存储 MRS存储 DLI存储 DWS存储 CloudTable存储 DIS服务自带。 需要另外申请。 需要另外申请。 需要另外申请。 需要另外申请。 需要另外申请。 无需另外付费。 需要根据OBS收费标准另外付费。 需要根据MRS和OBS收费标准另外付费。 需要根据DLI和OBS收费标准另外付费。 需要根据DWS和OBS收费标准另外付费。 需要根据CloudTable收费标准另外付费。 临时存储(最长保留168小时)。 数据可长期存储在OBS中,具体保存时长根据用户购买的OBS服务时长决定。 数据可长期存储在MRS中,具体保存时长根据用户购买的MRS服务时长决定。 数据可长期存储在DLI中,具体保存时长根据用户购买的DLI服务时长决定。 数据可长期存储在DWS中,具体保存时长根据用户购买的DWS服务时长决定。 数据可长期存储在CloudTable中,具体保存时长根据用户购买的CloudTable服务时长决定。 只存储在DIS中。 存储在DIS中,并周期性导入OBS。 存储在DIS中,并周期性导入MRS集群的HDFS中。 说明: 导入MRS集群前临时存储在OBS,待转储MRS完成后删除OBS上的临时存储文件。 存储在DIS中,并周期性导入DLI。 说明: 导入DLI前临时存储在OBS,待转储DLI完成后删除OBS上的临时存储文件。 存储在DIS中,并周期性导入DWS。 说明: 导入DWS前临时存储在OBS,待转储DWS完成后删除OBS上的临时存储文件。 存储在DIS中,实时导入CloudTable集群的HBase表 或OpenTSDB表中。 父主题: 一般性问题
  • 如何开通DIS通道? 使用注册账户登录DIS控制台。 单击管理控制台左上角的,选择区域和项目。 单击“购买接入通道”配置相关参数。 表1 接入通道参数说明 参数 参数解释 参数示例 计费模式 按需计费 按需计费 区域 指的是云服务所在的物理位置。您可以在下拉框中选择并切换区域。 华北-北京1 基本信息 通道名称 用户发送或者接收数据时,需要指定通道名称,通道名称不可重复。通道名称由英文字母、数字、中划线和下划线组成。长度为1~64个字符。 dis-Tido 通道类型 普通通道单分区容量:最高发送速度可达1MB/秒或1000条记录/秒(达到任意一种速度上限才会被限流),最高提取速度可达 2MB/秒,单次请求的记录总大小不能超过1MB(不包含partitionKey数据大小)。 高级通道单分区容量:最高发送速度可达 5MB/秒或2000条记录/秒(达到任意一种速度上限才会被限流),最高提取速度可达 10MB/秒,单次请求的记录总大小不能超过5MB(不包含partitionKey数据大小) - 分区数量 分区是DIS数据通道的基本吞吐量单位。 5 分区计算 用户可以根据实际需求通过系统计算得到一个建议的分区数量值。 单击“分区计算”,弹出“计算所需分区数量”对话框。 根据实际需求填写“平均记录大小”、“最大写入记录数”和“消费程序数量”,“预估所需分区数量”选项框中将显示所需的分区数量,此值不可修改。 说明: 所需分区计算公式: 按流量计算所需写分区数:(所得数值需向上取整后作为分区数) 普通通道:平均记录大小*(1+分区预留比例20%)*最大写入记录数/(1*1024KB) 高级通道:平均记录大小*(1+分区预留比例20%)*最大写入记录数/(5*1024KB) 按消费程序数量计算读分区数:(消费程序数量/2后的数值需要保留两位小数,然后乘以“按流量计算所需写分区数”,最终取值需向上取整) (消费程序数量/2)*按流量计算所需的写分区数 获取“按流量计算所需写分区数”、“按消费程序数量计算读分区数”中的最大值作为预估所需分区数量。 单击“使用计算值”将系统计算出的建议值应用于“分区数量”。 - 生命周期(小时) 存储在DIS中的数据保留的最长时间,超过此时长数据将被清除。 取值范围:24~72的整数。 24 源数据类型 BLOB:存储在数据库管理系统中的一组二进制数据。“源数据类型”选择“BLOB”,则支持的“转储服务类型”为“OBS”、“MRS”。 JSON:一种开放的文件格式,以易读的文字为基础,用来传输由属性值或者序列性的值组成的数据对象。“源数据类型”选择“JSON”,则支持的“转储服务类型”为“OBS”、“MRS”、“DLI”和“DWS”。 CS V:纯文本形式存储的表格数据,分隔符默认采用逗号。 “源数据类型”选择“CSV”,则支持的“转储服务类型”为“OBS”、“MRS”、“DLI”、“DWS”。 JSON 自动扩缩容 创建通道的同时是否开启自动扩缩容功能。 通过单击通过单击或来关闭或开启自动扩缩容开关。 说明: 用户可在创建通道时定义是否自动扩缩容,也可对已创建的通道修改自动扩缩容属性。 自动缩容最小分区数 设置自动缩容的分区下限,自动缩容的目标分区数不小于下限值。 - 自动扩容最大分区数 设置自动扩容的分区上限,自动扩容的目标分区数不超过上限值。 - 源数据分隔符 源数据为CSV格式时的数据分隔符。 - Schema开关 创建通道的同时是否为其创建数据Schema。源数据类型为JSON或CSV时可配置该参数。 通过单击或来关闭或开启Schema配置开关。 说明: 若创建通道时,没有同时创建数据Schema,可待通道创建成功后。到通道的管理页面创建数据Schema,详情请参见管理源数据Schema。 “源数据类型”为“JSON”和“CSV”时,可选择创建数据Schema。 源数据Schema 支持输入和导入源数据样例,源数据样例格式为JSON或者CSV,详细操作请参见管理源数据Schema。 在左侧文本框中输入JSON或者CSV格式的源数据样例,也可单击导入源数据样例。 在左侧文本框中单击,可删除左侧文本框中已输入或导入的源数据样例。 在左侧文本框中单击,可在右侧文本框中根据源数据样例生成Avro schema。 在右侧文本框中单击,可删除已生成的Avro schema。 在右侧文本框中单击,可修改已生成的Avro schema。 仅当“Schema配置开关”配置为“开启”:时需要配置此参数。 企业项目 配置通道所属的企业项目。已开通企业项目管理服务的用户才可以配置该参数。默认值为default。 企业项目是一种云资源管理方式,企业项目管理服务提供统一的云资源按项目管理,以及项目内的资源管理、成员管理。 您可以选择默认的企业项目“default”或其他已有的企业项目。如果要创建新的企业项目,请登录企业管理控制台进行创建,详细操作请参考《企业管理用户指南》。 - 现在配置 单击“现在配置”,呈现添加标签。 添加标签具体请参考管理通道标签。 - 暂不配置 暂不配置任何信息。 - 标签 标签是通道的标识。为通道添加标签,可以方便用户识别和管理拥有的通道资源。 - 单击“立即购买”,弹出“规格确认”页面。 单击“提交”,完成通道接入。 父主题: 一般性问题
  • DIS有哪些特点和优势? 无限扩展:DIS数据通道的吞吐量每小时可从数MB扩展到数TB,PUT记录每秒钟可从数千次扩展到数百万。 易于使用:您可以在几秒钟内创建DIS数据通道,轻松地将数据放入通道中,并构建用于数据处理的应用程序。 成本低廉:DIS没有前期成本,您只需要为实际使用的资源付费即可。 并行处理:DIS可让您用多个应用程序同时处理同一个数据通道。例如,您可以让一个应用程序运行实时分析,让其他应用程序从同一个DIS数据通道中将数据发送至对象存储服务(Object Storage Service,简称OBS)。 安全可靠:DIS可将数据保留N*24小时,N的取值为1~7的整数,以防数据在应用程序故障、个别机器故障或设施故障时丢失。 父主题: 一般性问题
  • DIS主要应用于哪些场景? DIS对于从数据生产者快速移出数据,然后进行持续处理非常有用。以下是使用DIS的典型场景: 加速日志和数据传送获取:您无需等待批量处理数据,而是让数据生产者在生成数据后立即输入DIS数据通道,防止因数据生产者出现故障导致的数据损失。例如,系统和应用程序日志可以持续添加到数据通道并可在数秒内进行处理。 实时指标和报告:实时从DIS数据通道数据提取指标并生成报告。例如, 数据接入服务 应用程序可以处理系统和应用程序日志的指标和报告,因为数据被流入而不是等待收到批量数据。 实时数据分析:通过数据接入服务,可以运行实时通道数据分析。例如,可以通过API把数据实时添加到DIS数据通道中,并让您的DIS应用程序实时运行分析,从而在数分钟内从数据中获得重要见解,而无需数小时或数天时间。 复杂的数据通道处理:您可以创建DIS应用程序和数据通道的Directed Acyclic Graphs(DAG)。在这一情景中,一个或多个DIS应用程序可将数据添加到一个DIS数据通道进行进一步处理,以便于进行通道处理器的后续阶段。 父主题: 一般性问题
  • DIS如何发送和接收数据? 开通DIS通道,在 IAM (用户认证中心)中获取账号的AK/SK。 在这里中下载“dis-sdk-X.X.X.zip”压缩包并解压缩。 建立工程,配置用户AK/SK、endpoint、projectId、region、通道名称、分区数量等。 配置完成后运行程序即可发送数据。 建立工程,配置用户AK/SK、endpoint、project、region、通道名称、partitionId和startingSequenceNumber。 配置完成后运行程序即可接收数据。 父主题: 一般性问题
  • 什么是分区? 分区(Partition)是DIS数据通道的基本吞吐量单位。创建通道时,将指定所需的分区数量。 普通通道单分区容量:最高发送速度可达1MB/秒或1000条记录/秒(达到任意一种速度上限才会被限流),最高提取速度可达 2MB/秒,单次请求的记录总大小不能超过1MB(不包含partitionKey数据大小)。 高级通道单分区容量:最高发送速度可达 5MB/秒或2000条记录/秒(达到任意一种速度上限才会被限流),最高提取速度可达 10MB/秒,单次请求的记录总大小不能超过5MB(不包含partitionKey数据大小) 目前每个租户默认Partition配额范围为1~50个,租户可以根据需要配置Partition个数。 若需扩大配额,请提交工单增加配额,具体上限需要根据集群的实际负载情况进行计算。 父主题: 一般性问题
  • 操作步骤 使用“WinSCP”工具将“huaweicloud-sdk-dis-x.x.x.zip”上传至Linux系统任一目录。 x.x.x表示DIS SDK包的版本号。 使用“PuTTY”工具登录Linux系统,进入到“huaweicloud-sdk-dis-x.x.x.zip”所在目录,执行如下命令,获取DIS SDK压缩包的校验码。 sha256sum huaweicloud-sdk-dis-x.x.x.zip 显示类似如下校验码: # sha256sum dis-sdk-x.x.x.zip 8be2c937e8d78b1a9b99777cee4e7131f8bf231de3f839cf214e7c5b5ba3c088 huaweicloud-sdk-dis-x.x.x.zip 打开DIS SDK的校验文件“huaweicloud-sdk-dis-x.x.x.zip.sha256sum”与上一步骤中获取的校验码进行对比。 一致,说明从获取的DIS SDK压缩包没被篡改。 不一致,说明DIS SDK压缩包被篡改,需要重新获取。
共100000条