检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
常见概念 HBase表 HBase的表是三个维度排序的映射。从行主键、列主键和时间戳映射为单元格的值。所有的数据存储在HBase的表单元格中。 列 HBase表的一个维度。列名称的格式为“<family>:<label>”,<family>和<label>为任意字符组合。表由<f
K,其余副本为DISK。 为什么文件的所有副本的存储类型都是DISK? 回答 当用户写入存储策略为LAZY_PERSIST的文件时,文件的三个副本会逐一写入。第一副本会优先选择客户端所在的DataNode节点,在以下情况下,当文件的存储策略为LAZY_PERSIST时,文件的所有副本的存储类型都是DISK:
K,其余副本为DISK。 为什么文件的所有副本的存储类型都是DISK? 回答 当用户写入存储策略为LAZY_PERSIST的文件时,文件的三个副本会逐一写入。第一副本会优先选择客户端所在的DataNode节点,在以下情况下,当文件的存储策略为LAZY_PERSIST时,文件的所有副本的存储类型都是DISK:
Flink最适合的应用场景是低时延的数据处理(Data Processing)场景:高并发pipeline处理数据,时延毫秒级,且兼具可靠性。 Flink整个系统包含三个部分: Client Flink Client主要给用户提供向Flink系统提交用户任务(流式作业)的能力。 TaskManager Fl
数据处理规则 生成指定类型的随机值。 样例 通过“CSV文件输入”算子,生成两个字段A和B。 源文件如下图: 配置“随机值转换”算子,生成C、D、E三个字段: 转换后,按顺序输入这五个字段: 可以发现,每次生成的随机值都不一样。 父主题: Loader转换类算子
MapReduce统计样例代码 功能介绍 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 主要分为三个部分: 从原文件中筛选女性网民上网时间数据信息,通过类CollectionMapper继承Mapper抽象类实现。 汇总每个女性上网时间,并输出时间大于两个小时的
MapReduce统计样例代码 功能介绍 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 主要分为三个部分: 从原文件中筛选女性网民上网时间数据信息,通过类CollectionMapper继承Mapper抽象类实现。 汇总每个女性上网时间,并输出时间大于两个小时的
单击“管理安全组规则”,检查安全组规则配置。 检查入口方向Any协议的源地址是否为0.0.0.0/0。 如果是,修改入口方向Any协议的远端为指定IP地址。如果不是,则无需修改。 修改成功后,重启集群。 建议与总结 关闭入口方向的Any协议,或者指定入口方向的Any协议远端为指定IP。 父主题: 使用Yarn
Flink最适合的应用场景是低时延的数据处理(Data Processing)场景:高并发pipeline处理数据,时延毫秒级,且兼具可靠性。 Flink整个系统包含三个部分: Client Flink Client主要给用户提供向Flink系统提交用户任务(流式作业)的能力。 TaskManager Fl
需要在安装客户端的机器上进行kinit认证操作后才可执行示例操作。 以下示例均为https协议的示例,若要使用http协议,需要执行以下操作: 将REST接口切换成HTTP协议方式,请参见配置基于HTTPS/HTTP协议的REST接口。 将示例中的“--insecure”去掉,将https替换成http,例如
也支持列级别的权限控制。如果要访问别人创建的表上某些列,需要授予列权限。以下介绍使用Manager角色管理功能在表授权、列授权和数据库授权三个场景下的操作。 操作步骤 SparkSQL表授权、列授权、数据库授权与Hive的操作相同,详情请参见Hive用户权限管理。 在权限管理中,
MapReduce统计样例代码 功能介绍 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 主要分为三个部分: 从原文件中筛选女性网民上网时间数据信息,通过类CollectionMapper继承Mapper抽象类实现。 汇总每个女性上网时间,并输出时间大于两个小时的
安全加密通道是HDFS中RPC通信的一种加密协议,当用户调用RPC时,用户的login name会通过RPC头部传递给RPC,之后RPC使用Simple Authentication and Security Layer(SASL)确定一个权限协议(支持Kerberos和DIGEST-
需要在安装客户端的机器上进行kinit认证操作后才可执行示例操作。 以下示例均为https协议的示例,若要使用http协议,需要执行以下操作: 将REST接口切换成HTTP协议方式,请参见配置基于HTTPS/HTTP协议的REST接口。 将示例中的“--insecure”去掉,将https替换成http,例如
数据同步是异步的。 本章节主要介绍如何配置ClickHouse保证副本间数据强一致。 参数配置 配置ClickHouse副本间数据强一致优先级别:单条语句设置 > 会话级别设置 > 全局默认设置。 副本间强一致必须要结合原子性一起使用,否则在插入过程中出现异常,无法回退成功。 登录FusionInsight
安全加密通道是HDFS中RPC通信的一种加密协议,当用户调用RPC时,用户的login name会通过RPC头部传递给RPC,之后RPC使用Simple Authentication and Security Layer(SASL)确定一个权限协议(支持Kerberos和DIGEST-
也支持列级别的权限控制。如果要访问别人创建的表上某些列,需要授予列权限。以下介绍使用Manager角色管理功能在表授权、列授权和数据库授权三个场景下的操作。 操作步骤 SparkSQL表授权、列授权、数据库授权与Hive的操作相同,详情请参见Hive用户权限管理。 在权限管理中,
配置MapReduce Job基线 操作场景 确定Job基线是调优的基础,一切调优项效果的检查,都是通过和基线数据做对比来获得。 Job基线的确定有如下三个原则: 充分利用集群资源 Reduce阶段尽量放在一轮 每个Task的执行时间要合理 操作步骤 原则一:充分利用集群资源。 Job运行时,
窗口函数跨查询结果的行执行计算。它们在HAVING子句之后但在ORDER BY子句之前运行。调用窗口函数需要使用OVER子句来指定窗口的特殊语法。窗口具有三个组成部分: 分区规范,它将输入行分为不同的分区。这类似于GROUP BY子句如何将行分为聚合函数的不同组。 排序规范,它确定窗口函数将处理输入行的顺序。
配置输入字段列数,大于原始数据实际包含字段列数,全部数据成为脏数据。 样例 通过“CSV文件输入”算子,生成三个字段A、B和C。 源文件如下: 配置“字符串空格清除转换”算子,生成三个新字段D、E和F。 转换后,依次输出这六个字段,结果如下: 父主题: 转换算子