检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
生新版本的Parquet文件,那旧版本的文件就不能被Clean清理,增加存储压力。 CPU与内存比例为1:4~1:8。 Compaction作业是将存量的parquet文件内的数据与新增的log中的数据进行合并,需要消耗较高的内存资源,按照之前的表设计规范以及实际流量的波动结合考
或无法实现的应用。 Kudu的应用场景有: 需要最终用户立即使用新到达数据的报告型应用 同时支持大量历史数据查询和细粒度查询的时序应用 使用预测模型并基于所有历史数据定期刷新预测模型来做出实时决策的应用 Kudu与其他组件的关系 Kudu与HBase的关系: Kudu的设计参考了
池参数的正确配置值。 如果根据业务需要,可以单击“详细配置”右侧的编辑按钮修改服务池的参数值。 在“服务池配置”单击指定的服务名,“详细配置”将只显示此服务的参数。手工修改参数值并不会刷新服务使用资源的百分比显示。支持动态生效的参数,在新增加的配置组中显示名将包含配置组的编号,例如“HBase
在“名称”中输入作业的名称。 在“类型”中选择“导出”。 在“组”中设置作业所属组,默认没有已创建的组,单击“添加”创建一个新的组,输入组的名称,单击“确定”保存。 在“队列”中选择执行该作业的YARN队列。默认值“root.default”。 在“优先级”中选择执行该作业的YARN队列
包含了一个查询的结果,例如:它可以是远程数据的本地副本,单表查询或者多表join后查询的结果的行或列、行和列的子集,也可以是使用聚合函数的汇总表。 物化视图通常基于对数据表进行聚合和连接的查询结果创建。物化视图支持“查询重写”,这是一种优化技术,它将以原始表编写的用户查询转换为包括一个或多个物化视图的等效请求。
优化shuffle并行度,提升Spark加工效率 所谓的shuffle并发度如下图所示: 集群默认是200,作业可以单独设置。如果发现瓶颈stage(执行时间长),且分配给当前作业的核数大于当前的并发数,说明并发度不足。通过以下配置优化。 场景 配置项 集群默认值 调整后 Jar作业 spark.default
现或无法实现的应用。 Kudu的应用场景有: 需要最终用户立即使用新到达数据的报告型应用。 同时支持大量历史数据查询和细粒度查询的时序应用。 使用预测模型并基于所有历史数据定期刷新预测模型来做出实时决策的应用。 Kudu开发接口简介 Kudu本身是由C++语言开发的,但它支持使用
资源,当租户资源能使用的资源不满足最小资源时,可以通过抢占来要回之前借出的资源。 最大资源 租户资源最多能使用的资源,租户资源不能得到比最大资源设定更多的资源。取值可以是父租户资源的百分比或绝对值。 预留资源 租户资源预留资源。即使租户资源内没有作业,预留的资源也不能给别的租户资
crt”是“flume_sChat.jks”证书的导出文件,“-f”配置项是证书和证书库的密码; “flume_cChat.jks”是Flume角色客户端的证书库,“flume_cChat.crt”是“flume_cChat.jks”证书的导出文件,“-g”配置项是证书和证书库的密码; “flume_sChatt
Oozie非堆内存使用率超过阈值”,检查该告警的“定位信息”。查看告警上报的实例主机名。 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Oozie > 实例”,选择上报告警实例主机名对应的角色,单击图表区域右上角的下拉菜单,选择“定制 > 内存”中的“Oozie非堆内存使用率”,单击“确定”。
AUTHORIZATION”区域的组件插件名称“OBS”,为对应用户的用户组赋予OBS存储路径的“Read”和“Write”的权限。 例如,为“hgroup1”用户组赋予“obs://obs-test/test/”目录的“Read”和“Write”的权限: 图7 为用户组赋予OBS路径读和写的权限 在首页中单击“HADOOP
afka的监控指标“未完全同步的Partition总数”进行查看。 Kafka滚动重启过程中,建议设置客户端Producer的配置参数“acks”的值为“-1”(配置方式和其他Producer配置参数的配置方式一致),否则在逐个重启Broker实例的瞬间有丢失少量数据的风险。设置
shell。 在HBase shell交互窗口创建数据表table1,该表有一个列族cf,使用命令create 'table1', 'cf'。 插入一条rowkey为1、列名为cid、数据值为123的数据,使用命令put 'table1', '1', 'cf:cid', '123'。
shell。 在HBase shell交互窗口创建数据表table1,该表有一个列族cf,使用命令create 'table1', 'cf'。 插入一条rowkey为1、列名为cid、数据值为123的数据,使用命令put 'table1', '1', 'cf:cid', '123'。
afka的监控指标“未完全同步的Partition总数”进行查看。 Kafka滚动重启过程中,建议设置客户端Producer的配置参数“acks”的值为“-1”(配置方式和其他Producer配置参数的配置方式一致),否则在逐个重启Broker实例的瞬间有丢失少量数据的风险。设置
timeout.ms的最大值(不包含此值)。 group.min.session.timeout.ms Consumer注册时允许的最小会话超时时间。单位:毫秒。 6000 允许Consumer配置的session.timeout.ms的最小值(不包含此值)。 offsets.commit
件(两个文件做同样的修改)。 减少文件中第二行的数字(若移出多个目录,则减少的数字为移出的目录个数)。 删除待移出的Partition所在的行(行结构为“Topic名称 Partition标识 Offset”,删除前先将该行数据保存,后续此内容还要添加到目的目录下的同名文件中)。
设备上。但在逻辑上,一列数据可以看成是由相同类型的元素构成的一个数组, 一行数据的所有列值在各自的数组中按照列顺序排列,即拥有相同的数组下标。数组下标是隐式的,不需要存储。表中所有的行按照维度列,做多重排序,排序后的位置就是该行的行号。 索引 StarRocks通过前缀索引 (Prefix
不建议分区列选择类型为float或double的字段,因为精度问题,可能导致分区列字段的最小值、最大值所在记录无法导入。 id 分区列空值 配置对数据库列中为null值记录的处理方式。 值为“true”时,分区列的值为null的数据会被处理; 值为“false”时,分区列的值为null的数据不会被处理。 true
二级索引表规格 实体 测试值 二级索引表数量 10 二级索引表中的组合列的列数 5 二级索引表中的列名长度(单位:字符) 120 二级索引表名长度(单位:字符) 120 表中所有二级索引表的表名+列名的累积长度*(单位:字符) 3800** * Hive允许的上限值或可用资源的上限值。 **