检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
options(**hudi_options). \ mode("overwrite"). \ save(basePath) 查询数据: tripsSnapshotDF = spark. \ read. \ format("hudi"). \ load(basePath
options(**hudi_options). \ mode("overwrite"). \ save(basePath) 查询数据: tripsSnapshotDF = spark. \ read. \ format("hudi"). \ load(basePath
使用BulkLoad工具批量导入HBase数据 使用BulkLoad工具批量更新HBase数据 使用BulkLoad工具批量删除HBase数据 使用BulkLoad工具查询HBase表的行统计数 BulkLoad工具配置文件说明 配置BulkloadTool工具支持解析自定义分隔符 父主题: HBase企业级能力增强
优化数据倾斜场景下的Spark SQL性能 优化小文件场景下的Spark SQL性能 Spark INSERT SELECT语句调优 动态分区插入场景内存优化 小文件优化 聚合算法优化 Datasource表优化 合并CBO优化 多级嵌套子查询以及混合Join的SQL调优 父主题:
客户端使用类 如何关闭ZooKeeper的SASL认证? 在MRS集群外客户端中执行kinit报错“Permission denied”如何处理? ClickHouse客户端执行SQL查询时报内存不足如何处理? MRS如何连接spark-shell? MRS如何连接spark-beeline?
ClickHouse常见问题 在System.disks表中查询到磁盘status是fault或者abnormal 如何迁移Hive/HDFS的数据到ClickHouse 使用辅助Zookeeper或者副本数据同步表数据时,日志报错 如何为ClickHouse用户赋予数据库级别的Select权限
Hive基于输入文件大小将普通join转为mapjoin的开关。 说明: 在使用Hive进行联表查询,且关联的表无大小表的分别(小表数据<24M)时,建议将此参数值改为false,如果此时将此参数设置为true,执行联表查询时无法生成新的mapjoin。 取值范围: true false
Doris常见问题 数据目录SSD和HDD的配置导致建表时偶现报错 使用Stream Load时报RPC超时错误 使用MySQL客户端连接Doris数据库时报错“plugin not enabled”如何处理 FE启动失败 BE匹配错误IP导致启动失败 MySQL客户端连接Doris报错“Read
发布时间 2020-07-06 解决的问题 MRS 2.0.6.1 修复问题列表: MRS Manager 优化补丁机制 解决偶现获取监控指标为空的问题 解决DLF+Presto查询时字段中包含换行符,数据和文件显示问题。 补丁兼容关系 无 安装补丁的影响 安装MRS 2.0.6.1补丁期间会重启MRS
options(**hudi_options). \ mode("overwrite"). \ save(basePath) 查询数据: tripsSnapshotDF = spark. \ read. \ format("hudi"). \ load(basePath
使用HBase过滤器Filter 添加HBase二级索引 启用/禁用HBase二级索引 查询HBase二级索引列表 使用HBase二级索引读取数据 删除HBase二级索引 HBase Region的多点分割 HBase ACL安全配置 父主题: HBase开发指南
HBase常见问题 结束BulkLoad客户端程序导致作业执行失败 如何修复长时间处于RIT状态的Region HMaster等待NameSpace表上线时超时退出 客户端查询HBase出现SocketTimeoutException异常 在启动HBase shell时,报错“java
hosts”文件内是否包含集群内节点的主机名信息,如未包含,需要手动复制解压目录下的“hosts”文件中的内容到客户端所在节点的hosts文件中,确保本地机器能与集群各主机在网络上互通。 Hive操作权限 在进行应用程序开发之前,使用的用户的基本权限要求是属于Hive组,额外操作
数据去重的key需要提前在应用中进行sharding计算,保证相同的key会sharding到同一个shard,才能保证后续相同的key字段数据sharding到同一个shard进行数据的精确去重。 父主题: ClickHouse常用SQL语法
Int)相同,会将数据通过Shuffle的方式重新分区;当shuffle为false的时候,则只是简单的将父RDD的多个partition合并到同一个task进行计算,shuffle为false时,如果numPartitions大于父RDD的切片数,那么分区不会重新调整。 遇到下列场景,可选择使用coalesce算子:
Int)相同,会将数据通过Shuffle的方式重新分区;当shuffle为false的时候,则只是简单的将父RDD的多个partition合并到同一个task进行计算,shuffle为false时,如果numPartitions大于父RDD的切片数,那么分区不会重新调整。 遇到下列场景,可选择使用coalesce算子
HetuEngine。 方案架构 出于管理和信息收集的需要,企业内部会存储海量数据,包括数目众多的各种数据库、数据仓库等,此时会面临数据源种类繁多、数据集结构化混合、相关数据存放分散等困境,导致跨源查询开发成本高,跨源复杂查询耗时长。 HetuEngine提供了统一标准SQL实现跨源协同分析,简化跨源分析操作。
Int)相同,会将数据通过Shuffle的方式重新分区;当shuffle为false的时候,则只是简单的将父RDD的多个partition合并到同一个task进行计算,shuffle为false时,如果numPartitions大于父RDD的切片数,那么分区不会重新调整。 遇到下列场景,可选择使用coalesce算子:
功能介绍 在Flink应用中,调用flink-connector-kafka模块的接口,生产并消费数据。 代码样例 用户在开发前需要使用对接安全模式的Kafka,则需要引入FusionInsight的kafka-clients-*.jar,该jar包可在Kafka客户端目录下获取。
选择“待操作集群的名称 > Hive > Hive读写权限”,勾选“default”的 “查询”、“插入”、“建表”、“递归”。单击“确定”保存。 编辑角色,在“配置资源权限”的表格中选择“待操作集群的名称 > Yarn > 调度队列 > root”,勾选default的“提交”,单击“确定”保存。