检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
hetu-cli --catalog 数据源名称 --schema 数据库名 例如执行以下命令: hetu-cli --catalog hudi --schema default 执行以下命令,可正常查看数据库表信息或不报错即表示连接成功。 show tables; Hudi数据类型映射
登录客户端安装节点,通过Hive客户端查看数据库,确认对接成功。 source 客户端安装路径/bigdata_env kinit 组件业务用户 beeline show databases;desc database default; !q 通过Spark客户端,查看数据库,确认对接成功。如果集群不存在Spark组件请跳过该步骤。
查看Spark任务日志失败 Spark Streaming任务提交问题 Spark连接其他服务认证问题 Spark连接Kafka认证错误 SparkSQL读取ORC表报错 Spark WebUI页面上stderr和stdout无法跳转到日志页面 spark-beeline查询Hive视图报错 Spark
Supervisor Storm Logviewer Storm Nimbus Storm UI Storm FlinkResource Flink ClickHouseServer ClickHouse ClickHouseBalancer ClickHouse HSBroker HetuEngine
安装补丁过程包括组件重启,支持滚动重启和离线重启,请选择合适的方法。重启过程不能省略。 补丁安装后操作不能省略,若没有执行此操作,会影响Spark、HDFS、Flink等组件的补丁生效,会导致Spark client模式的作业运行失败。 安装补丁流程 补丁安装流程如图1所示。 图1 安装补丁流程 父主题:
安装补丁过程包括组件重启,支持滚动重启和离线重启,请选择合适的方法,重启过程不能省略。 补丁安装后操作不能省略,若没有执行此操作,会影响Spark、HDFS、Flink等组件的补丁生效,会导致Spark client模式的作业运行失败。 安装补丁流程 补丁安装流程如图1所示。 图1 安装补丁流程 父主题:
"lid01", "lid02", "lid03" })); } 写文件,写文件前必须创建对应的group 样例:写入testfile.txt文件。 /** * 创建并写入文件 * * @throws java.io.IOException */ private static
"lid01", "lid02", "lid03" })); } 写文件,写文件前必须创建对应的group 样例:写入testfile.txt文件。 /** * 创建并写入文件 * * @throws java.io.IOException */ private static
"lid01", "lid02", "lid03" })); } 写文件,写文件前必须创建对应的group 样例:写入testfile.txt文件。 /** * 创建并写入文件 * * @throws java.io.IOException */ private static
"lid01", "lid02", "lid03" })); } 写文件,写文件前必须创建对应的group 样例:写入testfile.txt文件。 /** * 创建并写入文件 * * @throws java.io.IOException */ private static
数据导入数据库的方式,有全量导入,增量导入,普通导入三种。 TOTAL:全量导入,数据版本默认为0,新写入数据版本为1,新数据入库时更新相同主键的数据,插入不同主键的数据并删除版本为0的所有原有数据。下一次新写入数据版本为0,依次交替更新数据版本。 INCREMENT:增量导入,更新相同主键的数据,插入不同主键的数据,保留原有数据。
ClickHouse企业级能力增强 通过ELB访问ClickHouse ClickHouse开启mysql_port配置 父主题: 使用ClickHouse
的容错性。 Sink 数据输出,Sink要支持幂等性写入操作,不同的sink有不同的容错性。 outputMode 结果输出模式,当前支持3种输出模: Complete Mode:整个更新的结果集都会写入外部存储。整张表的写入操作将由外部存储系统的连接器完成。 Append Mo
的容错性。 Sink 数据输出,Sink要支持幂等性写入操作,不同的sink有不同的容错性。 outputMode 结果输出模式,当前支持3种输出模: Complete Mode:整个更新的结果集都会写入外部存储。整张表的写入操作将由外部存储系统的连接器完成。 Append Mo
的容错性。 Sink 数据输出,Sink要支持幂等性写入操作,不同的sink有不同的容错性。 outputMode 结果输出模式,当前支持3种输出模: Complete Mode:整个更新的结果集都会写入外部存储。整张表的写入操作将由外部存储系统的连接器完成。 Append Mo
在通常的join/in/not in时候,需要在前面添加Global关键字,避免查询放大问题。 数据查询建议 建议查询指定分区 通过指定分区字段会减少底层数据库扫描的文件数量,提升查询性能,实际经验:700个分区的千列大表,需要查询一个分区中有7000万数据,其他699个分区中无数据,虽然只有一个
threshold参数值)时,会生成一个Job,利用Executor的并行能力去读取,从而提升执行效率。 由于权限检查在获取表元数据之后,因此当读取的parquet表包含的文件数量很多时,会在报“Missing Privileges”之前,运行一个Job来并行读取元数据信息。 父主题: SQL和DataFrame
使用Hue提交提交Bundle批处理作业 操作场景 当同时存在多个定时任务的情况下,用户可以通过Bundle任务进行批量管理作业。该任务指导用户通过Hue界面提交批量类型的作业。 前提条件 提交Bundle批处理之前需要提前配置好相关的Workflow和Coordinator作业。
Kafka常见问题 Kafka业务规格说明 Kafka相关特性说明 基于binlog的MySQL数据同步到MRS集群中 如何解决Kafka topic无法删除的问题 父主题: 使用Kafka
Kafka常见问题 Kafka业务规格说明 Kafka相关特性说明 基于binlog的MySQL数据同步到MRS集群中 如何解决Kafka Topic无法删除的问题 父主题: 使用Kafka