检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
<ip>:源集群数据库的IP地址。 <port>:源集群数据库的端口号。 <table_name>:待导出的表名称。 <user>:用户名。 <passwd>:用户密码。 命令中如果携带认证密码信息可能存在安全风险,在执行命令前建议关闭系统的history命令记录功能,避免信息泄露。 父主题:
使用preCombineField字段进行数据过滤的逻辑,默认使用DefaultHoodieRecordPayload,同时也提供了多种预置Payload供用户使用,如OverwriteNonDefaultsWithLatestAvroPayload、OverwriteWithLatestAvro
提供了Java、Python两种不同语言的样例工程,还提供了从建表、数据加载到数据查询的样例工程。 Impala样例程序开发思路 运行程序及查看结果 指导用户将开发好的程序编译提交运行并查看结果。 调测Impala应用 父主题: Impala应用开发概述
提供了Java、Python两种不同语言的样例工程,还提供了从建表、数据加载到数据查询的样例工程。 Impala样例程序开发思路 运行程序及查看结果 指导用户将开发好的程序编译提交运行并查看结果。 调测Impala应用 父主题: Impala应用开发概述
提供了Java、Python两种不同语言的样例工程,还提供了从建表、数据加载到数据查询的样例工程。 开发Hive应用 运行程序及结果查看 指导用户将开发好的程序编译提交运行并查看结果。 调测Hive应用 父主题: Hive开发指南(安全模式)
Flume向Spark Streaming提交作业后报类找不到错误 用户问题 Flume向Spark Streaming提交作业,提交到集群后报类找不到的错误。 问题现象 Spark Streaming代码打成jar包提交到集群后报类找不到错误,通过以下两种方式依然不生效。 在提交Spark作业的时候使用--jars
t(); //设置job的并发度为2 env.setBufferTimeout(2); // 创建Zookeeper的注册服务器handler ZookeeperRegisterServerHandler zkRegisterServerHandler
取消正在运行的planfile,同样需要使用绝对路径。 在客户端执行此命令时,用户需要具备supergroup权限。可以使用HDFS服务的系统用户hdfs。或者在集群上创建一个具有supergroup权限的用户,再在客户端中执行此命令。 表3只说明了命令接口的含义及使用方法,实际每个
行处理,每个task读取若干个shuffle输出文件,再对这部分任务的Join结果进行Union操作,以达到消除数据倾斜的效果 配置参数 登录FusionInsight Manager系统,选择“集群 > 服务 > Spark2x > 配置”,单击“全部配置”,搜索以下参数。 参数
行处理,每个task读取部分shuffle输出文件,再对这部分任务的Join结果进行Union操作,以达到消除数据倾斜的效果。 配置参数 登录FusionInsight Manager系统,选择“集群 > 服务 > Spark2x > 配置”,单击“全部配置”,搜索以下参数。 参数
Broker进程停止日志。 checkavailable.log Kafka服务健康状态检查日志。 checkInstanceHealth.log Broker实例健康状态检测日志。 kafka-authorizer.log Broker鉴权日志。 kafka-root.log Broker基础日志。
t<tuple,Time>的方式来表示,tuple是元组,包含了数据结构和数据内容,Time就是该数据的逻辑时间。 keytab文件 存放用户信息的密钥文件。应用程序采用此密钥文件在组件中进行API方式认证。 父主题: Storm应用开发概述
不能再使用相对路径来操作文件,而要使用绝对路径,并且保证所有的HiveServer节点和NodeManager节点上该文件是存在的且omm用户对该文件有相应的权限,才能正常在UDF中操作本地文件。 父主题: Hive常见问题
不能再使用相对路径来操作文件,而要使用绝对路径,并且保证所有的HiveServer节点和NodeManager节点上该文件是存在的且omm用户对该文件有相应的权限,才能正常在UDF中操作本地文件。 父主题: Hive常见问题
点。增加任务的并行度,充分利用集群机器的计算能力,一般并行度设置为集群CPU总和的2-3倍。 操作步骤 并行度可以通过如下三种方式来设置,用户可以根据实际的内存、CPU、数据以及应用程序逻辑的情况调整并行度参数。 在会产生shuffle的操作函数内设置并行度参数,优先级最高。 testRDD
pattern, function) → varchar 描述:使用function替换与字符串中的正则表达式模式匹配的子字符串的每个实例。对于每个匹配,以数组形式传递的捕获组都会调用lambda表达式函数。捕获组号从1开始;整个匹配没有分组(如果需要,请用括号将整个表达式括起来)。
over inner join、aggregate over union all等。为应对不同应用场景的特殊需求,对所有下推模块设计开关功能,用户可以自行配置是否应用上述查询下推的增强。 表1 跨源查询增加特性对比 模块 增强前 增强后 aggregate 不支持aggregate下推
spark-shell执行SQL跨文件系统load数据到Hive表失败 用户问题 使用spark-shell命令执行SQL或者spark-submit提交的Spark任务里面有SQL的load命令,并且原数据和目标表存储位置不是同一套文件系统,上述两种方式MapReduce任务启动时会报错。
TBLPROPERTIES('SORT_COLUMNS'='column1') 在执行该命令后,新的导入会使用新的SORT_COLUMNS配置值。 用户可以根据查询的情况来调整SORT_COLUMNS,但是不会直接影响旧的数据。所以对历史的segments的查询性能不会受到影响,因为历史的
server会定期向master发送心跳。 Kudu Kudu的管理工具,可以用来检查集群的健康状况、日常运维等操作。 keytab文件 存放用户信息的密钥文件,应用程序采用此密钥文件在组件中进行API方式认证。 Schema 表信息,用来表示表中列的信息。 父主题: Kudu应用开发概述