检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
用Broadcast特性(请参见使用广播变量),将小表BroadCast到各个节点上,从而转变成非shuffle操作,提高任务执行性能。 这里join操作,只指inner join。 操作步骤 在Spark SQL中进行Join操作时,可以按照以下步骤进行优化。为了方便说明,设表
高级配置 最大数量:一次性显示的最大日志条数,如果检索到的日志数量超过设定值,时间较早的将被忽略。不配表示不限制。 检索超时:用于限制每个节点上的最大检索时间,超时后会中止搜索,已经搜索到的结果仍会显示。 单击“检索”开始搜索,结果包含字段如表2所示。 表2 检索结果 参数名 说明 时间
将Hudi表数据同步到Hive 通过执行run_hive_sync_tool.sh可以将Hudi表数据同步到Hive中。 例如:需要将HDFS上目录为hdfs://hacluster/tmp/huditest/hudimor1_deltastreamer_partition的Hudi表同步为Hive表,表名为table
互联网服务的数据收集场景。 Kafka结构 生产者(Producer)将消息发布到Kafka主题(Topic)上,消费者(Consumer)订阅这些主题并消费这些消息。在Kafka集群上一个服务器称为一个Broker。对于每一个主题,Kafka集群保留一个用于缩放、并行化和容错性
在“任务名称”填写本地快速恢复任务的名称。 在“备份配置”选择数据源。 在“可恢复点列表”选择一个包含目标备份数据的恢复点。 在“队列名称”填写任务执行时使用的Yarn队列的名称。需和集群中已存在且状态正常的队列名称相同。 在“数据配置”选择需要恢复的对象。 单击“校验”,界面显示“校验恢复任务配置成功”。
BulkGet接口使用 场景说明 用户可以在Spark应用程序中使用HBaseContext的方式去使用HBase,将要获取的数据的rowKey构造成rdd,然后通过HBaseContext的bulkGet接口获取对HBase表上这些rowKey对应的数据。 数据规划 基于Bul
BulkGet接口使用 场景说明 用户可以在Spark应用程序中使用HBaseContext的方式去使用HBase,将要获取的数据的rowKey构造成rdd,然后通过HBaseContext的bulkGet接口获取对HBase表上这些rowKey对应的数据。 数据规划 基于Bul
e-examples”以及Maven相关配置。 在应用开发环境中,导入样例工程到IntelliJ IDEA开发环境。 在IDEA界面选择“File > New > Project from Existing Sources”。 在显示的“Select File or Directory
e-examples”以及Maven相关配置。 在应用开发环境中,导入样例工程到IntelliJ IDEA开发环境。 在IDEA界面选择“File > New > Project from Existing Sources”。 在显示的“Select File or Directory
Manager,选择“集群 > 待操作集群的名称 > 服务 > Oozie ”,单击“oozie WebUI”后的超链接进入Oozie页面,在Oozie的WebUI上查看任务运行结果。 图1 任务运行结果 父主题: 使用Oozie客户端提交作业
3.1.3及之后版本 HSBroker 是 否 否 确保业务侧和HetuServer服务端HSBroker、Coordinator(随机分布在Yarn NodeManger)所在业务节点网络互通 需对外开放Coordinator的IP,端口 支持范围:MRS 3.1.0及之后版本 父主题:
详情可参考配置Flink认证和加密。 ACL控制 在HA模式下,支持ACL控制。 Flink在HA模式下,支持用ZooKeeper来管理集群和发现服务。ZooKeeper支持SASL ACL控制,即只有通过SASL(kerberos)认证的用户,才有往ZK上操作文件的权限。如果要在Flink上使用SASL AC
0_x的bin目录,例如:C:\Program Files\Java\jdk1.8.0_121\bin,则新增如下内容: 图1 新增JDK的bin目录 在https://archive.apache.org/dist/phoenix/apache-phoenix-5.0.0-HBase-2.0
将Hudi表数据同步到Hive 通过执行run_hive_sync_tool.sh可以将Hudi表数据同步到Hive中。 例如:需要将HDFS上目录为hdfs://hacluster/tmp/huditest/hudimor1_deltastreamer_partition的Hudi表同步为Hive表,表名为table
dcast特性(见“使用广播变量”章节),将被广播的表BroadCast到各个节点上,从而转变成非shuffle操作,提高任务执行性能。 这里join操作,只指inner join。 操作步骤 在Spark SQL中进行Join操作时,可以按照以下步骤进行优化。为了方便说明,设表
开源的服务端只支持简单的文本密码,这可能导致相关安全问题。为此在服务端将不再使用此类文本密码。 Client端 将“zkCli.sh/zkEnv.sh”文件中的参数“-Dzookeeper.client.secure”设置为“true”以在Client端使用安全通信。之后客户端可以连接服务端的secureClientPort。
Presto架构 Presto分布式地运行在一个集群中,包含一个Coordinator和多个Worker进程,查询从客户端(例如CLI)提交到Coordinator,Coordinator进行SQL的解析和生成执行计划,然后分发到多个Worker进程上执行。 有关Presto的详细信息,
运行环境:Windows系统或Linux系统。 如需在本地调测程序,运行环境需要和集群业务平面网络互通。 安装JDK 开发和运行环境的基本配置。版本要求如下: 服务端和客户端仅支持自带的OpenJDK,版本为1.8.0_272,不允许替换。 对于客户应用需引用SDK类的Jar包运行在客户应用进程中的。 X86客户端:Oracle
准备本地应用开发环境 准备开发环境 在进行应用开发时,要准备的开发和运行环境如表1所示。 表1 开发环境 准备项 说明 操作系统 开发环境:Windows系统,支持Windows 7以上版本。 运行环境:Linux系统。 如需在本地调测程序,运行环境需要和集群业务平面网络互通。 安装JDK
165:21005 2h 1h req 10000000 show 5m click 5m 此命令将在kafka上创建3个topic:req、show、click,在2h内生成1千万条请求事件数据,请求事件的时间取值范围为{当前时间-1h 至 当前时间},并为每条请求事件随机生成