检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
自定义排序器 编写自定义排序类继承BulkInsertPartitioner,在写入Hudi时加入配置: .option(BULKINSERT_USER_DEFINED_PARTITIONER_CLASS, <自定义排序类的包名加类名>) 自定义分区排序器样例: public class
接口说明 注册服务器接口 注册服务器用来保存NettySink的IP、端口以及并发度信息,以便NettySource连接使用。为用户提供以下接口: public interface RegisterServerHandler { /** * 启动注册服务器 * @param
MapReduce访问多组件样例代码 功能介绍 主要分为三个部分: 从HDFS原文件中抽取name信息,查询HBase、Hive相关数据,并进行数据拼接,通过类MultiComponentMapper继承Mapper抽象类实现。 获取拼接后的数据取最后一条输出到HBase、HDF
Oozie REST接口介绍 常用接口与JAVA一样。 Java API主要由org.apache.oozie.client.OozieClient提供。 详情请参见http://oozie.apache.org/docs/5.1.0/WebServicesAPI.html。 父主题:
Spark Core样例程序(Scala) 功能简介 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 代码样例 下面代码片段仅为演示,具体代码参见com.huawei.bigdata.spark.examples.FemaleInfoCollection: 样例:类CollectMapper
Spark Core样例程序(Python) 功能简介 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 代码样例 下面代码片段仅为演示,具体代码参见collectFemaleInfo.py: def contains(str, substr): if substr
Flink开启Checkpoint样例程序开发思路 场景说明 假定用户需要每隔1秒钟需要统计4秒中窗口中数据的量,并做到状态严格一致性,即:当应用出现异常并恢复后,各个算子的状态能够处于统一的状态。 数据规划 使用自定义算子每秒钟产生大约10000条数据。 产生的数据为一个四元组
); //设置job的并发度为2 env.setBufferTimeout(2); // 创建Zookeeper的注册服务器handler ZookeeperRegisterServerHandler zkRegisterServerHandler
getExecutionEnvironment // 设置job的并发度为2 env.setParallelism(2) //设置Zookeeper为注册服务器 val zkRegisterServerHandler = new ZookeeperRegisterServerHandler
如何处理无法直接通过URL访问Flink Web 问题 无法通过“http://JobManager IP:JobManager的端口”访问Web页面。 回答 由于浏览器所在的计算机IP地址未加到Web访问白名单导致。用户可以通过修改客户端的配置文件“conf/flink-conf
如何添加自定义代码的依赖包 问题 用户在开发Spark程序时,会添加样例程序外的自定义依赖包。针对自定义代码的依赖包,如何使用IDEA添加到工程中? 回答 在IDEA主页面,选择“File > Project Structures...”进入“Project Structure”页面。
Spark Core样例程序(Python) 功能简介 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 代码样例 下面代码片段仅为演示,具体代码参见collectFemaleInfo.py: def contains(str, substr): if substr
API,可接受HTTP GET请求并使用JSON数据进行响应。REST API是访问Web服务器的一套API。当前在Flink中,Web服务器是JobManager的一个模块,和JobManager共进程。默认情况下,web服务器监测的端口是8081,用户可以在配置文件“flink-conf.yaml”中配置“jobmanager
使用Get API读取HBase表数据 功能简介 要从表中读取一条数据,首先需要实例化该表对应的Table实例,然后创建一个Get对象。也可以为Get对象设定参数值,如列族的名称和列的名称。查询到的行数据存储在Result对象中,Result中可以存储多个Cell。 代码样例 以下代码片段在com
HBase JDBC API接口介绍 Phoenix实现了大部分的java.sql接口,SQL语法紧跟ANSI SQL标准。 其支持处理函数可参见: http://phoenix.apache.org/language/functions.html 其支持语法可参见: http://phoenix
Spark应用名在使用yarn-cluster模式提交时不生效 问题 Spark应用名在使用yarn-cluster模式提交时不生效,在使用yarn-client模式提交时生效,如图1所示,第一个应用是使用yarn-client模式提交的,正确显示代码里设置的应用名Spark P
Flink向Kafka生产并消费数据Java样例代码 功能简介 在Flink应用中,调用flink-connector-kafka模块的接口,生产并消费数据。 用户在开发前需要使用对接安全模式的Kafka,则需要引入MRS的kafka-client-xx.x.x.jar,该jar包可在MRS
Flink向Kafka生产并消费数据Scala样例代码 功能简介 在Flink应用中,调用flink-connector-kafka模块的接口,生产并消费数据。 用户在开发前需要使用对接安全模式的Kafka,则需要引入MRS的kafka-client-xx.x.x.jar,该jar包可在MRS
doBuild(PKIXValidator.java:392) ... 47 more 回答 通过https协议连接安全集群,服务端的证书没有被认证,导致连接失败。 可以用集群内节点上java jdk目录下的cacerts(例如:/opt/Bigdata/jdk1.8
【Ranger WebUI】新用户修改完密码后无法登录Ranger WebUI界面 问题 使用新建用户登录Ranger页面,为什么在修改完密码后登录报401错误? 回答 由于UserSync同步用户数据有时间周期,默认是5分钟,因此在Manager上新创建的用户在用户同步成功前无