检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
开发思路 使用Structured Streaming接收Kafka中数据,生成请求流、展示流、点击流。 对请求流、展示流、点击流的数据进行关联查询。 统计结果写入kafka。 应用中监控流处理任务的状态。 运行前置操作 安全模式下Spark Core样例代码需要读取两个文件(user
稀疏:表中为空(null)的列不占用存储空间。 MRS服务支持HBase组件的二级索引,支持为列值添加索引,提供使用原生的HBase接口的高性能基于列过滤查询的能力。 HBase结构 HBase集群由主备Master进程和多个RegionServer进程组成。如图1所示。 图1 HBase结构 表1
多语言 Storm作为计算平台,在业务层为用户提供了更为易用的业务实现方式:CQL(Continuous Query Language—持续查询语言)。CQL具有以下几个特点: 使用简单:CQL语法和标准SQL语法类似,只要具备SQL基础,通过简单地学习,即可快速地进行业务开发。
再将数据转移到正式表。 已创建的作业可以在“Loader WebUI”界面上进行浏览,可进行启动、停止、复制、删除、编辑和查看历史信息操作。 图2 查看Loader作业 父主题: 数据导出
ton/,以此类推。 避免对同一张表同时进行读写操作 目前的版本中,Hive不支持并发操作,需要避免对同一张表同时进行读写操作,否则会出现查询结果不准确,甚至任务失败的情况。 分桶表不支持insert into 分桶表(bucket table)不支持insert into,仅支持insert
再将数据转移到正式表。 已创建的作业可以在“Loader WebUI”界面上进行浏览,可进行启动、停止、复制、删除、编辑和查看历史信息操作。 图2 查看Loader作业 父主题: 创建Loader数据导出作业
u-limit 表示该节点上YARN可使用的物理CPU百分比。默认是90,即不进行CPU控制,YARN可以使用节点全部CPU。该参数只支持查看,可通过调整YARN的RES_CPUSET_PERCENTAGE参数来修改本参数值。注意,目前推荐将该值设为可供YARN集群使用的CPU百分数。
确保本地环境的时间与MRS集群的时间差要小于5分钟,若无法确定,请联系系统管理员。MRS集群的时间可通过FusionInsight Manager页面右下角查看。 已准备开发环境及MRS集群相关配置文件,详情请参考准备Spark连接集群配置文件。 操作步骤 参考获取MRS应用开发样例工程,获取样例
确保本地环境的时间与MRS集群的时间差要小于5分钟,若无法确定,请联系系统管理员。MRS集群的时间可通过FusionInsight Manager页面右下角查看。 已准备开发环境及MRS集群相关配置文件,详情请参考准备Spark连接集群配置文件。 操作步骤 参考获取MRS应用开发样例工程,获取样例
在集群内任一节点启动netcat命令,等待应用程序连接。 1 netcat -l -p 9000 启动程序接受Socket数据,并执行联合查询。 1 bin/flink run --class com.huawei.flink.example.sqljoin.SqlJoinWithSocket
IDX_F_ACCOUNT1_PKEY PRIMARY KEY (CLT_NBR,ORG_NBR) ); TOTAL 单击“保存并运行”,开始保存并运行作业。 查看作业完成情况 进入“Loader WebUI”界面,待“状态”显示“成功”则说明作业完成。 父主题: 创建Loader数据导出作业
修改参数值后,需重启Yarn服务使其生效。 说明: 在修改值为“false”并生效后,生效前的日志无法在WebUI中获取。 如果需要在WebUI界面上查看之前产生的日志,建议将此参数设置为“true”。 true yarn.nodemanager.log-aggregation.roll-m
mapreduce.jobhistory.webapp.port 19888 26012 Job history服务器Web http端口。 该端口用于:查看Job History服务器的Web页面。 说明: 端口的取值范围为一个建议值,由产品自己指定。在代码中未做端口范围限制。 安装时是否缺省启用:是
keyBy尽量不要使用String。 设置并行度 并行度控制任务的数量,影响操作后数据被切分成的块数。调整并行度让任务的数量和每个任务处理的数据与机器的处理能力达到最优。 查看CPU使用情况和内存占用情况,当任务和数据不是平均分布在各节点,而是集中在个别节点时,可以增大并行度使任务和数据更均匀的分布在各个节点。增
9000 若回显提示“command not found”,请用户自行安装netcat工具后再次执行。 启动程序接受Socket数据,并执行联合查询。 bin/flink run --class com.huawei.bigdata.flink.examples.SqlJoinWithSocket
量)、take(返回前几个元素)。 生成Scala集合类型,如collect(把RDD中的所有元素导入Scala集合类型)、lookup(查找对应key的所有值)。 写入存储,如与前文textFile对应的saveAsTextFile。 还有一个检查点算子checkpoint。当
结构图说明 名称 描述 Client YARN Application客户端,用户可以通过客户端向ResourceManager提交任务,查询Application运行状态等。 ResourceManager(RM) 负责集群中所有资源的统一管理和分配。接收来自各个节点(Node
显示类似如下信息,表示Maxwell启动成功。 Success to start Maxwell [78092]. 验证Maxwell 登录Maxwell所在的服务器。 查看日志。如果日志里面没有ERROR日志,且有打印如下日志,表示与MySQL连接正常。 BinlogConnectorLifecycleListener
修改参数值后,需重启YARN服务使其生效。 说明: 在修改值为“false”并生效后,生效前的日志无法在WebUI中获取。 如果需要在WebUI界面上查看之前产生的日志,建议将此参数设置为“true”。 true yarn.nodemanager.log-aggregation.roll-m
"<>|;&,'`!{}[]$%+ 不能超过255个字节 默认取值: 不涉及 offset 否 String 参数解释: 分页参数,表示从该偏移量开始查询文件列表。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 1 limit 否 String 参数解释: 分页参数,列表当前分页的数量限制。