检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Clustering架构 Hudi通过其写入客户端API提供了不同的操作,如insert/upsert/bulk_insert来将数据写入Hudi表。为了能够在文件大小和入湖速度之间进行权衡,Hudi提供了一个hoodie.parquet.small.file.limit配置来设置最小文件大小。用户
登录MRS控制台或FusionInsight Manager界面。 重启相关组件。 在MRS控制台,选择“现有集群”,单击集群名称进入集群详情页面。单击“组件管理”,选择需要重启的服务,进入服务页面。在“服务状态”页签单击“更多”,选择“重启服务”或“滚动重启服务”。 在FusionInsight Manager界面,选择“集群
登录MRS控制台或FusionInsight Manager界面。 重启相关组件。 在MRS控制台,选择“现有集群”,单击集群名称进入集群详情页面。单击“组件管理”,选择需要重启的服务,进入服务页面。在“服务状态”页签单击“更多”,选择“重启服务”或“滚动重启服务”。 在FusionInsight Manager界面,选择“集群
IDEA,依次选择“File > Open”。 在弹出的Open File or Project会话框中选择样例工程文件夹“mapreduce-example-security”,单击“OK”。 设置IntelliJ IDEA的文本文件编码格式,解决乱码显示问题。 在IntelliJ IDEA的菜单栏中,选择“File>
与Ranger上配置的脱敏策略一致,Customer类型脱敏策略输出结果为“***”。简单的查询操作例如:select * from 表名;、select * from 表名 limit xxx;。 提交Yarn任务的复杂查询,字符串字段类型脱敏结果与Ranger上配置的脱敏策略
> Yarn > 配置 > 全部配置”。 在搜索框搜索“yarn.resourcemanager.webapp.pagination.enable”。 如果该参数值为“true”(默认为“true”),请修改为“false”,并保存配置。 在Yarn服务页面选择“实例”页签,勾选所
准备Spark本地应用开发环境 在进行应用开发时,要准备的开发和运行环境如表1所示。 表1 开发环境 准备项 说明 操作系统 开发环境:Windows系统,支持Windows 7以上版本。 运行环境:Windows系统或Linux系统。 如需在本地调测程序,运行环境需要和集群业务平面网络互通。
服务 > Hive > 配置 > 全部配置”。 选择“HiveServer(角色) > 自定义”,对参数文件“hive-site.xml”添加自定义参数,设置“名称”为“hive.overwrite.directory.move.trash”,“值”为“true”。 单击“保存”
Impala应用开发环境简介 在进行应用开发时,要准备的本地开发环境如表1所示。同时需要准备运行调测的环境,用于验证应用程序运行正常。 表1 开发环境 准备项 说明 操作系统 开发环境:Windows系统,推荐Windows7以上版本。 运行环境:Linux系统。 安装JDK 开发和运行环境的基本配置。版本要求如下:
Intro.html 准备运行环境 在节点上安装客户端,例如安装到“/opt/client”目录。 进入客户端安装目录“/opt/client”,执行下列命令初始化环境变量。 source bigdata_env 操作步骤 获取运行在Yarn上的任务的具体信息。 命令: curl
如果您使用的安全模式,建议按照安全要求,准备安全认证代码、业务应用代码及其相关配置。 yarn-cluster模式中不支持在Spark工程中添加安全认证。因为需要在应用启动前已完成安全认证。所以用户需要在Spark应用之外添加安全认证代码或使用命令行进行认证。由于提供的示例代码默认提供安全认证代码,请在yarn-
Spark Structured Streaming状态操作样例程序(Scala) 功能介绍 在Spark结构流应用中,跨批次统计每个session期间发生了多少次event以及本session的开始和结束timestamp;同时输出本批次被更新状态的session。 代码样例
Spark Structured Streaming状态操作样例程序(Scala) 功能介绍 在Spark结构流应用中,跨批次统计每个session期间发生了多少次event以及本session的开始和结束timestamp;同时输出本批次被更新状态的session。 代码样例
Clustering架构 Hudi通过其写入客户端API提供了不同的操作,如insert/upsert/bulk_insert来将数据写入Hudi表。为了能够在文件大小和入湖速度之间进行权衡,Hudi提供了一个hoodie.parquet.small.file.limit配置来设置最小文件大小。用户
修改备份任务(MRS 2.x及之前版本) 在MRS Manager,选择“系统设置 > 备份管理”。 在任务列表指定任务的“操作”列,单击“修改”,打开修改配置页面。 在新页面中修改任务参数。 手动备份支持修改的参数项如下: 目的端路径:修改备份文件在HDFS中保存的目录。 最大备份数:修改备份目录中可保留的备份文件集数量。
Hive > 配置 > 全部配置”。 选择“MetaStore(角色) > 自定义”,对参数文件“hivemetastore-site.xml”添加自定义参数,设置“名称”为“hive.mapreduce.per.task.max.splits”,“值”为具体设定值,一般尽量设置大。
Tasks页面显示了运行在HBase上的任务信息,包括开始时间,状态等信息,如图4所示。 图4 Tasks基本信息 在HBase的Web UI页面中,Table Details页面展示的是HBase存储表的概要信息,如图5所示。 图5 TableDetails 在HBase的Web UI页面中,Debug
Tasks页面显示了运行在HBase上的任务信息,包括开始时间,状态等信息,如图4所示。 图4 Tasks基本信息 在HBase的Web UI页面中,Table Details页面展示的是HBase存储表的概要信息,如图5所示。 图5 TableDetails 在HBase的Web UI页面中,Debug
Spark Structured Streaming状态操作样例程序(Scala) 功能介绍 在Spark结构流应用中,跨批次统计每个session期间发生了多少次event以及本session的开始和结束timestamp;同时输出本批次被更新状态的session。 代码样例
Spark Structured Streaming状态操作样例程序(Scala) 功能介绍 在Spark结构流应用中,跨批次统计每个session期间发生了多少次event以及本session的开始和结束timestamp;同时输出本批次被更新状态的session。 代码样例