检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ager进程中的一个辅助服务。通过该服务来抓取shuffle数据,减少了Executor的压力,在Executor GC的时候也不会影响其他Executor的任务运行。 操作步骤 登录FusionInsight Manager系统。 选择“集群 > 服务 > Spark2x > 配置”。单击“全部配置”。
System.out.println(result); jsc.stop(); 上面是简单示例,其它sparkSQL特性请参见如下链接:http://spark.apache.org/docs/latest/sql-programming-guide.html#runni
conf(必须)放入conf目录中。 此工具暂时只支持Carbon表。 此工具会初始化Carbon环境和预读取表的元数据到JDBCServer,所以更适合在多主实例、静态分配模式下使用。 父主题: Spark运维管理
间后将变为老化文件,会基于系统机制清除或用户手动清除。 您可以设置文件保留在回收站中的时间阈值,一旦文件保存时间超过此阈值,将从回收站中永久地删除。如果回收站被清空,回收站中的所有文件将被永久删除。 配置描述 参数入口: 请参考修改集群服务配置参数,进入HDFS的“全部配置”页面,在搜索框中输入参数名称。
使用Hue提交Oozie Distcp作业 操作场景 该任务指导用户通过Hue界面提交Distcp类型的Oozie作业。 操作步骤 创建工作流,请参考使用Hue创建工作流。 在工作流编辑页面,选择“DistCp”按钮,将其拖到操作区中。 当前DistCp操作是否是跨集群操作。 是,执行4。
使用Hue提交Oozie Distcp作业 操作场景 该任务指导用户通过Hue界面提交Distcp类型的Oozie作业。 操作步骤 创建工作流,请参考使用Hue创建工作流。 在工作流编辑页面,选择“DistCp”按钮,将其拖到操作区中。 当前DistCp操作是否是跨集群操作。 是,执行4。
lete状态;segment合并后,旧的segments状态会变为compacted。这些segments的数据文件不会从物理上删除。如果用户希望强制删除这些文件,可以使用CLEAN FILES命令。 但是,使用该命令可能会导致查询命令执行失败。 命令格式 CLEAN FILES
'topic' = 'test_source', 'properties.bootstrap.servers' = 'Kafka的Broker实例业务IP:Kafka端口号', 'properties.group.id' = 'testGroup', 'scan.startup
administrators 用于指定MapReduce集群管理员列表,可以配置用户和用户组,用户或者用户组之间用逗号间隔,用户和用户组之间用空格间隔,举例:userA,userB groupA,groupB。当配置为*时表示所有用户或用户组。 MRS 3.x之前版本:mapred MRS 3.x及之后版本:
配置Hudi数据列默认值 该特性允许用户在给表新增列时,设置列的默认值。查询历史数据时新增列返回默认值。 本章节仅适用于MRS 3.3.0及之后版本。 使用约束 新增列在设置默认值前,如果数据已经进行了重写,则查询历史数据不支持返回列的默认值,返回NULL。数据入库、更新、执行C
Mnanager中Spark2x界面中修改上述三个参数然后重启Spark2x实例之后重新下载客户端,具体步骤如下: 登录FusionInsight Mnanager界面,选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 配置 > 全部配置”,搜索参数spark.driver
Mnanager中Spark2x界面中修改上述三个参数然后重启Spark2x实例之后重新下载客户端,具体步骤如下: 登录FusionInsight Mnanager界面,选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 配置 > 全部配置”,搜索参数spark.driver
nitConnection方法中。 在创建连接时传入表1中配置的user和password作为认证凭据,ClickHouse会带着用户名和密码在服务端进行安全认证。 clickHouseProperties.setPassword(userPass); clickHouseProperties
initConnection方法中。在创建连接时传入表1中配置的user和password作为认证凭据,ClickHouse会带着用户名和密码在服务端进行安全认证。 MRS 3.3.0之前版本,示例代片段参考如下: clickHouseProperties.setPassword(userPass);
--driver-memory=512M -f /tpch.sql 在执行SQL语句前,请使用MRS集群管理员用户修改内存大小配置。 登录FusionInsight Manager,选择“集群 > 服务 > Spark2x > 配置”。 单击“全部配置”,并搜索“SPARK_DRIVER_MEMORY”。
配置自定义调度器的WebUI 配置场景 如果用户在ResourceManager中配置了自定义的调度器,可以通过以下配置项为其配置相应的Web展示页面及其他Web应用。 配置描述 参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面,在搜索框中输入参数名称。 表1 配置自定义调度器的WebUI
、并发度设置等功能。 易于扩展:CQL提供了拓展接口,以支持日益复杂的业务场景,用户可以自定义输入、输出、序列化、反序列化等功能来满足特定的业务场景 易于调试:CQL提供了详细的异常码说明,降低了用户对各种错误的处理难度。 关于Storm的架构和详细原理介绍,请参见:https://storm
通过这些约束和建议,指导开发者在ClickHouse数据库开发使用过程中能够最大化发挥数据库的优势,保障ClickHouse数据库高性能、稳定可靠运行。用户可更专注于上层业务,释放数据更大的价值。 表1 ClickHouse设计规范说明 项目 描述 数据库规划 集群业务规划、容量规划、数据分布。
rescale(); 广播:广播每个元素到所有分区。 dataStream.broadcast(); 自定义分区:使用一个用户自定义的Partitioner对每一个元素选择目标task,由于用户对自己的数据更加熟悉,可以按照某个特征进行分区,从而优化任务执行。 简单示例如下所示: // fromElements构造简单的Tuple2流
是由spark用户启动的,因此其用户也是spark用户,且当前无法实现在运行时将Beeline端的用户透传到executor,因此使用非spark用户时需要对文件进行更改owner为Beeline端的用户,即实际用户。 如果查询的数据是大量的小文件将会产生大量map操作,从而导