检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
HBase开源增强特性:支持多点分割 当用户在HBase创建Region预先分割的表时,用户可能不知道数据的分布趋势,所以Region的分割可能不合适,所以当系统运行一段时间后,Region需要重新分割以获得更好的查询性能,HBase只会分割空的Region。 HBase自带的Region分割只有当
包和业务表在同一个OBS桶下偶现OBS 403认证过期问题,开启方法(若之前有设置过,则跳过):在Master节点通过ps -ef | grep executor命令确定executor进程ID,并添加参数executor.spark.launcher.obs.user-agency
a高可靠性功能,防止当Kafka发生故障或者Kafka重启时传输的数据丢失。 表1 使用MRS Kafka同步数据的CDL任务 数据源 目的端 描述 MySQL Hudi 该任务支持从MySQL同步数据到Hudi。 Kafka 该任务支持从MySQL同步数据到Kafka。 PgSQL
API来执行Hive DDL,提交Mapreduce任务,查询Mapreduce任务执行结果等操作。 权限要求 表1 操作权限要求 操作类型/作用对象 操作 权限要求 DATABASE CREATE DATABASE dbname [LOCATION "hdfs_path"] 如果指定了
已创建用户flume_hdfs并授权验证日志时操作的HDFS目录和数据。 操作步骤 在FusionInsight Manager管理界面,选择“系统 > 权限 > 用户”,选择“更多 > 下载认证凭据”下载用户flume_hdfs的kerberos证书文件并保存在本地。 图1 下载认证凭据
参数入口: MRS 3.x之前版本:需要在MRS控制台上进行配置。 MRS 3.x及之后版本:需要在FusionInsight Manager系统进行配置。 参数配置组合决定了每节点任务(map、reduce)的并发数。 如果所有的任务(map/reduce)需要读写数据至磁盘,多个
Array[String]) { val ssc = createContext(args) //启动Streaming系统。 ssc.start() ssc.awaitTermination() } def createContext(args
memory.mb” yarn.nodemanager.resource.memory-mb 说明: 需要在FusionInsight Manager系统进行配置。 16384 Server 如果所有的任务(map/reduce)需要读写数据至磁盘,多个进程将会同时访问一个磁盘。这将会导致磁
存储目录将同步修改。 更改NodeManager单个实例的存储目录,只对单个实例生效,其他节点NodeManager实例存储目录不变。 对系统的影响 更改NodeManager角色的存储目录需要停止并重新启动集群,集群未启动前无法提供服务。 更改NodeManager单个实例的存
获取样例工程并将其导入IDEA,导入样例工程依赖jar包。通过IDEA配置并生成jar包。 准备样例工程所需数据。 将场景说明中的原日志文件放置在HDFS系统中。 本地新建两个文本文件,分别将log1.txt及log2.txt中的内容复制保存到input_data1.txt和input_data2
and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"] projectId = "{project_id}"
前提条件 MRS集群管理员已明确业务需求。 已安装好IoTDB客户端。 操作步骤 登录FusionInsight Manager,选择“系统 > 权限 > 角色”。 单击“添加角色”,然后在“角色名称”和“描述”输入角色名字与描述。 设置角色“配置资源权限”请参见表1。 IoTDB权限:
nt”,以下操作的客户端目录只是举例,请根据实际安装目录修改。 MRS 3.x及之后版本的Impala客户端节点(Euler2.9及以上操作系统)需要安装Python2版本,具体请参考Impala客户端安装Python2。 操作步骤 以客户端安装用户,登录安装客户端的节点。 执行以下命令,切换到客户端安装目录。
选择其中少数的几列做维度列、指标列计算。匹配这种场景下,ClickHouse的数据也是按照列存储的。如果使用select *,会大大加重系统的压力。 通过limit限制查询返回的数据量,节省计算资源、减少网络开销。 如果返回的数据量过大,客户端有可能出现内存溢出等服务异常。 对
否 taskmanager.network.numberOfBuffers TaskManager网络传输缓冲栈数量,如果作业运行中出错提示系统中可用缓冲不足,可以增加这个配置项的值。 2048 否 taskmanager.debug.memory.startLogThread 调
nt”,以下操作的客户端目录只是举例,请根据实际安装目录修改。 MRS 3.x及之后版本的Impala客户端节点(Euler2.9及以上操作系统)需要安装Python2版本,具体请参考Impala客户端安装Python2。 操作步骤 以客户端安装用户,登录安装客户端的节点。 执行以下命令,切换到客户端安装目录。
Language)编译和解析,生成并执行相应的MapReduce任务或者HDFS操作。 图1 Hive结构 约束与限制 需要在Manager的“系统 > 权限 > 用户”界面上创建一个LDAP中已存在的同名用户,并添加“hive”和“hadoop”用户组,该用户用于HiveServer的健康检查。
对应的连接的使用权限。 操作步骤 设置作业基本信息 登录“Loader WebUI”界面。 登录FusionInsight Manager系统,具体请参见访问集群Manager。 选择“集群 > 服务 > Loader”。 单击“LoaderServer(节点名称,主)”打开“Loader
使得Join计算的性能大大降低,该过程如图1所示: 图1 无同分布数据传输流程 由于数据表文件是以HDFS Block方式存放在物理文件系统中,如果能把两个需要Join的文件数据块按Join Key分区后,一一对应地放在同一台机器上,则在Join计算的Reduce过程中无需传递数据,直接在节点本地做Map
对应的连接的使用权限。 操作步骤 设置作业基本信息 登录“Loader WebUI”界面。 登录FusionInsight Manager系统,具体请参见访问FusionInsight Manager(MRS 3.x及之后版本)。 选择“集群 > 待操作集群名称 > 服务 > Loader”。