检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
create table test_1 (id int, name text, value text); 配置“HBase输入”算子,生成三个字段A、B和C: 设置了数据连接器后,可以单击“自动识别”,系统将自动读取数据库中的字段,可根据需要选择添加,然后根据业务场景手动进行完善或者修正即可,无需逐一手动添加。
/:partition 参数 参数 描述 :db 数据库名。 :table 表名。 group 创建新分区时使用的用户组。 permissions 创建新分区时用户的权限。 location 新分区的存放位置。 ifNotExists 如果设置为true, 当分区已经存在,系统报错。
strleft()等函数截取中文字符时,不能把中文当做1个字符长度来处理,导致报编码问题。 处理步骤 登录Impala客户端安装节点,执行以下命令。 cd 客户端安装目录 source bigdata_env 执行以下命令创建表。 impala-shell -d bigdata 执行以下命令查询表数据。
HBase日志文件过大导致OS盘空间不足 用户问题 OS盘/var/log分区空间不足。 问题现象 “/var/log/Bigdata/hbase/*/hbase-omm-*.out”日志文件过大,造成OS盘/var/log分区空间不足。 原因分析 在HBase长时间运行场景下,操作系统会把JVM创建的“/tmp/
“/var/log/Bigdata/nodeagent/scriptlog/ssh-agent-monitor.log”。 如果把omm的用户目录删除了,需要联系MRS运维人员修复。 父主题: 节点管理类
需要查询的表名,支持database.tablename格式。 是 commit_Time 指定创建或回滚的时间戳。 是 user 创建savepoint的用户。 否 comments 该条savepoint的注释说明。 否 示例 call create_savepoint('hudi_test1'
ze=512M GC_OPTS参数中-XX:MaxDirectMemorySize默认没有配置,如需配置,用户可在GC_OPTS参数中自定义添加。 具体的配置方法如下: 用户可登录FusionInsight Manager,单击“集群 > 待操作集群的名称 > 服务 > Yarn
0/16 接口说明 注册服务器接口 注册服务器用来保存NettySink的IP、端口以及并发度信息,以便NettySource连接使用。为用户提供以下接口: public interface RegisterServerHandler { /** * 启动注册服务器
mapreduce.input.fileinputformat.split.maxsize map输入信息应被拆分成的数据块的最大大小。 由用户定义的分片大小的设置及每个文件block大小的设置,可以计算分片的大小。计算公式如下: splitSize = Math.max(minSize
Loader权限: “管理员”:Loader管理员权限。 “作业连接器”:Loader的连接权限。 “作业分组”:Loader的作业分组操作权限。用户可以在指定作业分组下设置具体作业的操作权限,包括作业的编辑“编辑”与执行“执行”权限。 “作业调度”:Loader的作业调度权限。 表1 设置Loader角色
如果加载数据语句中有关键字LOCAL,表明从本地加载数据,除要求对相应表的UPDATE权限外,还要求该数据在当前连接的HiveServer节点上,加载用户对数据路径“PATH”具有读权限,且以omm用户能够访问该数据文件。 如果加载数据语句中有关键字OVERWRITE,表示加载的数据会覆盖表中原有的数据,否则加载的数据会追加到表中。
PASSWORD,建议密文存放,使用时解密,确保安全。其中: DORIS_MY_USER为访问Doris的用户名。 DORIS_MY_PASSWORD为访问Doris的用户密码。 导入jdbc-example样例工程之后,运行时需修改以下参数: 将代码中HOST = "xxx"的
create table test_1 (id int, name text, value text); 配置“HBase输入”算子,生成三个字段A、B和C: 设置了数据连接器后,可以单击“自动识别”,系统将自动读取数据库中的字段,可根据需要选择添加,然后根据业务场景手动进行完善或者修正即可,无需逐一手动添加。
CarbonData表使用的数据文件的block大小,默认值为1024,最小值为1,最大值为2048,单位为MB。 如果“table_blocksize”值太小,数据加载时,生成过多的小数据文件,可能会影响HDFS的使用性能。 如果“table_blocksize”值太大,数据查询时,索引匹配的block数据量较大
segments. <database_name>. <table_name> = < list of segment ids >” 如果用户想在多线程模式下查询指定段,可使用CarbonSession.threadSet代替SET语句。 语法: “CarbonSession.threadSet
ze=512M GC_OPTS参数中-XX:MaxDirectMemorySize默认没有配置,如需配置,用户可在GC_OPTS参数中自定义添加。 具体的配置方法如下: 用户可登录FusionInsight Manager,单击“集群 > 服务 > Yarn > 配置”,单击“全部配置”,单击“NodeManager
val paraTool = ParameterTool.fromArgs(args) // 构造流图,将自定义Source生成的数据写入Kafka val messageStream: DataStream[String] = env.addSource(new
性申请executor,因此CarbonData可获得所有节点上的executor。 为了优化并行数据处理及并行读取块数据,运用动态分配的用户需配置以下特性。 使用参数“spark.dynamicAllocation.executorIdleTimeout”并将此参数值设置为15min(或平均查询时间)。
自定义Flink log4j日志输出级别不生效 用户问题 MRS 3.1.0集群自定义Flink log4j日志级别不生效。 问题现象 在使用MRS 3.1.0集群Flink数据分析时,将“$Flink_HOME/conf”目录下的“log4j.properties”文件中日志级别修改为INFO级别日志。
YARN-Cluster模式下,Driver运行在AM(Application Master)中,它负责向YARN申请资源,并监督作业的运行状况。当用户提交了作业之后,就可以关掉Client,作业会继续在YARN上运行,因而YARN-Cluster模式不适合运行交互类型的作业。 YARN-