检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
打开配置文件“${BIGDATA_HOME}/FusionInsight_Current/*HiveServer/etc/hivemetastore-site.xml”,查找配置项“javax.jdo.option.ConnectionURL”,复制配置项值。 登录Manager页面,选择“集群 > 服务 > Hive
HBase输入 概述 “HBase输入”算子,将HBase表的指定列转换成同等数量的输入字段。 输入与输出 输入:HBase表列 输出:字段 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 HBase表类型 配置HBase表类型,可选项为normal(普通表)和phoenix表。
schemaFemaleInfo.registerTempTable("FemaleInfoTable"); // 执行SQL查询 Dataset<ROW> femaleTimeInfo = spark.sql("select * from " +
hive_sync.enable指定为false。 指定为false将导致新写入的分区无法同步到Hive Metastore中。由于缺失新写入的分区信息,查询引擎读取该时会丢数。 禁止指定Hudi的索引类型为INMEMORY类型。 该索引仅是为了测试使用。生产环境上使用该索引将导致数据重复。 建表示例
行修正。 处理步骤 该方案仅适用于MRS 2.x及之前版本集群。 登录MRS Manager页面,选择“服务管理 > Hue > 实例”,查询Hue实例所在的节点的IP。 使用root用户远程连接工具登录Hue实例所在节点的机器,并执行如下命令切换到omm用户。 su - omm
timestamp类型到hive元数据中。该值默认为false,默认将timestamp类型同步为bigInt,默认情况可能导致使用sql查询包含timestamp类型字段的hudi表出现错误。 true 父主题: Hudi常见配置参数
避免程序出现未知异常。可以使用try-catch块来处理异常,并在必要时记录异常信息。 UDF中应避免定义静态集合类用于临时数据的存储,或查询外部数据存在较大对象,否则会导致内存占用过高。 应该避免类中import的包和服务侧包冲突,可通过grep -lr "完全限定类名"命令来
hudi_table2 set name=3 where id=1; 删除数据: delete from hudi_table2 where id=2; 查询数据: select * from hudi_table2; 父主题: 使用Hudi
在“作业管理”的作业列表中,找到创建的作业名称,单击操作列的“启动”,等待作业启动。 观察数据传输是否生效,例如在MySQL数据库中对作业中指定的表进行插入数据操作,查看Hudi导入的文件内容是否正常。 父主题: 创建CDL作业
使用Filter过滤器读取HBase表数据 功能简介 HBase Filter主要在Scan和Get过程中进行数据过滤,通过设置一些过滤条件来实现,如设置RowKey、列名或者列值的过滤条件。 代码样例 以下代码片段在com.huawei.bigdata.hbase.exampl
Hive输入 概述 “Hive输入”算子,将Hive表的指定列转换成同等数量的输入字段。 输入与输出 输入:Hive表列 输出:字段 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 Hive数据库 Hive的数据库名称。 String 否 default Hive表名
Spark输入 概述 “Spark输入”算子,将SparkSQL表的指定列转换成同等数量的输入字段。 输入与输出 输入:SparkSQL表列 输出:字段 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 Spark数据库 SparkSQL的数据库名称。 String
HBase输入 概述 “HBase输入”算子,将HBase表的指定列转换成同等数量的输入字段。 输入与输出 输入:HBase表列 输出:字段 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 HBase表类型 配置HBase表类型,可选项为normal(普通表)和phoenix表。
只有当output mode为complete时才支持排序操作。 有条件地支持流和静态数据集之间的外连接。 不支持部分DataSet上立即运行查询并返回结果的操作: count():无法从流式Dataset返回单个计数,而是使用ds.groupBy().count()返回一个包含运行计数的streaming
只有当output mode为complete时才支持排序操作。 有条件地支持流和静态数据集之间的外连接。 不支持部分DataSet上立即运行查询并返回结果的操作: count():无法从流式Dataset返回单个计数,而是使用ds.groupBy().count()返回一个包含运行计数的streaming
只有当output mode为complete时才支持排序操作。 有条件地支持流和静态数据集之间的外连接。 不支持部分DataSet上立即运行查询并返回结果的操作: count():无法从流式Dataset返回单个计数,而是使用ds.groupBy().count()返回一个包含运行计数的streaming
确保本地环境的时间与MRS集群的时间差要小于5分钟,若无法确定,请联系系统管理员。MRS集群的时间可通过FusionInsight Manager页面右下角查看。 已准备开发环境及MRS集群相关配置文件,详情请参考准备Spark连接集群配置文件。 操作步骤 参考获取MRS应用开发样例工程,获取样例
确保本地环境的时间与MRS集群的时间差要小于5分钟,若无法确定,请联系系统管理员。MRS集群的时间可通过FusionInsight Manager页面右下角查看。 已准备开发环境及MRS集群相关配置文件,详情请参考准备Spark连接集群配置文件。 操作步骤 参考获取MRS应用开发样例工程,获取样例
增大计算实例中单个Worker的内存大小 增大单个计算实例配置中的“Worker容器资源配置”的“容器内存(MB)”和“JVM”的“-Xmx”的值。 控制单个查询在单个Worker的内存使用大小 在“自定义配置”中单击“增加”,添加2个同名参数“query.max-memory-per-node”,
default.test_ligtwight_delete where id > 0; 注意事项 已删除的行会立即标记为已删除,并将自动从所有后续查询中过滤掉。数据清理在后台异步发生。此功能仅适用于MergeTree表引擎系列; 当前能力只支持本地表和复制表的轻量化删除功能,分布式表暂不支持。