检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建FlinkServer流表源 操作场景 通过数据表,定义源表、维表、输出表的基本属性和字段信息。 新建流表 访问Flink WebUI,请参考访问FlinkServer WebUI界面。 单击“流表管理”进入流表管理页面。 单击“新建流表”,在新建流表页面参考表1填写信息,单
场景说明 场景说明 假定用户有某个周末网民网购停留时间的日志文本,基于某些业务要求,要求开发Spark应用程序实现如下功能: 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 周末两天的日志文件第一列为姓名,第二列为性别,第三列为本次停留时间,单位为分钟,分隔符为“
配置项中使用宏定义 用户在创建或者编辑Loader作业时,在配置参数时可以使用宏,在执行作业任务时会自动替换为宏对应的值。 宏定义只在该作业范围内生效。 宏定义支持随作业导入导出,如果作业中有使用宏定义,则导出的作业包括宏定义。导入作业时默认也导入宏定义。 时间宏dataform
ALTER VIEW 语法 ALTER VIEW view_name AS select_statement; ALTER VIEW view_name SET TBLPROPERTIES table_properties; 描述 “ALTER VIEW view_name AS
Loader算子配置项中使用宏定义 用户在创建或者编辑Loader作业时,在配置参数时可以使用宏,在执行作业任务时会自动替换为宏对应的值。 宏定义只在该作业范围内生效。 宏定义支持随作业导入导出,如果作业中有使用宏定义,则导出的作业包括宏定义。导入作业时默认也导入宏定义。 时间宏
配置Hudi通过Guardian访问OBS 参考配置Guardian服务对接OBS完成Guardian对接OBS后,即可在spark-shell中创建Hudi COW表存储到OBS中。 Hudi对接OBS 使用客户端安装用户登录客户端安装节点。 配置环境变量。 source 客户端安装目录/bigdata_env
MRS 2.1.0.1补丁说明 补丁基本信息 表1 补丁基本信息 补丁号 MRS 2.1.0.1 发布时间 2020-02-12 解决的问题 MRS 2.1.0.1 修复问题列表: MRS Manager 优化V2作业提交hive sql返回结果、解决委托token提交V2作业失败问题。
开启TableStatus多版本特性下,最新tablestatus文件丢失或损坏,如何恢复 问题 开启TableStatus多版本特性下,最新的tablestatus文件丢失或其他异常原因损坏的情况下,如何恢复? 回答 使用当前可得的最近的tablestatus文件进行恢复,分为如下两个场景来进行恢复:
管理TTL策略 命令功能 开启TTL后,使用此命令添加/更新/删除/清空TTL策略。 命令格式 添加TTL策略: call ttl_policy_save(table => "[table]", path => "[path]", spec => "[spec]", level =>
IoTDB UDF概述 UDF(User Defined Function)即用户自定义函数。IoTDB提供多种内建函数及自定义函数来满足用户的计算需求。 UDF类型 IoTDB支持的UDF函数的类型如表1所示。 表1 UDF函数类型 UDF分类 描述 UDTF(User Defined
HyperLogLog函数 HetuEngine使用HyperLogLog数据结构实现rox_distinct()函数。 数据结构 HyperLogLog(hll)是一种统计基数的算法。它实际上不会存储每个元素出现的次数,它使用的是概率算法,通过存储元素的32位hash值的第一个
配置Hive动态脱敏 使用场景 Hive动态脱敏功能开启后,配置脱敏列的数据可以参与计算,计算结果输出时不可见,在集群内脱敏策略会根据血缘关系自动传递,更大的发挥数据的价值同时保障数据的隐私性。 使用约束 不支持Hudi表的脱敏。 不支持涉及直接读写HDFS的操作的脱敏。 不支持
myhuaweicloud.com/mrs-demon-samples/demon/detail-records.zip获取Spark样例数据到本地。 将下载的“detail-records.zip”解压,获取图3所示的样例数据。 图3 样例数据 进入“input”文件夹,单击“上传文件”,选择本地存放的Spark样例数据。
查看Flink应用运行结果 Flink应用程序运行完成后,您可以查看运行结果数据,也可以通过Flink WebUI查看应用程序运行情况。 操作步骤 查看Flink应用运行结果数据。 当用户查看执行结果时,需要在Flink的web页面上查看Task Manager的Stdout日志。
Flink性能调优规则 及时对Hudi表进行compaction防止Hudi Source算子Checkpoint完成时间过长 当Hudi Source算子Checkpoint完成时间长时,可检查该Hudi表compaction是否正常。因为当长时间不做compaction时list性能会变差。
Hive CBO原理介绍 Hive CBO原理介绍 CBO,全称是Cost Based Optimization,即基于代价的优化器。 其优化目标是: 在编译阶段,根据查询语句中涉及到的表和查询条件,计算出产生中间结果少的高效join顺序,从而减少查询时间和资源消耗。 Hive中实现CBO的总体过程如下:
Hive应用开发建议 HQL编写之隐式类型转换 查询语句使用字段的值做过滤时,不建议通过Hive自身的隐式类型转换来编写HQL。因为隐式类型转换不利于代码的阅读和移植。 建议示例: select * from default.tbl_src where id = 10001; select
十进制函数和操作符 DECIMAL字面量 可以使用DECIMAL 'xxxxxxx.yyyyyyy' 语法来定义DECIMAL类型的字面量。 DECIMAL类型的字面量精度将等于字面量(包括尾随零和前导零)的位数。范围将等于小数部分(包括尾随零)的位数。 示例字面量 数据类型 DECIMAL
MRS 2.1.0.2补丁说明 补丁基本信息 表1 补丁基本信息 补丁号 MRS 2.1.0.2 发布时间 2020-04-22 解决的问题 MRS 2.1.0.2 修复问题列表: MRS Manager nodeagent重启后不显示监控信息 长时间提交作业,manager executor进程会内存溢出
Set Digest函数 概述 HetuEngine提供了几个处理MinHash技术的函数。 MinHash用于估计两个集合的Jaccard相似系数。它通常用于数据挖掘,用于大规模检测近乎相同的网页。通过使用这些信息,搜索引擎有效地避免了在搜索结果中显示两个几乎相同的网页。 以下示例展示了如何使用Set