华为云用户手册

MapReduce服务 MRS-HetuEngine数据类型说明:浮点型

浮点型名称描述存储空间取值范围字面量 REAL 实数 32位 1.40129846432481707e-45 ~3.40282346638528860e+38，正或负 REAL DOUBLE 双精度浮点数，15到17个有效位，具体取决于使用场景，有效位数并不取决于小数点位置 64位 4.94065645841246544e-324 ~1.79769313486231570e+308，正或负 DOUBLE FLOAT 单精度浮点数，6到9个有效位，具体取决于使用场景，有效位数并不取决于小数点位置 32位 1.40129846432481707e-45 ~3.40282346638528860e+38，正或负 FLOAT 用法说明：分布式查询使用高性能硬件指令进行单精度或者双精度运算时，由于每次执行的顺序不一样，在调用聚合函数，比如SUM()，AVG()，特别是当数据规模非常大时，达到数千万甚至数十亿，其运算结果可能会略有不同。这种情况下，建议使用DECIMAL数据类型来运算。可以使用别名来指定数据类型。示例： --创建具有float类型数据的表CREATE TABLE float_t1 (float_col1 FLOAT) ;--插入具有float类型数据insert into float_t1 values (float '3.50282346638528862e+38');--查看数据SELECT * FROM float_t1;float_col1------------Infinity(1 row)--删除表DROP TABLE float_t1; 当小数部分为0时，可以通过cast()转为对应范围的整数处理，小数部分会四舍五入。示例： select CAST(1000.0001 as INT);_col0-------1000(1 row)select CAST(122.5001 as TINYINT);_col0-------123(1 row) 使用指数表达式时，可以将字符串转为对应类型。示例： select CAST(152e-3 as double);_col0-------0.152(1 row)

MapReduce服务 MRS
MapReduce服务 MRS-如何对insert overwrite自读自写场景进行优化:操作步骤

操作步骤假设存在如下一张表： user_data(user_group int, user_name string, update_time timestamp); 其中user_group是分区列，需要根据已有数据，按更新时间进行排序，刷新用户组信息。操作步骤如下：在Hive Beeline命令行执行以下命令开启Hive动态分区： set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict; 执行以下命令创建一个临时表，用于存储去重后的数据： CREATE TABLE temp_user_data AS SELECT * FROM ( SELECT *, ROW_NUMBER() OVER(PARTITION BY user_group ORDER BY update_time DESC) as rank FROM user_data ) tmp WHERE rank = 1; 执行以下命令使用临时数据作为数据源，并插入到目的表中： INSERT OVERWRITE TABLE user_data SELECT user_group, user_name, update_time FROM temp_user_data; 执行以下命令清理临时表： DROP TABLE IF EXISTS temp_user_data;

MapReduce服务 MRS
MapReduce服务 MRS-配置HDFS多路读:操作场景

操作场景在传统的HDFS中，当客户端请求读取数据时，它会与NameNode交互以确定数据块所在的DataNodes，并选择其中一个进行连接和数据传输。如果所选DataNode的响应速度较慢或者发生故障，客户端必须等待一段时间后才会尝试从其他副本中获取数据，将会导致读取延迟。开启多路读能够提高HDFS在高延迟网络环境中的可靠性，主要体现在以下方面：降低读取延迟：通过同时从多个数据节点读取相同的数据块来降低总体读取时间。适应网络变化：在网络条件不稳定或部分节点出现性能问题时，提高客户端的读取效率。

MapReduce服务 MRS
MapReduce服务 MRS-CREATE MATERIALIZED VIEW:描述

描述该语法是使用SELECT查询结果创建物化视图。物化视图是一个数据库对象，它包含了一个查询的结果，例如：它可以是远程数据的本地副本，单表查询或者多表join后查询的结果的行或列、行和列的子集，也可以是使用聚合函数的汇总表。物化视图通常基于对数据表进行聚合和连接的查询结果创建。物化视图支持“查询重写”，这是一种优化技术，它将以原始表编写的用户查询转换为包括一个或多个物化视图的等效请求。语法支持的属性包括： storage_table：指定存储表的表名。 need_auto_refresh：管理计算实例时，预先创建维护实例后，可通过设置need_auto_refresh为true，创建具备自动刷新能力的物化视图，它会自动创建并提交物化视图刷新任务，在此基础上，可对refresh_duration，start_refresh_ahead_of_expiry,refresh_priority等属性做进一步配置来调整自动刷新任务。 mv_validity：物化视图生命周期。0表示永久有效，最短为1分钟。need_auto_refresh设置为false时，mv_validity默认值为0；设置为true时，默认值为24小时。 refresh_duration：物化视图自动刷新任务的最长等待时间。默认为5分钟，取值范围为1分钟到24小时。若自动刷新任务的等待时间超过设定的最长等待时间，自动化任务界面对应的任务状态显示为"timeout"。 start_refresh_ahead_of_expiry：基于mv _validity设置物化视图自动刷新任务的提交时间，表示达到物化生命周期的指定百分比时，提交自动刷新任务，默认值为0.2，最小值为0.05。 refresh_priority：物化视图提交自动刷新任务的优先级。默认值为3，最大值为3，1表示最高优先级。高优先级的任务会有更大机会先被执行。

MapReduce服务 MRS
MapReduce服务 MRS-UNION | INTERSECT | EXCEPT:INTERSECT

INTERSECT query INTERSECT [DISTINCT] query INTERSECT仅返回第一个和第二个查询的结果相交的行。以下是最简单的INTERSECT子句之一的示例。它选择值13和42，并将此结果集与选择值13的第二个查询合并。由于42仅在第一个查询的结果集中，因此不包含在最终结果中。 SELECT * FROM (VALUES 13,42) INTERSECT SELECT 13; _col0 ------- 13 (1 row)

MapReduce服务 MRS
MapReduce服务 MRS-UNION | INTERSECT | EXCEPT:EXCEPT

EXCEPT query EXCEPT [DISTINCT] query EXCEPT返回在第一个查询结果而不在第二个查询结果中的行。 SELECT * FROM (VALUES 13, 42) EXCEPT SELECT 13; _col0------- 42(1 row) Having子句目前不支持使用列的别名，例如： select count(userid) as num ,dept as aaa from salary group by dept having aaa='d1'; 报错如下： Query 20210630_085136_00024_wc8n9@default@HetuEngine failed: line 1:75: Column 'aaa' cannot be resolved

MapReduce服务 MRS
MapReduce服务 MRS-LOAD:示例

示例创建文件“f1.txt”，填入3行数字，并通过HDFS上传到“/opt/load_test/”目录下。 --读取f1.txt的数据填充表f1CREATE TABLE tb_load_f1(id int) with (format='TEXTFILE'); LOAD DATA INPATH '/opt/load_test/f1.txt' into table tb_load_f1; select * from tb_load_f1; id ---- 1 2 3 (3 rows) --读取/opt/load_test/目录下的文件，填充表f2CREATE TABLE tb_load_f2(id int) with (format='TEXTFILE'); LOAD DATA INPATH '/opt/load_test/' into table tb_load_f2; select * from tb_load_f2; id ---- 1 2 3 (3 rows) --读取f3.txt文件内容填充表f3（多字段，数据分隔符为'-'）,并通过HDFS上传到/opt/load_test/ 目录下，f3.txt文件内容如下： 1-n1 2-n2-- 创建目标表tb_load_f3CREATE TABLE tb_load_f3(id int,name varchar) with(format='TEXTFILE',textfile_field_separator='-'); Load data inpath '/opt/load_test/f3.txt' into table tb_load_f3; Select * from tb_load_f3;id | name ----|------ 1 | n1 2 | n2 (2 rows)

MapReduce服务 MRS
MapReduce服务 MRS-DELETE:示例

示例非事务表场景：清空表数据 --创建表并插入数据 create table tb_del as select * from (values(1,'suse'),(2,'centos'),(3,'euler')) as t (id,os);select * from tb_del; id | os ----|-------- 1 | suse 2 | centos 3 | euler (3 rows)--不支持通过where子句删除单条数据delete from tb_del where id =1;Query 20201116_081955_00027_iyct5@default@HetuEngine failed: This connector only supports delete where one or more partitions are deleted entirely for Non-Transactional tables--清空表数据delete from tb_del;select * from tb_del; id | os ----|----(0 rows) 删除分区表hive.web.page_views中partition(date='2020-07-17', country='US')的分区： delete from hive.web.page_views where ds=date '2020-07-17' and country='US'; 事务表场景：删除指定记录 --创建事务表 create table tb_trans(a int,b string) with (transactional=true);CREATE TABLE--插入数据insert into tb_trans values(1,'a'),(2,'b'),(3,'c');INSERT: 3 rows--删除数据delete from tb_trans where a=1;DELETE: 1 row

MapReduce服务 MRS
MapReduce服务 MRS-数学函数和运算符:浮点函数

浮点函数 infinity() → double 返回表示正无穷大的常数。 select infinity();-- Infinity is_finite(x) → boolean 判断x是否有限值。 select is_finite(infinity());-- falseselect is_finite(50000);--true is_infinite(x) → boolean 判断x是否无穷大。 select is_infinite(infinity());-- trueselect is_infinite(50000);--false is_nan(x) → boolean 判断x是否非数字。 --输入的值必须为double类型select is_nan(null); -- NULLselect is_nan(nan()); -- trueselect is_nan(45);-- false nan() → double 返回表示非数字的常数。 select nan(); -- NaN

MapReduce服务 MRS
MapReduce服务 MRS-数学函数和运算符:三角函数

三角函数所有三角函数的参数都是以弧度表示。参考单位转换函数degrees()和radians()。 acos(x) → double 求反余弦值。 SELECT acos(-1);-- 3.14159265358979 asin(x) → double 求反正弦值。 SELECT asin(0.5);-- 0.5235987755982989 atan(x) → double 求x的反正切值。 SELECT atan(1);-- 0.7853981633974483 atan2(y, x) → double 返回y/x的反正切值。 SELECT atan2(2,1);-- 1.1071487177940904 cos(x) → double 返回x的余弦值。 SELECT cos(-3.1415927);-- -0.9999999999999989 cosh(x) → double 返回x的双曲余弦值。 SELECT cosh(3.1415967);-- 11.592000006553231 sin(x) → double 求x的正弦值。 SELECT sin(1.57079);-- 0.9999999999799858 tan(x) → double 求x的正切值。 SELECT tan(20);-- 2.23716094422474 tanh(x) → double 求x双曲正切值。 select tanh(3.1415927);-- 0.9962720765661324

MapReduce服务 MRS
MapReduce服务 MRS-TABLESAMPLE:SYSTEM

SYSTEM 此采样方法将表划分为数据的逻辑段，并按此粒度对表进行采样。此采样方法要么从特定数据段中选择所有行，要么跳过它（基于采样百分比与运行时计算的随机值之间的比较）。系统采样中行的选择依赖于使用的connector。例如，如果使用Hive数据源，这将取决于数据在HDFS上的布局。这种采样方法不能保证独立的抽样概率。 SELECT * FROM users TABLESAMPLE SYSTEM (75);

MapReduce服务 MRS
MapReduce服务 MRS-TABLESAMPLE:BERNOULLI

BERNOULLI 每一行都将基于指定的采样率选择到采样表中。当使用Bernoulli方法对表进行采样时，将扫描表的所有物理块并跳过某些行（基于采样百分比和运行时计算的随机值之间的比较）。结果中包含一行的概率与任何其他行无关。这不会减少从磁盘读取采样表所需的时间。如果进一步处理采样输出，则可能会影响总查询时间。 SELECT * FROM users TABLESAMPLE BERNOULLI (50);

MapReduce服务 MRS
MapReduce服务 MRS-十进制函数和操作符:二进制算术decimal运算符

二进制算术decimal运算符支持标准数学运算符。下表说明了结果的精度和范围计算规则。假设x的类型为DECIMAL(xp, xs)，y的类型为DECIMAL(yp, ys)。运算结果类型精度结果类型范围 x + y和x - y min(38, 1 + min(xs, ys) + min(xp - xs, yp - ys) ) max(xs, ys) x * y min(38, xp + yp) xs + ys x / y min(38, xp + ys + max(0, ys-xs) ) max(xs, ys) x % y min(xp - xs, yp - ys) + max(xs, bs) max(xs, ys) 如果运算的数学结果无法通过结果数据类型的精度和范围精确地表示，则发生异常情况：Value is out of range。当对具有不同范围和精度的decimal类型进行运算时，值首先被强制转换为公共超类型。对于接近于最大可表示精度 (38) 的类型，当一个操作数不符合公共超类型时，这可能会导致“值超出范围”错误。例如：decimal(38, 0) 和decimal(38, 1) 的公共超类型是decimal(38, 1)，但某些符合decimal(38, 0) 的值无法表示为decimal(38, 1)。

MapReduce服务 MRS
MapReduce服务 MRS-十进制函数和操作符:DECIMAL字面量

DECIMAL字面量可以使用DECIMAL 'xxxxxxx.yyyyyyy' 语法来定义DECIMAL类型的字面量。 DECIMAL类型的字面量精度将等于字面量（包括尾随零和前导零）的位数。范围将等于小数部分（包括尾随零）的位数。示例字面量数据类型 DECIMAL '0' DECIMAL(1) DECIMAL '12345' DECIMAL(5) DECIMAL '0000012345.1234500000' DECIMAL(20, 10)

MapReduce服务 MRS
MapReduce服务 MRS-Session信息

Session信息 current_user 描述：返回当前用户。 select current_user; current_user() 参考current_user。 current_catalog 描述：返回当前的catalog名字。 select current_catalog; current_schema 描述：返回当前的schema名字。 select current_schema; 父主题： HetuEngine SQL函数和操作符说明

MapReduce服务 MRS
MapReduce服务 MRS-Color函数

Color函数 bar(x, width) 描述：使用默认的低频红色和高频绿色渲染ANSI条形图中的单个条形。例如，如果将25％的x和40的宽度传递给此函数。将绘制一个10个字符的红色条形，后跟30个空格，以创建一个40个字符的条形。 bar(x, width, low_color, high_color) 描述：在ANSI条形图中以指定宽度绘制一条直线。参数x是0到1之间的一个双精度值。x的值超出[0，1]范围将被截断为0或1值。low_color和high_color捕获用于水平条形图任一端的颜色。例如，如果x为0.5，宽度为80，low_color为0xFF0000，high_color为0x00FF00，则此函数将返回一个40个字符的条形，该条形由红色（0xFF0000）和黄色（0xFFFF00）组成，其余80个字符条为用空格填充。 select bar(0.75,80,rgb(255,0,0),rgb(0,255,0)); render(b) 描述：根据布尔值返回对错符号。 select render(true),render(false); 父主题： HetuEngine SQL函数和操作符说明

MapReduce服务 MRS
MapReduce服务 MRS-正则表达式函数:概述

概述所有的正则表达式函数都使用Java样式的语法。但以下情况除外：使用多行模式（通过（？m）标志启用）时，只有\ n被识别为行终止符。此外，不支持（？d）标志，因此不能使用。大小写区分模式（通过（？i）标志启用）时，总是以unicode的模式去实现。同时，不支持上下文敏感匹配和局部敏感匹配。此外，不支持（？u）标志。不支持Surrogate Pair编码方式。例如，\ uD800 \ uDC00不被视为U + 10000，必须将其指定为\ x {10000}。边界字符（\b）无法被正确处理，因为它一个不带基字符的非间距标记。 \Q和\E在字符类（如[A-Z123]）中不受支持，而是作为文本处理。支持Unicode字符类（\ p {prop}），但有以下差异：名称中的所有下划线都必须删除。例如，使用OldItalic而不是Old_Italic 必须直接指定脚本，不能带Is，script =或sc =前缀。示例：\ p {Hiragana} 必须使用In前缀指定块。不支持block =和blk =前缀。示例：\p{Mongolian} 必须直接指定类别，而不能带Is，general_category =或gc =前缀。示例：\p{L} 二进制属性必须直接指定，而不是Is。示例：\p{NoncharacterCodePoint}

MapReduce服务 MRS
MapReduce服务 MRS-CALL:描述

描述调用指定的存储过程。存储过程由各个连接（connnectors）提供，实现数据操作或者管理任务。例如，系统连接器（System Connector）就定义了存储过程可以取消一个正在运行的查询。有些数据源，例如PostgreSQL，其系统有定义自己的存储过程，这与连接器定义的存储过程不同，是无法被CALL调用的。检查并更新metastroe中分区数组，它支持3种模式： ADD：将文件系统中存在但metastore里没有的分区系统同步到metastroe中。 DROP：drop元数据表中存在但文件系统中不存在的分区。 FULL：同时进行ADD和DROP操作。

MapReduce服务 MRS
MapReduce服务 MRS-EXPLAIN:描述

描述显示一条语句的逻辑的或者分布式的执行计划，也可以用于校验一条SQL语句，或者是分析IO。参数TYPE DISTRIBUTED用于显示分片后的计划（fragmented plan）。每一个fragment都会被一个或者多个节点执行。Fragments separation表示数据在两个节点之间进行交换。Fragment type表示一个fragment如何被执行以及数据在不同fragment之间怎样分布。 SINGLE Fragment会在单个节点上执行。 HASH Fragment会在固定数量的节点上执行，输入数据通过哈希函数进行分布。 ROUND_ROBIN Fragment会在固定数量的节点上执行，片段在固定数量的节点上执行，输入数据以轮询方式进行分布。 BROADCAST Fragment会在固定数量的节点上执行，输入数据被广播到所有的节点。 SOURCE Fragment在访问输入分段的节点上执行。

MapReduce服务 MRS
MapReduce服务 MRS-EXPLAIN:示例

示例 LOG ICAL： CREATE TABLE testTable (regionkey int, name varchar);EXPLAIN SELECT regionkey, count(*) FROM testTable GROUP BY 1; Query Plan ------------------------------------------------------------------------------------------------------------------------------------- Output[regionkey, _col1] │ Layout: [regionkey:integer, count:bigint] │ Estimates: {rows: ? (?), cpu: ?, memory: ?, network: ?} │ _col1 := count └─ RemoteExchange[GATHER] │ Layout: [regionkey:integer, count:bigint] │ Estimates: {rows: ? (?), cpu: ?, memory: ?, network: ?} └─ Project[] │ Layout: [regionkey:integer, count:bigint] │ Estimates: {rows: ? (?), cpu: ?, memory: ?, network: ?} └─ Aggregate(FINAL)[regionkey][$hashvalue] │ Layout: [regionkey:integer, $hashvalue:bigint, count:bigint] │ Estimates: {rows: ? (?), cpu: ?, memory: ?, network: ?} │ count := count("count_8") └─ LocalExchange[HASH][$hashvalue] ("regionkey") │ Layout: [regionkey:integer, count_8:bigint, $hashvalue:bigint] │ Estimates: {rows: ? (?), cpu: ?, memory: ?, network: ?} └─ RemoteExchange[REPARTITION][$hashvalue_9] │ Layout: [regionkey:integer, count_8:bigint, $hashvalue_9:bigint] │ Estimates: {rows: ? (?), cpu: ?, memory: ?, network: ?} └─ Aggregate(PARTIAL)[regionkey][$hashvalue_10] │ Layout: [regionkey:integer, $hashvalue_10:bigint, count_8:bigint] │ count_8 := count(*) └─ ScanProject[table = hive:default:testtable] Layout: [regionkey:integer, $hashvalue_10:bigint] Estimates: {rows: 0 (0B), cpu: 0, memory: 0B, network: 0B}/{rows: 0 (0B), cpu: 0, memory: 0B, network: 0B} $hashvalue_10 := "combine_hash"(bigint '0', COALESCE("$operator$hash_code"("regionkey"), 0)) regionkey := regionkey:int:0:REGULAR DISTRIBUTED： EXPLAIN (type DISTRIBUTED) SELECT regionkey, count(*) FROM testTable GROUP BY 1; Query Plan ----------------------------------------------------------------------------------------------------------------------- Fragment 0 [SINGLE] Output layout: [regionkey, count] Output partitioning: SINGLE [] Stage Execution Strategy: UNGROUPED_EXECUTION Output[regionkey, _col1] │ Layout: [regionkey:integer, count:bigint] │ Estimates: {rows: ? (?), cpu: ?, memory: ?, network: ?} │ _col1 := count └─ RemoteSource[1] Layout: [regionkey:integer, count:bigint] Fragment 1 [HASH] Output layout: [regionkey, count] Output partitioning: SINGLE [] Stage Execution Strategy: UNGROUPED_EXECUTION Project[] │ Layout: [regionkey:integer, count:bigint] │ Estimates: {rows: ? (?), cpu: ?, memory: ?, network: ?} └─ Aggregate(FINAL)[regionkey][$hashvalue] │ Layout: [regionkey:integer, $hashvalue:bigint, count:bigint] │ Estimates: {rows: ? (?), cpu: ?, memory: ?, network: ?} │ count := count("count_8") └─ LocalExchange[HASH][$hashvalue] ("regionkey") │ Layout: [regionkey:integer, count_8:bigint, $hashvalue:bigint] │ Estimates: {rows: ? (?), cpu: ?, memory: ?, network: ?} └─ RemoteSource[2] Layout: [regionkey:integer, count_8:bigint, $hashvalue_9:bigint] Fragment 2 [SOURCE] Output layout: [regionkey, count_8, $hashvalue_10] Output partitioning: HASH [regionkey][$hashvalue_10] Stage Execution Strategy: UNGROUPED_EXECUTION Aggregate(PARTIAL)[regionkey][$hashvalue_10] │ Layout: [regionkey:integer, $hashvalue_10:bigint, count_8:bigint] │ count_8 := count(*) └─ ScanProject[table = hive:default:testtable, grouped = false] Layout: [regionkey:integer, $hashvalue_10:bigint] Estimates: {rows: 0 (0B), cpu: 0, memory: 0B, network: 0B}/{rows: 0 (0B), cpu: 0, memory: 0B, network: 0B} $hashvalue_10 := "combine_hash"(bigint '0', COALESCE("$operator$hash_code"("regionkey"), 0)) regionkey := regionkey:int:0:REGULAR VALIDATE： EXPLAIN (TYPE VALIDATE) SELECT id, count(*) FROM testTable GROUP BY 1; Valid------- true IO： EXPLAIN (TYPE IO, FORMAT JSON) SELECT regionkey , count(*) FROM testTable GROUP BY 1; Query Plan --------------------------------- { "inputTableColumnInfos" : [ { "table" : { "catalog" : "hive", "schemaTable" : { "schema" : "default", "table" : "testtable" } }, "columnConstraints" : [ ] } ] }

MapReduce服务 MRS
MapReduce服务 MRS-如何处理HetuEngine SQL运行过程中报错Encountered too many errors:问题

问题 HetuEngine的业务SQL运行过程中，出现如下报错： Encountered too many errors talking to a worker node. The node may have crashed or be under too much load. This is probably a transient issue, so please retry your query in a few minutes

MapReduce服务 MRS
MapReduce服务 MRS-配置ClickHouse对接HDFS源文件（MRS 3.3.0-LTS及之后版本）:ClickHouse数据写入HDFS流程

ClickHouse数据写入HDFS流程将ClickHouse数据写入HDFS，参考以下流程。例如写入HDFS的/tmp目录下的secure_ck.txt数据文件：创建HDFS引擎表： CREATE TABLE hdfs_engine_table (name String, value UInt32) ENGINE=HDFS('hdfs://{namenode_ip}:{dfs.namenode.rpc.port}/tmp/secure_ck.txt', 'TSV') 写入HDFS数据文件： INSERT INTO hdfs_engine_table VALUES ('one', 1), ('two', 2), ('three', 3) 查询HDFS数据文件： SELECT * FROM hdfs_engine_table LIMIT 2 ┌─name─┬─value─┐│ one │ 1 ││ two │ 2 │└────┴─── ─┘ ClickHouse通过HDFS引擎表写入数据到HDFS时，如果HDFS上数据文件不存在，会生成对应的数据文件。 ClickHouse不支持删除修改和追加写HDFS引擎表数据，只能一次性写入数据。 ClickHouse删除HDFS引擎表以后对HDFS上的数据文件没有影响。

MapReduce服务 MRS
MapReduce服务 MRS-DROP VIEW:示例

示例创建视图 create view orders_by_date as select * from orders; 删除视图orders_by_date，如果视图不存在则会报错 DROP VIEW orders_by_date; 删除视图orders_by_date，使用参数IF EXISTS，如果视图存在则删除视图，如果视图不存在，也不会报错 DROP VIEW IF EXISTS orders_by_date;

MapReduce服务 MRS
MapReduce服务 MRS-使用spark-sql操作Hudi表:操作步骤

操作步骤下载并安装Hudi客户端，具体请参考安装 MRS 客户端章节。目前Hudi集成在Spark中，用户从Manager页面下载Spark客户端即可，例如客户端安装目录为：“/opt/client”。使用root登录客户端安装节点，执行如下命令： cd /opt/client 执行命令加载环境变量： source bigdata_env source Hudi/component_env kinit 创建的用户新创建的用户需要修改密码，更改密码后重新kinit登录。普通模式（未开启kerberos认证）无需执行kinit命令。多服务场景下，在source bigdata_env之后，请先source Spark服务的component_env，再去source Hudi的component_env。启动spark-sql。创建Hudi表： create table if not exists hudi_table2 (id int,name string,price double) using hudi options (type = 'cow',primaryKey = 'id',preCombineField = 'price'); 插入数据： insert into hudi_table2 select 1,1,1; insert into hudi_table2 select 2,1,1; 更新数据： update hudi_table2 set name=3 where id=1; 删除数据： delete from hudi_table2 where id=2; 查询数据： select * from hudi_table2;

MapReduce服务 MRS
MapReduce服务 MRS-ALTER SCHEMA:语法

语法 ALTER (DATABASE|SCHEMA) schema_name SET LOCATION hdfs_location ALTER (DATABASE|SCHEMA) database_name SET OWNER USER username ALTER (DATABASE|SCHEMA) database_name SET DBPROPERTIES (property_name=property_value, ...);

MapReduce服务 MRS
MapReduce服务 MRS-SELECT:语法

语法 [/*+ query_rewrite_hint*/] [ WITH [ RECURSIVE ] with_query [, ...] ] SELECT [ ALL | DISTINCT ] select_expression [, ...] [ FROM from_item [, ...] ] [ WHERE condition ] [ GROUP BY [ ALL | DISTINCT ] grouping_element [, ...] ] [ HAVING condition] [ { UNION | INTERSECT | EXCEPT } [ ALL | DISTINCT ] select ] [ ORDER BY expression [ ASC | DESC ] [, ...] ] [ OFFSET count [ ROW | ROWS ] ] [ LIMIT { count | ALL } ] [ FETCH { FIRST | NEXT } [ count ] { ROW | ROWS } { ONLY | WITH TIES } ] from_item可以是以下形式： table_name [ [ AS ] alias [ ( column_alias [, ...] ) ] ] from_item join_type from_item [ ON join_condition | USING ( join_column [, ...] ) ] table_name [ [ AS ] alias [ ( column_alias [, ...] ) ] ] MATCH_RECOGNIZE pattern_recognition_specification [ [ AS ] alias [ ( column_alias [, ...] ) ] ] join_type可以是以下形式： [ INNER ] JOIN LEFT [ OUTER ] JOIN RIGHT [ OUTER ] JOIN FULL [ OUTER ] JOIN LEFT [SEMI] JOIN RIGHT [SEMI] JOIN LEFT [ANTI] JOIN RIGHT [ANTI] JOIN CROSS JOIN grouping_element可以是以下形式： () expression GROUPING SETS ( ( column [, ...] ) [, ...] ) CUBE ( column [, ...] ) ROLLUP ( column [, ...] )

MapReduce服务 MRS
MapReduce服务 MRS-SHOW MATERIALIZED VIEWS:描述

描述列出catalogName为mv中的所有物化视图以及对应的数据表。如果希望只查看某个schema中的物化视图，可以使用子句[IN/FROM schema_name] 通过可选子句“LIKE”，筛选视图名满足规则运算表达式的视图，如果不使用这个子句，会列举所有视图。匹配的视图会按字母顺序排列。目前规则运算表达式支持“*”或“%”用于匹配任何字符，下划线“_”用于匹配一个字符，或“|”用于条件连接两个或多个条件。

MapReduce服务 MRS
MapReduce服务 MRS-字符串函数和运算符:字符串函数

字符串函数这些函数假定输入字符串包含有效的UTF-8编码的Unicode代码点。不会显式检查UTF-8数据是否有效，对于无效的UTF-8数据，函数可能会返回错误的结果。可以使用from_utf8来更正无效的UTF-8数据。此外，这些函数对Unicode代码点进行运算，而不是对用户可见的字符（或字形群集）进行运算。某些语言将多个代码点组合成单个用户感观字符（这是语言书写系统的基本单位），但是函数会将每个代码点视为单独的单位。 lower和upper函数不执行某些语言所需的区域设置相关、上下文相关或一对多映射。 chr(n) → varchar 描述：返回Unicode编码值为n的字符值。 select chr(100); --d char_length(string) → bigint 参考length(string) character_length(string) → bigint 参考length(string) codepoint(string) → integer 描述：返回单个字符对应的Unicode编码。 select codepoint('d'); --100 concat(string1, string2) → varchar 描述：字符串连接。 select concat('hello','world'); -- helloworld concat_ws(string0, string1, ..., stringN) → varchar 描述：将string1、string2、...,stringN，以string0作为分隔符串联成一个字符串。如果string0为null，则返回值为null。分隔符后的参数如果是NULL值，将会被跳过。 select concat_ws(',','hello','world'); -- hello,worldselect concat_ws(NULL,'def'); --NULLselect concat_ws(',','hello',NULL,'world'); -- hello,worldselect concat_ws(',','hello','','world'); -- hello,,world concat_ws(string0, array(varchar)) → varchar 描述：将数组中的元素以string0为分隔符进行串联。如果string0为null，则返回值为null。数组中的任何null值都将被跳过。 select concat_ws(NULL,ARRAY['abc']);--NULLselect concat_ws(',',ARRAY['abc',NULL,NULL,'xyz']); -- abc,xyzselect concat_ws(',',ARRAY['hello','world']); -- hello,world decode(binary bin, string charset) →varchar 描述：根据给定的字符集将第一个参数编码为字符串，支持的字符集包括（'UTF-8', 'UTF-16BE', 'UTF-16LE', 'UTF-16'），当第一个参数为null，将返回null。 select decode(X'70 61 6e 64 61','UTF-8'); _col0 ------- panda (1 row) select decode(X'00 70 00 61 00 6e 00 64 00 61','UTF-16BE'); _col0 ------- panda (1 row) encode(string str, string charset) →binary 描述：字符串按照给定的字符集进行编码。 select encode('panda','UTF-8'); _col0 ---------------- 70 61 6e 64 61 (1 row) find_in_set (string str, string strList) →int 描述：返回str在逗号分隔的strList中第一次出现的位置。当有参数为null时，返回值也为null。 select find_in_set('ab', 'abc,b,ab,c,def'); -- 3 format_number(number x, int d) →string 描述：将数字x格式化为'#,###,###.##'，保留d位小数，以字符串的形式返回结果。 select format_number(541211.212,2); -- 541,211.21 format(format,args...) → varchar 描述：参见Format。 locate(string substr, string str, int pos) →int 描述：返回子串在字符串的第pos位后第一次出现的位置。没有满足条件的返回0。 select locate('aaa','bbaaaaa',6);-- 0select locate('aaa','bbaaaaa',1);-- 3select locate('aaa','bbaaaaa',4);-- 4 length(string) → bigint 描述：返回字符串的长度。 select length('hello');-- 5 levenshtein_distance(string1, string2) → bigint 描述：计算string1和string2的Levenshtein距离，即将string转为string2所需要的单字符编辑（包括插入、删除或替换）最少次数。 select levenshtein_distance('helo word','hello,world'); -- 3 hamming_distance(string1, string2) → bigint 描述：返回字符串1和字符串2的汉明距离，即对应位置字符不同的数量。请注意，两个字符串的长度必须相同。 select hamming_distance('abcde','edcba');-- 4 instr(string,substring) → bigint 描述：查找substring在string中首次出现的位置。 select instr('abcde', 'cd');--3 levenshtein(string1, string2) → bigint参考levenshtein_distance(string1, string2) levenshtein_distance(string1, string2) → bigint 描述：返回字符串1和字符串2的Levenshtein编辑距离，即将字符串1更改为字符串2所需的最小单字符编辑（插入，删除或替换）次数。 select levenshtein_distance('apple','epplea');-- 2 lower(string) → varchar 描述：将字符转换为小写。 select lower('HELLo!');-- hello! lcase(string A) → varchar 描述：同lower(string)。 ltrim(string) → varchar 描述：去掉字符串开头的空格。 select ltrim(' hello');-- hello lpad(string, size, padstring) → varchar 描述：左填充字符串以使用padstring调整字符大小。如果size小于字符串的长度，则结果将被截断为size个字符。大小不能为负，并且填充字符串必须为非空。 select lpad('myk',5,'dodo'); -- domyk

MapReduce服务 MRS
MapReduce服务 MRS-Teradata函数:日期函数

日期函数本节中的函数使用与Teradata datetime函数兼容的格式字符串。下表基于Teradata参考手册，描述了受支持的格式说明符。说明符说明 - / , . ; : 忽略标点符号 dd 一个月中的第几日（1-31） hh 一天中的第几个小时（1-12） hh24 一天中的第几个小时（0-23） mi 分钟（0-59） mm 月份（01-12） ss 秒（0-59） yyyy 四位年份 yy 两位年份当前不支持不区分大小写。所有说明符必须小写。 to_char(timestamp, format) 描述：将时间戳按指定格式输出为字符串。 select to_char(timestamp '2020-12-18 15:20:05','yyyy/mmdd hh24:mi:ss');-- 2020/1218 15:20:05 to_timestamp(string, format) 描述：将字符串按规定格式解析为timestamp。 select to_timestamp('2020-12-18 15:20:05','yyyy-mm-dd hh24:mi:ss'); -- 2020-12-18 15:20:05.000 to_date(string, format) 描述：将字符串按格式转换为日期。 select to_date('2020/12/04','yyyy/mm/dd'); -- 2020-12-04

MapReduce服务 MRS
MapReduce服务 MRS-Set Digest函数:函数

函数 make_set_digest(x)→setdigest 描述：将所有的输入值X，组合到setdigest中。 SELECT make_set_digest(value) FROM (VALUES 1, 2, 3) T(value); _col0 ------------------------------------------------- 01 10 00 00 00 02 0b 03 00 80 03 44 00 00 58 3d 5b 80 20 08 de 00 20 00 00 03 00 00 00 a8 c0 76 6c a0 20 08 de 4a c4 05 fb b7 03 44 00 0c 8b 48 b2 39 58 3d 5b 01 00 01 00 01 00 (1 row)SELECT make_set_digest(value) FROM (VALUES 'Trino', 'SQL', 'on', 'everything') T(value); _col0 ------------------------------------------------- 01 14 00 00 00 02 0b 04 00 c0 8c 7d 1e c0 75 c9 2d c0 1a 1a 66 03 11 c3 a5 00 20 00 00 04 00 00 00 06 e5 2d 45 05 11 c3 a5 48 85 6b d5 e0 8c 7d 1e b9 1a 8a 39 ff 75 c9 2d 02 ad 0c 7c ed 1a 1a 66 01 00 01 00 01 00 01 00 (1 row) merge_set_digest(setdigest)→setdigest 描述：返回由输入值setdigest聚合组成的setdigest。 cardinality(setdigest)→long 描述：基于内部HyperLogLog组件返回setdigest的基数。 SELECT cardinality(make_set_digest(value)) FROM (VALUES 1, 2, 2, 3, 3,4, 4, 4, 5) T(value); -- 5 intersection_cardinality(x,y)→long 描述：返回两个集合摘要交集的基数估计。其中x,y都是setdigest类型。 SELECT intersection_cardinality(make_set_digest(v1), make_set_digest(v2)) FROM (VALUES (1, 1), (NULL, 2), (2, 3), (3, 4)) T(v1, v2); -- 3 jaccard_index(x,y)→double 描述：返回两个集合摘要的Jaccard索引估计值。其中x,y都是setdigest类型。 SELECT jaccard_index(make_set_digest(v1), make_set_digest(v2)) FROM (VALUES (1, 1), (NULL,2), (2, 3), (NULL, 4)) T(v1, v2); -- 0.5 hash_counts(x) 描述：返回一个包含Murmur3Hash128哈希值及其在属于x的内部MinHash结构中出现的计数的Map。其中x是setdigest类型。 SELECT hash_counts(make_set_digest(value)) FROM (VALUES 1, 1, 1, 2, 2) T(value); -- {19144387141682250=3, -2447670524089286488=2}

MapReduce服务 MRS

共99354条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

华为云用户手册

7*24

备案

专业服务

退订

建议反馈

售前咨询热线