搜索_华为云

Set Digest函数 - MapReduce服务 MRS
Set Digest函数 - MapReduce服务 MRS

MinHash用于估计两个集合的Jaccard相似系数。它通常用于数据挖掘，用于大规模检测近乎相同的网页。通过使用这些信息，搜索引擎有效地避免了在搜索结果中显示两个几乎相同的网页。以下示例展示了如何使用Set Digest函数来简单估计文本之间的相似性。通过使用函数ngrams()将输入

 帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用HetuEngine > HetuEngine常见SQL语法说明 > HetuEngine SQL函数和操作符说明
HetuEngine隐式转换对照表 - MapReduce服务 MRS

HetuEngine隐式转换对照表在开启隐式转换功能后，当数据类型不匹配时会隐式转换，但并是不是所有的数据类型都支持隐式转换。以下为当前隐式转换功能支持的数据类型转换表：表1 隐式转换对照表 - BOOLEAN TINYINT SMALLINT INTEGER BIGINT REAL

帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用HetuEngine > HetuEngine常见SQL语法说明 > HetuEngine数据类型隐式转换
配置列统计值直方图Histogram用以增强CBO准确度 - MapReduce服务 MRS

配置列统计值直方图Histogram用以增强CBO准确度配置场景 Spark优化sql的执行，一般的优化规则都是启发式的优化规则，启发式的优化规则，仅仅根据逻辑计划本身的特点给出优化，没有考虑数据本身的特点，也就是未考虑算子本身的执行代价。Spark在2.2中引入了基于代价的优

 帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用Spark/Spark2x > Spark运维管理
配置列统计值直方图Histogram用以增强CBO准确度 - MapReduce服务 MRS

配置列统计值直方图Histogram用以增强CBO准确度配置场景 Spark优化sql的执行，一般的优化规则都是启发式的优化规则，启发式的优化规则，仅仅根据逻辑计划本身的特点给出优化，没有考虑数据本身的特点，也就是未考虑算子本身的执行代价。Spark在2.2中引入了基于代价的优

 帮助中心 > MapReduce服务 MRS > 组件操作指南（普通版） > 使用Spark2x（MRS 3.x及之后版本） > Spark运维管理
转换函数 - MapReduce服务 MRS
转换函数 - MapReduce服务 MRS

); select cast(186 as varchar); try_cast(value AS type) → type 与cast()相似，区别是转换失败返回null。 select try_cast(1860 as tinyint); _col0 ------- NULL

帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用HetuEngine > HetuEngine常见SQL语法说明 > HetuEngine SQL函数和操作符说明
设置并行度 - MapReduce服务 MRS
设置并行度 - MapReduce服务 MRS

节点。增加任务的并行度，充分利用集群机器的计算能力，一般并行度设置为集群CPU总和的2-3倍。操作步骤并行度可以通过如下三种方式来设置，用户可以根据实际的内存、CPU、数据以及应用程序逻辑的情况调整并行度参数。在会产生shuffle的操作函数内设置并行度参数，优先级最高。 testRDD

帮助中心 > MapReduce服务 MRS > 开发指南（普通版_2.x） > Spark开发指南 > Spark应用开发常见问题 > Spark应用调优 > Spark Core调优
DistCP作业导入导出数据常见问题 - MapReduce服务 MRS

DistCP作业导入导出数据常见问题问：DistCP类型作业导入导出数据时，是否会对比数据的一致性？答：DistCP类型作业导入导出数据时不会对比数据的一致性，只是对数据进行复制，不会修改数据。问：DistCP类型作业在导出时，遇到OBS里已经存在的文件是如何处理的？答：

帮助中心 > MapReduce服务 MRS > 常见问题 > 作业管理类
配置Flink任务并行度 - MapReduce服务 MRS

配置Flink任务并行度操作场景并行度控制任务的数量，影响操作后数据被切分成的块数。调整并行度让任务的数量和每个任务处理的数据与机器的处理能力达到更优。查看CPU使用情况和内存占用情况，当任务和数据不是平均分布在各节点，而是集中在个别节点时，可以增大并行度使任务和数据更均匀的

 帮助中心 > MapReduce服务 MRS > 组件操作指南（普通版） > 使用Flink > Flink性能调优
设置Spark Core并行度 - MapReduce服务 MRS

节点。增加任务的并行度，充分利用集群机器的计算能力，一般并行度设置为集群CPU总和的2-3倍。操作步骤并行度可以通过如下三种方式来设置，用户可以根据实际的内存、CPU、数据以及应用程序逻辑的情况调整并行度参数。在会产生shuffle的操作函数内设置并行度参数，优先级最高。 testRDD

帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用Spark/Spark2x > Spark Core性能调优
配置Flink任务并行度 - MapReduce服务 MRS

配置Flink任务并行度操作场景并行度控制任务的数量，影响操作后数据被切分成的块数。调整并行度让任务的数量和每个任务处理的数据与机器的处理能力达到更优。查看CPU使用情况和内存占用情况，当任务和数据不是平均分布在各节点，而是集中在个别节点时，可以增大并行度使任务和数据更均匀的

 帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用Flink > Flink性能调优
在spark-beeline中创建或删除表失败 - MapReduce服务 MRS

UndeclaredThrowableException); (state=,code=0) 原因分析查看MetaStore日志。查看HDFS日志。权限对比（test001为异常用户创建表，test002为正常用户创建表）。 drop表时报类似下面的错。 dataplan_modela_csbch2;

帮助中心 > MapReduce服务 MRS > 故障排除 > 使用Spark
提升HBase实时读数据效率 - MapReduce服务 MRS

对于可以压缩的数据，配置压缩算法可以有效减少磁盘的IO，从而达到提高性能的目的。说明：并非所有数据都可以进行有效压缩。例如一张图片的数据，因为图片一般已经是压缩后的数据，所以压缩效果有限。常用的压缩算法是SNAPPY，因为它有较好的Encoding/Decoding速度和可以接受的压缩率。

帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用HBase > HBase性能调优
提升HBase实时读数据效率 - MapReduce服务 MRS

对于可以压缩的数据，配置压缩算法可以有效减少磁盘的IO，从而达到提高性能的目的。说明：并非所有数据都可以进行有效压缩。例如一张图片的数据，因为图片一般已经是压缩后的数据，所以压缩效果有限。常用的压缩算法是SNAPPY，因为它有较好的Encoding/Decoding速度和可以接受的压缩率。

帮助中心 > MapReduce服务 MRS > 组件操作指南（普通版） > 使用HBase > HBase性能调优
CarbonData调优思路 - MapReduce服务 MRS

压缩算法来压缩数据。虽然这些算法可处理任何类型的数据，但如果数据经过排序，相似值在一起出现时，就会获得更好的压缩率。 CarbonData数据加载过程中，数据基于Table中的列顺序进行排序，从而确保相似值在一起出现，以获得更好的压缩率。由于CarbonData按照Table中

 帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用CarbonData > CarbonData性能调优
CarbonData调优思路 - MapReduce服务 MRS

压缩算法来压缩数据。虽然这些算法可处理任何类型的数据，但如果数据经过排序，相似值在一起出现时，就会获得更好的压缩率。 CarbonData数据加载过程中，数据基于Table中的列顺序进行排序，从而确保相似值在一起出现，以获得更好的压缩率。由于CarbonData按照Table中

 帮助中心 > MapReduce服务 MRS > 组件操作指南（普通版） > 使用CarbonData（MRS 3.x及之后版本） > CarbonData性能调优
ClickHouse物化视图概述 - MapReduce服务 MRS

普通物化视图与projection对比物化视图类型原表数据与物化视图一致性灵活性物化视图开发及维护复杂度普通物化视图数据从原表同步到物化视图需要时间窗。灵活性较高，有新的业务可开发新的物化视图。可开发复杂逻辑SQL语句的物化视图。复杂度较高，需要开发很多物化视图，每个物化视图都需要单独去管理和维护。

帮助中心 > MapReduce服务 MRS > 组件应用开发规范 > ClickHouse应用开发规范 > ClickHouse物化视图设计
配置MapReduce Job基线 - MapReduce服务 MRS

基线数据做对比来获得。 Job基线的确定有如下三个原则：充分利用集群资源 Reduce阶段尽量放在一轮每个Task的执行时间要合理操作步骤原则一：充分利用集群资源。 Job运行时，会让所有的节点都有任务处理，且处于繁忙状态，这样才能保证资源充分利用，任务的并发度达到最大。

帮助中心 > MapReduce服务 MRS > 组件操作指南（普通版） > 使用MapReduce > MapReduce性能调优
Flume服务端进程故障 - MapReduce服务 MRS

0/flume/bin/flume-manage.sh: Permission denied 解决办法与运行正常的Flume节点进行文件和文件夹权限对比，更改错误文件或文件夹权限。父主题：使用Flume

帮助中心 > MapReduce服务 MRS > 故障排除 > 使用Flume
配置MapReduce Job基线 - MapReduce服务 MRS

基线数据做对比来获得。 Job基线的确定有如下三个原则：充分利用集群资源 Reduce阶段尽量放在一轮每个Task的执行时间要合理操作步骤原则一：充分利用集群资源。 Job运行时，会让所有的节点都有任务处理，且处于繁忙状态，这样才能保证资源充分利用，任务的并发度达到最大。

帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用Mapreduce > MapReduce性能调优
OpenTSDB - MapReduce服务 MRS
OpenTSDB - MapReduce服务 MRS

来处理您向其投入的任何负载。每个TSD使用CloudTable集群中的HBase来存储和检索时间序列数据。数据模式经过高度优化，可快速聚合相似的时间序列，从而最大限度地减少存储空间。TSD的用户不需要直接访问底层存储。您可以通过HTTP API与TSD进行通信。所有通信都发生在同

 帮助中心 > MapReduce服务 MRS > 产品介绍 > 组件介绍

总条数： 1642

上一页
1
2
3
4
5
...
83
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Set Digest函数 - MapReduce服务 MRS

HetuEngine隐式转换对照表 - MapReduce服务 MRS

配置列统计值直方图Histogram用以增强CBO准确度 - MapReduce服务 MRS

配置列统计值直方图Histogram用以增强CBO准确度 - MapReduce服务 MRS

转换函数 - MapReduce服务 MRS

设置并行度 - MapReduce服务 MRS

DistCP作业导入导出数据常见问题 - MapReduce服务 MRS

配置Flink任务并行度 - MapReduce服务 MRS

设置Spark Core并行度 - MapReduce服务 MRS

配置Flink任务并行度 - MapReduce服务 MRS

在spark-beeline中创建或删除表失败 - MapReduce服务 MRS

提升HBase实时读数据效率 - MapReduce服务 MRS

提升HBase实时读数据效率 - MapReduce服务 MRS

CarbonData调优思路 - MapReduce服务 MRS

CarbonData调优思路 - MapReduce服务 MRS

ClickHouse物化视图概述 - MapReduce服务 MRS

配置MapReduce Job基线 - MapReduce服务 MRS

Flume服务端进程故障 - MapReduce服务 MRS

配置MapReduce Job基线 - MapReduce服务 MRS

OpenTSDB - MapReduce服务 MRS

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线