检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
时可以使用宏,在执行作业任务时会自动替换为宏对应的值。 宏定义只在该作业范围内生效。 宏定义支持随作业导入导出,如果作业中有使用宏定义,则导出的作业包括宏定义。导入作业时默认也导入宏定义。 时间宏dataformat中的第一个参数的日期格式定义可参考“java.text.SimpleDateFormat
准备本地应用开发环境 在进行应用开发时,要准备的开发环境如表1所示。 表1 开发环境 准备项 说明 Eclipse 开发环境的基本配置。版本要求:4.2或以上。 JDK JDK使用1.7或者1.8版本。 说明: 基于安全考虑,MRS集群服务端只支持TLS 1.1和TLS 1.2加密协议,IBM
解决认证出现如下关键字:clock skew too great的问题 检查集群时间。 检查开发环境所在机器的时间,与集群时间的偏差应小于5分钟。 解决认证出现如下关键字:(Receive time out) can not connect to kdc server的问题 要检查“krb5.conf”文件
MRS集群内各个大数据组件通常支持开源社区的所有参数,其中部分常用场景的配置参数支持在MRS管理控制台或者Manager中进行修改,且部分组件的客户端可能不包含开源特性的所有参数。 如果需要修改或者添加界面中未包含的配置参数,用户可以通过自定义配置项功能为组件添加新的参数,添加的新参数最终将保存在组件的配置文件中并在重启后生效。
BulkLoad功能提示权限不足如何处理 问题 租户使用HBase bulkload功能提示权限不足。 回答 创建租户的时候需要关联HBase服务和Yarn队列。 例如: 新建用户user并绑定租户同名的角色。 用户user需要使用bulkload功能还需要额外权限。 以下以用户user为例: 参见“
对于Yarn的Shuffle Service,其启动的线程数为机器可用CPU核数的两倍,而默认配置的Direct buffer Memory为128M,因此当有较多shuffle同时连接时,平均分配到各线程所能使用的Direct buffer Memory将较低(例如,当机器的CPU为40核,Yarn的Shuffle
当在CarbonData表中配置了较小的blocksize,而加载的数据生成的数据文件比较大时,在HDFS上显示的blocksize会与设置值不同。这是因为,对于每一个本地block文件的首次写入,即使待写入数据的大小大于blocksize的配置值,也直接将待写入数据写入此blo
当在CarbonData表中配置了较小的blocksize,而加载的数据生成的数据文件比较大时,在HDFS上显示的blocksize会与设置值不同。这是因为,对于每一个本地block文件的首次写入,即使待写入数据的大小大于blocksize的配置值,也直接将待写入数据写入此blo
toLong)) //配置Streaming的CheckPoint目录。 //由于窗口概念的存在,此参数是必需的。 ssc.checkpoint(checkPointDir) //获取获取kafka使用的topic列表。 val topicArr
UDF,参数GEO_HASH_INDEX_COLUMN和polygon表的POLYGON_COLUMN。Polygon_column列是一系列的点(经纬度列)。Polygon表的每一行的第一个点和最后一个点必须是相同的。Polygon表的每一行的所有点连接起来形成一个封闭的几何对象。 UDF输入参数: 参数 类型
初始状态下,任务1发送给队列A,此任务需要75%的集群资源。之后任务2发送到了队列B,此任务需要50%的集群资源。 任务1将会使用队列A提供的25%的集群资源,并从队列B获取的50%的集群资源。队列B保留25%的集群资源。 启用抢占任务特性,则任务1使用的资源将会被抢占。队列B会从队列A中获取25%的集群资源以满足任务2的执行。
JobGateway提供了如下表2所示的日志级别。 日志的级别优先级从高到低分别是ERROR、WARN、INFO、DEBUG,程序会打印高于或等于所设置级别的日志,设置的日志等级越高,打印出来的日志就越少。 表2 日志级别 级别 描述 ERROR ERROR表示系统运行的错误信息。 WARN WARN表示当前事件处理存在异常信息。
Streaming支持的功能 支持对流式数据的ETL操作。 支持流式DataFrames或Datasets的schema推断和分区。 流式DataFrames或Datasets上的操作:包括无类型,类似SQL的操作(比如select、where、groupBy),以及有类型的RDD操作(比
Streaming支持的功能 支持对流式数据的ETL操作。 支持流式DataFrames或Datasets的schema推断和分区。 流式DataFrames或Datasets上的操作:包括无类型,类似SQL的操作(比如select、where、groupBy),以及有类型的RDD操作(比
Streaming支持的功能 支持对流式数据的ETL操作。 支持流式DataFrames或Datasets的schema推断和分区。 流式DataFrames或Datasets上的操作:包括无类型,类似SQL的操作(比如select、where、groupBy),以及有类型的RDD操作(比
Map)特性优化了Memstore的数据结构,可以有效减少数据写入场景下的内存占用,降低GC频率,优化数据写入性能。若实际业务场景中对数据写入性能要求较高时,建议开启此特性。 本章节内容仅适用于MRS 3.3.1及之后版本。 操作步骤 登录集群的FusionInsight Manager界面,选择“集群
protocol", protocol)”注释掉。 当Streaming DataFrame/Dataset中有新的可用数据时,outputMode用于配置写入Streaming接收器的数据。其默认值为“append”。 public class SecurityKafkaWordCount
SecurityKafkaWordCount。 当Streaming DataFrame/Dataset中有新的可用数据时,outputMode用于配置写入Streaming接收器的数据。 public class SecurityKafkaWordCount { public static
提供了元数据缓存的功能,当首次访问Hive数据源的库或表时,会将该库或表的元数据信息(数据库名、表名、表字段、分区信息、权限信息等)缓存起来,后续访问时不需要再次访问Hive metastore,在Hive数据源的表数据变化不频繁的场景下,可以一定程度上提升查询的性能。 调整HetuEngine元数据缓存步骤
JDBCServer支持多用户多并发接入,但当并发任务数量较高的时候,默认的JDBCServer配置将无法支持,因此需要进行优化来支持该场景。 操作步骤 设置JDBCServer的公平调度策略。 Spark默认使用FIFO(First In First Out)的调度策略,但对于多并发的场景,使用FIFO策略容易导