检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
存继承了父进程的内存。 当有多个join执行的时候,启动多个localtask,如果机器内存不够,就会导致启动localtask失败。 解决办法 进入Hive服务配置页面: MRS 3.x之前版本,单击集群名称,登录集群详情页面,选择“组件管理 > Hive > 服务配置”,单击
创建并行文件系统”,填写以下参数,单击“立即创建”。 表2 并行文件系统参数 参数名称 参数说明 取值样例 区域 桶所属区域。 华北-北京四 数据冗余存储策略 多AZ存储:数据冗余存储至多个可用区(AZ),可靠性更高。 单AZ存储:数据仅存储在单个可用区(AZ),成本更低。 单AZ存储 文件系统名称
登录Manager,选择“集群 > 服务 > Flink”,在“Flink WebUI”右侧,单击链接,访问Flink的WebUI。 参考如何创建FlinkServer作业,新建Flink SQL作业,作业类型选择“流作业”。在作业开发界面进行如下作业配置并启动作业。 需勾选“基
StreamTableEnvironment.create(env, fsSettings); //基于EventTime进行处理 env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);
级越高,打印出来的日志就越少。 表2 日志级别 级别 描述 ERROR ERROR表示系统运行的错误信息。 WARN WARN表示当前事件处理存在异常信息。 INFO INFO表示记录系统及各事件正常运行状态信息。 DEBUG DEBUG表示记录系统及系统的调试信息。 如果您需要修改日志级别,请执行如下操作:
“../src/mapreduce-example-security/conf”路径下。 已参考规划MapReduce统计样例程序数据将待处理数据上传至HDFS。 运行统计样例程序 确保样例工程依赖的所有jar包已正常获取。 在IntelliJ IDEA开发环境中,打开样例工程中“LocalRunner
义和元数据查询。基于MRS的HCatalog功能,Hive、Mapreduce开发人员能够共享元数据信息,避免中间转换和调整,能够提升数据处理的效率。 WebHCat WebHCat运行用户通过Rest API来执行Hive DDL,提交Mapreduce任务,查询Mapreduce任务执行结果等操作。
"错误详细信息", `op_id` BIGINT COMMENT "负责人id", `op_time` DATETIME COMMENT "处理时间" ) DUPLICATE KEY(`timestamp`, `type`, `error_code`) DISTRIBUTED BY
SingleOutputStreamOperator<T> maxBy(String field, boolean first) 提供多流合并的能力 表13 提供多流合并的能力的相关接口 API 说明 public final DataStream<T> union(DataStream<T>
SingleOutputStreamOperator<T> maxBy(String field, boolean first) 提供多流合并的能力 表13 提供多流合并的能力的相关接口 API 说明 public final DataStream<T> union(DataStream<T>
SingleOutputStreamOperator<T> maxBy(String field, boolean first) 提供多流合并的能力 表13 提供多流合并的能力的相关接口 API 说明 public final DataStream<T> union(DataStream<T>
Streaming应用创建1个输入流,但该输入流无输出逻辑时,则不会给它设置context。所以在序列化时报“NullPointerException”。 解决办法:应用中如果有无输出逻辑的输入流,则在代码中删除该输入流,或添加该输入流的相关输出逻辑。 父主题: Spark Streaming
大任务下MapReduce任务运行失败,请参考MapReduce任务运行失败,ApplicationMaster出现物理内存溢出异常进行处理。 BulkLoad支持的数据源格式为带分隔符的文本文件。 已安装客户端。例如安装目录为“/opt/hadoopclient”,以下操作的
Flume > Flume管理”查看对应节点上客户端的名称。 若产生以下错误提示,可执行命令export JAVA_HOME=JDK路径进行处理。可使用echo $JAVA_HOME查找JDK路径。 JAVA_HOME is null in current user,please install
便于传输和在数据库中存储相同的信息。 GeoJSON一种JSON格式的Feature信息输出格式,它便于被JavaScript等脚本语言处理,OpenLayers等地理库便是采用GeoJSON格式。此外,TopoJSON等更精简的扩展格式。 使用ST_GeometryFromT
进行联合分析,提供复杂的IT和OT数据统一分析能力。 图2 跨源IT/OT数据统一分析 使用场景如下: 统一SQL入口 为简化应用系统对接多系统的复杂性,可在HetuEgine添加IoTDB作为数据源,通过HetuEngine的SQL语法查询IoTDB中的数据。 与数据湖中的数据进行关联查询
分区设置操作 Hudi支持多种分区方式,如多级分区、无分区、单分区、时间日期分区。用户可以根据实际需求选择合适的分区方式,接下来将详细介绍Hudi如何配置各种分区类型。 多级分区 多级分区即指定多个字段为分区键,需要注意的配置项: 配置项 说明 hoodie.datasource.write
Spark REST API接口介绍 功能简介 Spark的REST API以JSON格式展现Web UI的一些指标,提供用户一种更简单的方法去创建新的展示和监控的工具,并且支持查询正在运行的app和已经结束的app的相关信息。开源的Spark REST接口支持对Jobs、Sta
场景:有两个索引可用,一个用于col1&col2,另一个单独用于col1。 在上面的场景中,第二个索引会比第一个索引更好,因为它会使scan的较少索引数据。 如果有多个候选多列索引,则选择具有较少索引列的索引。 场景:有两个索引可用,一个用于col1&col2,另一个用于col1&col2&col3。 在这种情况
cluster_name,这样建表语句在某一个ClickHouse实例上执行一次即可分发到集群中所有实例上执行。 分布式表通常以本地表加“_all”命名。它与本地表形成一对多的映射关系,之后可以通过分布式表代理操作多张本地表。 分布式表的表结构尽量和本地表的结构一致。如果不一致,在建表时不会报错,但在查询或者插入时可能会发生异常。