检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
因为数据模型在建表时就已经确定,且无法修改。所以,选择一个合适的数据模型非常重要。 Aggregate模型可以通过预聚合,极大地降低聚合查询时所需扫描的数据量和查询的计算量,适合有固定模式的报表类查询场景,但是该模型不适用于count(*)查询。同时因为固定了Value列上的聚合方式,在进行其他类型的聚合查询时,需要考虑语义正确性。
Hudi连接器支持元数据缓存,以便更快地提供对各种操作的元数据请求。可参考调整HetuEngine元数据缓存。 动态过滤 开启动态过滤有助于Hudi连接器的Join算子的计算优化。可参考调整HetuEngine动态过滤。 带分区条件查询 建立分区表并且查询带分区过滤条件有助于过滤部分分区数据,从而提高性能。 Hudi数据源约束
JDK。 不同的IntelliJ IDEA不要使用相同的workspace和相同路径下的示例工程。 安装Maven 开发环境的基本配置。用于项目管理,贯穿软件开发生命周期。 7-zip 用于解压“*.zip”和“*.rar”文件,支持7-Zip 16.04版本。 表2 Python
JDK。 不同的IntelliJ IDEA不要使用相同的workspace和相同路径下的示例工程。 安装Maven 开发环境的基本配置。用于项目管理,贯穿软件开发生命周期。 安装Scala Scala开发环境的基本配置。版本要求:2.12.14。 安装Scala插件 Scala开发环境的基本配置。版本要求:2018
主机名 产生告警的主机名。 对系统的影响 当Guardian调用ECS metadata失败时,可能会导致获取访问OBS的临时aksk失败,进而业务无法正常访问OBS。 可能原因 ECS底层接口异常,导致请求失败。 处理步骤 收集故障信息。 在FusionInsight Manager界面,选择“运维
Sink可以获取到HBase的Connection。 通过Connection判断表是否存在,如果不存在则创建表。 将接收到的数据转化成Put对象,写到HBase。 读HBase: 通过参数指定“hbase-site.xml”文件的父目录,Flink Source可以获取到HBase的Connection。
10.10 hadoop.hadoop.com”),否则HetuEngine无法根据主机名称连接到非本集群节点。 已创建HetuEngine计算实例。 添加Hive数据源步骤 获取Hive数据源集群的“hdfs-site.xml”和“core-site.xml”配置文件。 登录Hi
字符截取的起点位置或终点位置,大于输入字段的长度时,当前行成为脏数据。 EL操作转换 传入数据为NULL值,不做转换处理。 输入一个或多个字段的值,输出计算结果。 输入类型和算子不兼容时,当前行为脏数据。 字符串大小写转换 传入数据为NULL值,不做转换处理。 配置输入字段列数,大于原始数据实际包含的字段列数,全部数据成为脏数据。
throws Exception { return tuple2.value(); } }); //汇总计算字数的总时间。 JavaPairDStream<String, Integer> wordCounts = lines.mapToPair(
时候使用。 参数dfs.disk.balancer.top.nodes.number指定Top N节点返回的DataNode列表是不断重新计算的,因此不必设置的过大。 如果要在HDFS客户端通过命令行使用DiskBalancer功能,其接口如下: 表3 DiskBalancer功能的接口说明
Java环境变量。 编译并运行程序 单击IDEA右边Maven窗口的“Reload All Maven Projects”,进行maven项目依赖import。 图1 reload projects 导出jar包 选择“Maven > clickhouse-examples > Lifecycle
产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 当Guardian调用IAM 接口失败时,可能会导致获取访问OBS的临时aksk失败,进而业务无法正常访问OBS。 可能原因 IAM 服务异常。 处理步骤 收集故障信息。 在FusionInsight Manager界面,选择“运维
sion_name} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 参数解释: 项目编号。获取方法,请参见获取项目ID。 约束限制: 不涉及 取值范围: 只能由英文字母和数字组成,且长度为[1-64]个字符。 默认取值: 不涉及 version_name
JDK。 若使用Open JDK,请确保IntelliJ IDEA中的JDK配置为Open JDK。 安装Maven 开发环境的基本配置。用于项目管理,贯穿软件开发生命周期。 准备开发用户 参考准备MRS应用开发用户进行操作,准备用于应用开发的集群用户并授予相应权限。 7-zip 用于解压“*
确保用户已授权访问作业执行时操作的HDFS/OBS目录、HBase表和数据。 获取外部数据源(SFTP服务器或关系型数据库)使用的用户和密码。 检查磁盘空间,确保没有出现告警且余量满足导入、导出数据的大小。 使用Loader从SFTP、FTP和HDFS/OBS导入数据时,确保外部数据源的输入
用户需要使用图形化界面管理HDFS文件时,可以通过Hue完成任务。 Hue界面主要用于文件、表等数据的查看与分析,禁止通过Hue界面对操作对象进行删除等高危管理操作。如需操作,建议在确认对业务没有影响后通过各组件的相应操作方法进行处理,例如使用HDFS客户端对HDFS文件进行操作
Hue提供了Oozie作业管理器功能,使用户可以通过界面图形化的方式使用Oozie。 Hue界面主要用于文件、表等数据的查看与分析,禁止通过Hue界面对操作对象进行删除等高危管理操作。如需操作,建议在确认对业务没有影响后通过各组件的相应操作方法进行处理,例如使用HDFS客户端对HDFS文件进行操作
执行MRS集群健康检查 集群健康检查包含检查对象的“健康状态”、相关的告警和自定义的监控指标等三项检查项,但检查结果不能等同于界面上显示的“健康状态”。检查范围包含Manager、服务级别和主机级别的健康检查: Manager关注集群统一管理平台是否提供正常管理功能。 服务级别关注组件是否能够提供正常的服务。
luster_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 参数解释: 项目编号。获取方法,请参见获取项目ID。 约束限制: 不涉及 取值范围: 只能由英文字母和数字组成,且长度为[1-64]个字符。 默认取值: 不涉及 cluster_id
导入任务指定的过滤条件。Stream Load支持对原始数据指定where语句进行过滤,被过滤的数据将不会被导入,也不会参与filter ratio的计算,但会被计入num_rows_unselected。 Partitions 待导入表的Partition信息,如果待导入数据不属于指定的P