检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据处理规则 当配置HBase表名不存在时,作业提交失败。 当配置的列名与HBase表列名不匹配时,读取不到数据,导入数据条数会为0。 配置输入字段列数,大于原始数据实际包含字段列数,全部数据成为脏数据。 当字段的值与实际的类型不匹配时,该行数据会成为脏数据。 样例 以HBase导出到sqlserver2014数据库为例。
数据处理规则 当配置HBase表名不存在时,作业提交失败。 当配置的列名与HBase表列名不匹配时,读取不到数据,导入数据条数会为0。 配置输入字段列数,大于原始数据实际包含字段列数,全部数据成为脏数据。 当字段的值与实际的类型不匹配时,该行数据会成为脏数据。 样例 以HBase导出到sqlserver2014数据库为例。
); 上述命令所创建的表的详细信息如下: 表1 表信息定义 参数 描述 productSalesTable 待创建的表的名称。该表用于加载数据进行分析。 表名由字母、数字、下划线组成。 productdb 数据库名称。该数据库将与其中的表保持逻辑连接以便于识别和管理。 数据库名称由字母、数字、下划线组成。
OpenTSDB HTTP API接口介绍 OpenTSDB提供了基于HTTP或HTTPS的应用程序接口。请求方式是通过向资源对应的路径发送标准的HTTP请求,请求包含GET、POST方法。它的接口与开源OpenTSDB保持一致,请参见https://opentsdb.net/do
oint会很慢的问题? 问题 如何处理checkpoint设置RocksDBStateBackend方式,且当数据量大时,执行checkpoint会很慢的问题? 原因分析 由于窗口使用自定义窗口,这时窗口的状态使用ListState,且同一个key值下,value的值非常多,每次
); 上述命令所创建的表的详细信息如下: 表1 表信息定义 参数 描述 productSalesTable 待创建的表的名称。该表用于加载数据进行分析。 表名由字母、数字、下划线组成。 productdb 数据库名称。该数据库将与其中的表保持逻辑连接以便于识别和管理。 数据库名称由字母、数字、下划线组成。
基于Kafka的Word Count数据流统计案例 应用场景 Kafka是一个分布式的消息发布-订阅系统。它采用独特的设计提供了类似JMS的特性,主要用于处理活跃的流式数据。 Kafka有很多适用的场景:消息队列、行为跟踪、运维数据监控、日志收集、流处理、事件溯源、持久化日志等。
操作步骤 根据需要修改“jaas-zk.conf”中“KeyTab”文件在Linux节点上放置的路径。例如:"/opt/client/conf/user.keytab"。 修改样例代码的配置文件路径,例如: private final static String PATH_TO_KRB5_CONF
同时为弹性云服务分配足够的磁盘空间,例如“40GB”。 弹性云服务器的VPC需要与MRS集群在同一个VPC中。 弹性云服务器的安全组需要和MRS集群Master节点的安全组相同。 弹性云服务器操作系统已安装NTP服务,且NTP服务运行正常。 如果未安装,在配置了yum源的情况下,可执行yum
); 上述命令所创建的表的详细信息如下: 表1 表信息定义 参数 描述 productSalesTable 待创建的表的名称。该表用于加载数据进行分析。 表名由字母、数字、下划线组成。 productdb 数据库名称。该数据库将与其中的表保持逻辑连接以便于识别和管理。 数据库名称由字母、数字、下划线组成。
确认IDEA自动识别的依赖库以及建议的模块结构,默认即可,单击“Next”。 确认工程所用JDK,然后单击“Next”。 导入结束,单击“Finish”,IDEA主页显示导入的样例工程。 图17 导入结束 图18 已导入工程 导入样例工程依赖的Jar包。 如果通过开源镜像站方式获取的样例工程代码,在配置好Maven后,
确认IDEA自动识别的依赖库以及建议的模块结构,默认即可,单击“Next”。 确认工程所用JDK,然后单击“Next”。 导入结束,单击“Finish”,IDEA主页显示导入的样例工程。 图17 导入结束 图18 已导入工程 导入样例工程依赖的Jar包。 如果通过开源镜像站方式获取的样例工程代码,在配置好Maven后,
ORC表 操作场景 ZSTD_JNI是ZSTD压缩算法的native实现,相较于ZSTD而言,压缩读写效率和压缩率更优,并允许用户设置压缩级别,以及对特定格式的数据列指定压缩方式。 目前仅ORC格式的表支持ZSTD_JNI压缩方式,而普通的ZSTD压缩算法支持全量存储格式而不仅限于ORC
确保本地PC的时间与MRS集群的时间差要小于5分钟,若无法确定,请联系系统管理员。MRS集群的时间可通过FusionInsight Manager页面右下角查看。 操作步骤 参考获取MRS应用开发样例工程,获取样例代码解压目录中“src/hbase-examples”目录下的样例工程文件夹“hbase-example”。
图4 Project Defaults 在打开的“Project Structure”页面中,选择“SDKs”,单击绿色加号添加JDK。 图5 添加JDK 在弹出的“Select Home Directory for JDK”窗口,选择对应的JDK目录,然后单击“OK”。 图6 选择JDK目录
前提条件 确保本地PC的时间与集群的时间差要小于5分钟,若无法确定,请联系系统管理员。集群的时间可通过FusionInsight Manager页面右下角查看。 操作步骤 参考获取MRS应用开发样例工程,获取样例代码解压目录中“src/hbase-examples”目录下的样例工程文件夹“hbase-example”。
tar”为例进行描述。 上传软件包。 以user用户将软件包上传到将要安装Flume服务客户端的节点目录上,例如“/opt/client”。 user用户为安装和运行Flume客户端的用户。 解压软件包。 以user用户登录将要安装Flume服务客户端的节点。进入安装包所在目录,例
若使用Open JDK,请确保IntelliJ IDEA中的JDK配置为Open JDK。 不同的IntelliJ IDEA不要使用相同的workspace和相同路径下的示例工程。 安装Maven 开发环境的基本配置。用于项目管理,贯穿软件开发生命周期。 7-zip 用于解压“*.zip”和“*
针对所有参与Join的表,依次选取一个表作为第一张表。 依据选取的第一张表,根据代价选择第二张表,第三张表。由此可以得到多个不同的执行计划。 计算出代价最小的一个计划,作为最终的顺序优化结果。 代价的具体计算方法: 当前版本,代价的衡量基于Join出来的数据条数:Join出来的条数越少,代
进行应用开发时,需要同时准备代码的运行调测的环境,用于验证应用程序运行正常。 如果使用Linux环境调测程序,需在准备安装集群客户端的Linux节点并获取相关配置文件。 在节点中安装客户端,例如客户端安装目录为“/opt/client”。 客户端机器的时间与集群的时间要保持一致,时间差小于5分钟。