检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Kafka”,查看当前Kafka状态,发现状态为良好,且监控指标内容显示正确。 在Kafka概览页面获取Controller节点信息。 登录Controller所在节点,通过cd /var/log/Bigdata/kafka/broker命令进入节点日志目录,在state-change.log发现存在ZooKe
高,可以配置为2倍的逻辑CPU。 参数 描述 默认值 yarn.nodemanager.resource.cpu-vcores 表示该节点上YARN可使用的虚拟CPU个数,默认是8。 目前推荐将该值设置为逻辑CPU核数的1.5~2倍之间。 若任务为计算密集型,该参数可设置为与逻辑CPU核数一致。
节点的操作系统熵值不足,可能导致该节点上加解密等命令执行慢,进而引起各实例业务处理性能下降,甚至业务进程无法正常执行。 可能原因 haveged或者rng-tools工具未安装或未启动。 系统熵值连续多次检测低于100。 处理步骤 检查haveged或rng-tools工具是否安装或启动。 在FusionInsight
Manager(MRS 3.x及之后版本),选择“集群 > 服务”。 选择“Loader”,在“Loader WebUI”右侧,单击链接,打开Loader的WebUI。 在Loader页面,单击“新建作业”。 在“连接”后单击“添加”,配置连接参数。 参数介绍具体可参见Loader连接配置说明。
Manager,具体请参见访问集群Manager,选择“集群 > 服务”。 选择“Loader”,在“Loader WebUI”右侧,单击链接,打开Loader的WebUI。 在Loader页面,单击“新建作业”。 在“连接”后单击“添加”,配置连接参数。 参数介绍具体可参见Loader连接配置说明。
SparkStreaming批量写入HBase表 场景说明 用户可以在Spark应用程序中使用HBaseContext的方式去操作HBase,使用streamBulkPut接口将流数据写入Hbase表中。 数据规划 在客户端执行hbase shell进入HBase命令行。 在HBase命令执行下面的命令创建HBase表:
准备本地应用开发环境 准备开发环境 在进行应用开发时,要准备的开发和运行环境如表1所示。 表1 开发环境 准备项 说明 操作系统 开发环境:Windows系统。 运行环境:Linux系统。 如需在本地调测程序,运行环境需要和集群业务平面网络互通。 安装JDK 开发和运行环境的基本配置,版本要求如下:
SparkStreaming批量写入HBase表 场景说明 用户可以在Spark应用程序中使用HBaseContext的方式去操作HBase,使用streamBulkPut接口将流数据写入Hbase表中。 数据规划 在客户端执行hbase shell进入HBase命令行。 在HBase命令执行下面的命令创建HBase表:
好的开发用户。 打包项目 将user.keytab、krb5.conf 两个文件上传客户端所在服务器上。 通过IDEA自带的Maven工具,打包项目,生成jar包。具体操作请参考在Linux环境中调测Spark应用。 编译打包前,样例代码中的user.keytab、krb5.co
/spark.apache.org/docs/2.2.2/monitoring.html#rest-api。 准备运行环境 安装客户端。在节点上安装客户端,如安装到“/opt/client”目录。 确认服务端Spark组件已经安装,并正常运行。 客户端运行环境已安装1.7或1.8版本的JDK。
延有要求,如离线报表场景、实时报表的数据初始化场景。 数据加载方式: 在存在DataArts Studio工具的场景下,数据加载统一使用CDM进行(DataArts Studio需要2.10及以上版本)。 在不存在DataArts Studio工具的场景下,可以使用Spark或者
FlinkCheckpointScalaExample FlinkKafkaJavaExample Flink向Kafka生产并消费数据的Java/Sacla示例程序。 在本工程中,假定某个Flink业务每秒就会收到1个消息记录,启动Producer应用向Kafka发送数据,然后启动Consumer应用从Kaf
高级配置 最大数量:一次性显示的最大日志条数,如果检索到的日志数量超过设定值,时间较早的将被忽略。不配表示不限制。 检索超时:用于限制每个节点上的最大检索时间,超时后会中止搜索,已经搜索到的结果仍会显示。 单击“检索”开始搜索,结果包含字段如表2所示。 表2 检索结果 参数名 说明 时间
HetuEngine使用HyperLogLog数据结构实现rox_distinct()函数。 数据结构 HyperLogLog(hll)是一种统计基数的算法。它实际上不会存储每个元素出现的次数,它使用的是概率算法,通过存储元素的32位hash值的第一个1的位置,来计算元素数量。通常分为稀疏存储结构和密集存
TBLPROPERTIES("groupId"=" group1 ","locatorId"="locator1"); 创建表tab1,并指定tab1的表数据分布在locator1节点上。 CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name
根据table1表数据的key值去table2表做查询。 把前两步相应的数据记录做相加操作。 把上一步骤的结果写到table2表。 打包项目 通过IDEA自带的Maven工具,打包项目,生成jar包。具体操作请参考在Linux环境中调测Spark应用。 将打包生成的jar包上传到Spark客户端所在服务器的任意目录(例如“
TBLPROPERTIES("groupId"=" group1 ","locatorId"="locator1"); 创建表tab1,并指定tab1的表数据分布在locator1节点上。 CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name
window_start, window_end; 窗口去重语句 Window Deduplication是一种特殊的重复数据删除,它删除在一组列上重复的行,为每个窗口和分区键保留第一个或最后一个。 该语句适用于MRS 3.2.0-LTS及以上版本集群中的Flink。 语法: SELECT
TABLE [PARTITION] SET位置设置表的表或分区位置。 在Set location命令之后,表/分区数据可能不会显示。 Set location在创建表/分区目录时会使用给定目录路径,而不是hive在创建表/分区时创建的默认路径。 该语句不会对表或分区原有数据产生影响
目录:表示创建一个目录,输入目录名后单击“创建”完成。 上传用户文件 在“文件浏览器”界面,单击“上传”。 在弹出的上传文件窗口中单击“选择文件”或将文件拖至窗口中,完成文件上传。 管理文件或目录 在“文件浏览器”界面,勾选一个或多个目录或文件。 单击“操作”,在弹出菜单选择一个操作。 重命名:表示重新命名一个目录或文件。