检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
组件业务用户 kinit一次票据时效24小时。24小时后再次运行样例,需要重新kinit。 与HTTP服务访问相比,以HTTPS方式访问Mapreduce时,由于使用了SSL安全加密,需要确保Curl命令所支持的SSL协议在集群中已添加支持。若不支持,可对应修改集群中SSL协议。例如,若C
功能描述 HDFS文件操作节点,支持对HDFS文件及目录的创建、删除、授权功能。 参数解释 FS Action节点中包含的各参数及其含义,请参见表1。 表1 参数含义 参数 含义 name FS活动的名称 delete 删除指定的文件和目录的标签 move 将文件从源目录移动到目标目录的标签
B分钟内多次点击,仅首次点击事件为有效点击。 基于此业务场景,模拟简单的数据结构如下: 广告请求事件 数据结构:adID^reqTime 广告展示事件 数据结构:adID^showID^showTime 广告点击事件 数据结构:adID^showID^clickTime 数据关联关系如下: 广告请求事件与广告展示事件通过adID关联。
B分钟内多次点击,仅首次点击事件为有效点击。 基于此业务场景,模拟简单的数据结构如下: 广告请求事件 数据结构:adID^reqTime 广告展示事件 数据结构:adID^showID^showTime 广告点击事件 数据结构:adID^showID^clickTime 数据关联关系如下: 广告请求事件与广告展示事件通过adID关联。
功能描述 HDFS文件操作节点,支持对HDFS文件及目录的创建、删除、授权功能。 参数解释 FS Action节点中包含的各参数及其含义,请参见表1。 表1 参数含义 参数 含义 name FS活动的名称 delete 删除指定的文件和目录的标签 move 将文件从源目录移动到目标目录的标签
配置场景 使用Spark提交任务时,Driver默认会去HBase获取Token,访问HBase则需要配置文件“jaas.conf”进行安全认证。此时如果用户未配置“jaas.conf”文件,会导致应用运行失败。 因此,根据应用是否涉及HBase进行以下处理: 当应用不涉及HBase时,即无需获取HBase
用于控制生成的文件大小,以目标字节数为准。 write.delete.target-file-size-bytes 67108864(64MB) 用于控制生成的删除文件大小,以目标字节数为准。 write.data.path table location + /data 数据文件的基本位置。
ng调用Kafka接口来获取单词记录,然后把单词记录分类统计,得到每个单词记录数。 数据规划 StructuredStreaming样例工程的数据存储在Kafka组件中。向Kafka组件发送数据(需要有Kafka权限用户)。 确保集群安装完成,包括HDFS、Yarn、Spark和Kafka。
spark-sql --master yarn 在创建表时指定Location为OBS文件系统路径。 例如,创建一个表“test”,该表的Location为“obs://obs-test/test/数据库名/表名”: create external table testspark(name
个端口进行接收数据(不同操作系统的机器,命令可能不同,suse尝试使用netcat -lk 9999): nc -lk 9999 在构造一个端口进行接收数据时,需要在客户端所在服务器上安装netcat 开发思路 使用SparkStreaming持续读取特定端口的数据。 将读取到的
据表的统计信息,例如数据量、文件数等,选出合适计划提高多表Join的效率。Hive需要先收集表的统计信息后才能使CBO正确的优化。 CBO优化器会基于统计信息和查询条件,尽可能地使Join顺序达到更优。但是也可能存在特殊情况导致Join顺序调整不准确。例如数据存在倾斜,以及查询条
HDFS性能调优 提升HDFS写数据性能 配置HDFS客户端元数据缓存提高读取性能 使用活动缓存提升HDFS客户端连接性能 HDFS网络不稳定场景调优 优化HDFS NameNode RPC的服务质量 优化HDFS DataNode RPC的服务质量 执行HDFS文件并发操作命令 使用LZC压缩算法存储HDFS文件
据表的统计信息,例如数据量、文件数等,选出合适计划提高多表Join的效率。Hive需要先收集表的统计信息后才能使CBO正确的优化。 CBO优化器会基于统计信息和查询条件,尽可能地使join顺序达到合适。但是也可能存在特殊情况导致join顺序调整不准确。例如数据存在倾斜,以及查询条
配置Hive任务的最大map数 “hive.mapreduce.per.task.max.splits”参数可用于从服务端限定Hive任务的最大map数,避免HiveSever服务过载而引发的性能问题。 操作步骤 登录FusionInsight Manager页面,选择“集群 >
告警”页面下“告警”、“事件”的查看权限。 管理权限:“集群”、“运维”页面的管理权限。 User: 查看权限:“系统”页面下“权限”区域中内容的查看权限。 管理权限:“系统”页面下“权限”区域中内容的管理权限。 Audit : 管理权限:“审计”页面信息的管理权限。 Tenant: 查看权限:“租户资源”页面的查看权限。(MRS
单击一条已保存的语句,系统会自动将其填充至编辑区中。 修改在Hue使用编辑器的会话配置 在编辑器页面,单击 。 在“文件”的右侧单击 ,然后单击 选择文件。 可以单击“文件”后的 新增加一个文件资源。 在“功能” ,输入用户自定义的名称和函数的类名称。 可以单击“功能”后的 新增加一个自定义函数。
的行及右表(region)中相匹配行的数据,若右表中没有匹配,则该行对应的右表的值为空。 右外连接:RIGHT JOIN或RIGHT OUTER JOIN,表示以右表(region)为基础返回右表所有的行及左表(nation)中相匹配行的数据,若左表中没有匹配,则该行对应的左表的值为空。
配置场景 使用Spark提交任务时,Driver默认会去HBase获取Token,访问HBase则需要配置文件“jaas.conf”进行安全认证。此时若用户未配置“jaas.conf”文件,会导致应用运行失败。 因此,根据应用是否涉及HBase进行以下处理: 当应用不涉及HBase时,即无需获取HBase
estimate-live-data-size true 监测实时数据量,单位:字节(由于空间放大,通常小于SST文件大小) state.backend.rocksdb.metrics.total-sst-files-size true 监测所有版本的SST文件的总大小,单位:字节。文件太多,可能会降低查询的速度 state
HDFS性能调优 提升HDFS写数据性能 配置HDFS客户端元数据缓存提高读取性能 使用活动缓存提升HDFS客户端连接性能 HDFS网络不稳定场景调优 优化HDFS NameNode RPC的服务质量 优化HDFS DataNode RPC的服务质量 执行HDFS文件并发操作命令 使用LZC压缩算法存储HDFS文件