检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在Spark样例工程代码中,不同的样例工程,使用的认证代码不同,基本安全认证或带ZooKeeper认证。样例工程中使用的示例认证参数如表2所示,请根据实际情况修改对应参数值。 表2 参数描述 参数 示例参数值 描述 userPrincipal sparkuser 用户用于认证的账号Principal,您可以联系管理员获取此账号。
Kafka角色实例所在节点IP地址,填写Broker角色实例其中任意一个的IP地址即可。 如果集群启用Kerberos认证,则端口需要修改为“21007”。 默认情况下,ZooKeeper的“clientPort”为“2181”。 父主题: 管理Kafka Topic
ner信息,重启NodeManager服务后通过恢复此前保存的状态信息,就不会丢失在此节点上运行的container进度。 配置描述 参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面,在搜索框中输入参数名称。 ResourceManager Restart特性配置如下。
开发用户中获取的认证文件至该目录下。 在“/opt/hbase-examples”新建hbasepython.properties文件,并修改配置内容如下。 clientHome=/opt/client exampleCodeDir=/opt/hbase-examples/hbase-python-example
用户,例如developuser,并绑定2新建的角色。 使用developuser用户重新登录FusionInsight Manager,修改该用户初始密码。 配置运行环境网络 用于程序调测或运行的节点,需要与MRS集群内节点网络互通,同时配置hosts域名信息。 场景一:配置本
件属主能够访问),确认存在异常目录。 解决办法 确认该文件是否为手动异常导入,如不是数据文件或目录,删除该文件或目录。 当无法删除时,建议修改文件或目录权限为770。 父主题: 使用Hive
jar”和“mrs-obs-provider-*.jar”文件复制到“Flume客户端安装目录/fusionInsight-flume-*/lib”目录下,并执行以下命令修改权限: cd Flume客户端安装目录/fusionInsight-flume-*/lib chmod 755 hadoop-huaweicloud-*
Manager管理界面,选择“运维 >备份恢复 > 备份管理”。根据“任务名”查找对应备份任务,单击“操作”列的“配置”,检查配置项是否都配置正确。 是,执行7。 否,修改配置后保存,执行5。 选择“更多 > 即时备份”启动该备份任务,查看备份任务是否执行成功。 是,执行6。 否,执行7。 等待2分钟,检查告警是否消除。
compaction&cleaning配置 参数 描述 默认值 hoodie.clean.automatic 是否执行自动clean。 true hoodie.cleaner.policy 要使用的清理策略。Hudi将删除旧版本的parquet文件以回收空间。 任何引用此版本文件
Spark Structured Streaming对接Kafka样例程序(Scala) 功能介绍 使用Structured Streaming,从kafka中读取广告请求数据、广告展示数据、广告点击数据,实时获取广告有效展示统计数据和广告有效点击统计数据,将统计结果写入kafka中。
Spark Structured Streaming对接Kafka样例程序(Scala) 功能介绍 使用Structured Streaming,从kafka中读取广告请求数据、广告展示数据、广告点击数据,实时获取广告有效展示统计数据和广告有效点击统计数据,将统计结果写入kafka中。
BulkDelete接口使用 场景说明 用户可以在Spark应用程序中使用HBaseContext的方式去使用HBase,将要删除的数据的rowKey构造成rdd,然后通过HBaseContext的bulkDelete接口对HBase表上这些rowKey对应的数据进行删除。 数据规划
Channel:基于预写式日志(Write-Ahead Logging,简称WAL)的持久化实现 JDBC Channel:基于嵌入Database的持久化实现 Channel支持事务特性,可保证简易的顺序操作,同时可以配合任意数量的Source和Sink共同工作。 Sink S
INSERT 语法 INSERT { INTO | OVERWRITE } [TABLE] table_name [(column_list)] [ PARTITION (partition_clause)] {select_statement | VALUES (value [
(1)创建表描述符。 (2)创建列族描述符。 (3)添加列族描述符到表描述符中。 (4)获取Admin对象,Admin提供了建表、创建列族、检查表是否存在、修改表结构和列族结构以及删除表等功能。 (5)调用Admin的建表方法。 注意事项 注[1] 可以设置列族的压缩方式,代码片段如下: //设置
(1)创建表描述符 (2)创建列族描述符 (3)添加列族描述符到表描述符中 (4)获取Admin对象,Admin提供了建表、创建列族、检查表是否存在、修改表结构和列族结构以及删除表等功能。 (5)调用Admin的建表方法。 注意事项 注[1] 可以设置列族的压缩方式,代码片段如下: //设置
format.default data file format 该参数的默认值和“write.format.default”参数值保持一致,可以修改为parquet、avro或orc。 write.parquet.row-group-size-bytes 134217728(128MB)
Manager,单击“集群 > 服务 > Yarn > 配置”,单击“全部配置”,单击“NodeManager > 系统”,在“GC_OPTS”参数中修改配置。 表1 参数说明 参数 描述 默认值 GC_OPTS Yarn NodeManager的GC参数。 128M 父主题: Spark Core
uid=20038(test) gid=9998(ficommon) groups=9998(ficommon) 重新执行ImportData。 方法二:修改当前用户的属组。 将该用户添加到ficommon组中。 [root@xxx-xxx-xxx-xxx ~]# usermod -a -G ficommon
beeline客户端报错“OutOfMemoryError” 问题背景与现象 beeline客户端查询大量数据时,报OutOFMemoryError:Java heap space,具体报错信息如下: org.apache.thrift.TException: Error in calling