检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
spark-shell 即可进入Scala交互式界面,从HDFS中获取数据,再操作RDD进行计算,输出并打印结果。 示例:一行代码可以实现统计一个文件中所有单词出现的频次。 scala> sc.textFile("hdfs://hacluster/tmp/wordcount_data.txt")
请咨询系统管理员。 打开默认地址为“/var/log/Bigdata/flink/flinkserver/prestart.log”的日志文件,查看日志内是否有“Float ip x.x.x.x is invalid.”字样。 是,执行10。 否,执行12。 在FusionInsight
在“Select Resource Services”中选择服务后,需要在“Resource”列中添加具体的资源对象,例如HDFS服务器的文件目录、Yarn的队列、Hive的数据库及表、HBase的表及列。 /testzone 例如针对HDFS中的“/testzone”目录创建一个安全区,配置如下:
Bucket,需按照已有的数据量来进行分区分桶,能更好的提升导入及查询性能。Auto Bucket会造成Tablet数量过多,最终导致有大量的小文件。 创建表时的副本数必须至少为2,默认是3,禁止使用单副本。 没有聚合函数列的表不应该被创建为AGGREGATE表。 创建主键表时需保持主
Permissions”,勾选“Alter”。 说明: Cluster的Alter权限可以对以下三种场景进行权限控制: Partition Reassign场景下,迁移副本的存储目录。 集群里各分区内部leader选举。 Acl管理(添加或删除)。 其中1和2都是集群内部Controller与Broker间、Bro
到channel被终止后认为driver失联,然后整个应用停止。 解决办法:在Spark客户端的“spark-defaults.conf”文件中或通过set命令行进行设置。参数配置时要保证channel过期时间(spark.rpc.io.connectionTimeout)大于或等于RPC响应超时时间(spark
约束限制: 不涉及 取值范围: 不涉及 默认取值: default archive_path 否 String 参数解释: SQL执行结果的转储文件夹。只有select语句才会转储查询的结果。当前仅支持转储到OBS中。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 响应参数
的HiveServer节点的HiveServerAudit日志,下载的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟。打开日志文件查找“Result=FAIL”关键字筛选执行错误语句的日志信息,再根据日志信息中的“UserName”查看执行错误语句的用户。 输入正确的HQL语句,观察命令是否正确执行。
看“附加信息”中的“db”和“table”。如果较大的Tablet较多,在附加信息中不能完全显示相关信息,可在Master FE节点的日志文件“${BIGDATA_LOG_HOME}/nodeagent/monitorlog/pluginmonitor.log”中搜索“Large
channel被终止后认为driver失联,然后整个应用停止。 解决办法: 在Spark客户端的“spark-defaults.conf”文件中或通过set命令行进行设置。参数配置时要保证channel过期时间(spark.rpc.io.connectionTimeout)大于或等于RPC响应超时时间(spark
Permissions”,勾选“Alter”。 说明: Cluster的Alter权限可以对以下三种场景进行权限控制: Partition Reassign场景下,迁移副本的存储目录。 集群里各分区内部leader选举。 Acl管理(添加或删除)。 其中1和2都是集群内部Controller与Broker间、Bro
通过客户端命令klist查询当前认证用户。 [root@10-10-144-2 client]# klist Ticket cache: FILE:/tmp/krb5cc_0 Default principal: test@HADOOP.COM Valid starting
切分数据块。 setJarByClass(Class< > cls) 核心接口,指定执行类所在的jar包本地位置。java通过class文件找到执行jar包,该jar包被上传到HDFS。 setJar(String jar) 指定执行类所在的jar包本地位置。直接设置执行jar
以客户端安装用户,登录安装客户端的节点。 在“/opt/hadoopclient/Flink/flink/conf/flink-conf.yaml”文件中新增表3中的参数并保存。 查看监控指标信息。 Flink作业运行成功后,登录AOM 2.0控制台,在左侧导航栏选择“Prometheus监控
er Server启动失败。 参考修改集群服务配置参数章节,进入ZooKeeper服务“全部配置”页面。不断尝试调大ZooKeeper配置文件“zoo.cfg”中的“syncLimit”和“initLimit”两参数值,直到ZooKeeperServer正常。 表1 参数说明 参数
在通常的join/in/not in时候,需要在前面添加Global关键字,避免查询放大问题。 数据查询建议 建议查询指定分区 通过指定分区字段会减少底层数据库扫描的文件数量,提升查询性能,实际经验:700个分区的千列大表,需要查询一个分区中有7000万数据,其他699个分区中无数据,虽然只有一个分区有数据
只有对应集群开关开启以后,才能实现以下场景的功能: 在用户订阅了通知服务之后,当集群出现扩容成功/失败、缩容成功/失败、删除成功/失败、弹性升缩成功/失败的场景下,由MRS管理面通过邮件或短信方式通知对应用户。 管理面检查大数据集群的告警信息,如果大数据集群的告警信息影响到服务
er Server启动失败。 参考修改集群服务配置参数章节,进入ZooKeeper服务“全部配置”页面。不断尝试调大ZooKeeper配置文件“zoo.cfg”中的“syncLimit”和“initLimit”两参数值,直到ZooKeeperServer正常。 表1 参数说明 参数
LDAP用户pg_search_dn的密码为系统随机生成,具体可在主节点的“/etc/sssd/sssd.conf”或“/etc/ldap.conf”文件中获取。 修改MRS集群LDAP普通用户密码 MRS 3.1.0版本: 登录FusionInsight Manager,选择“集群 > 服务
通过客户端命令klist查询当前认证用户: [root@10-10-144-2 client]# klist Ticket cache: FILE:/tmp/krb5cc_0 Default principal: test@HADOOP.COM Valid starting