检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
jar命令指定jar包路径的,其他服务进程的classpath不存在这些jar包,因此会出现ClassNotfound的错误从而导致删除失败。 解决方法:该方式创建的UDF不支持通过其他方式删除,只能通过与创建时一致的方式删除。 父主题: SQL和DataFrame
YARN Commands可同时供普通用户和管理员用户使用,它包含了少量普通用户可以执行的命令,比如jar、logs。而大部分只有管理员有权限使用。 用户可以通过以下命令查看YARN用法和帮助: yarn --help 用法:进入Yarn客户端的任意目录,执行source命令导入环境变量,直接运行命令即可。
为什么文件的副本的存储类型为DISK 问题 当文件的存储策略为LAZY_PERSIST时,文件的第一副本的存储类型应为RAM_DISK,其余副本为DISK。 为什么文件的所有副本的存储类型都是DISK? 回答 当用户写入存储策略为LAZY_PERSIST的文件时,文件的三个副本会
Class.forName(HIVE_DRIVER); 填写正确的用户名,获取JDBC连接,确认Impala SQL的类型(DDL/DML),调用对应的接口执行Impala SQL,输出查询的列名和结果到控制台,关闭JDBC连接。 Connection connection
参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 应用名 产生告警的应用名称。 角色名 产生告警的角色名称。 任务名 产生告警的作业名称。 对系统的影响 Flink作业RocksDB持续触发写限流,主要反应的是Flink作业的CheckPoint的性能,对Flinkserver本身没有影响。
为什么在启动spark-beeline的命令中指定“--hivevar”选项无效 执行复杂SQL语句时报“Code of method ... grows beyond 64 KB”的错误 在Beeline/JDBCServer模式下连续运行10T的TPCDS测试套会出现内存不足的现象 连上不同的JDBCS
如何在Spark命令中指定参数值 问题 如果用户不希望在界面上或配置文件设置参数值,如何在Spark命令中指定参数值? 回答 Spark的配置项,不仅可以在配置文件中设置,也可以在命令中指定参数值。 在Spark客户端,应用执行命令添加如下内容设置参数值,命令执行完成后立即生效。
再将HFile文件注册到HBase,因此错误的使用bulkload会因为启动MapReduce任务而占用更多的集群内存和CPU资源,也可能会生成大量很小的HFile文件频繁的触发Compaction,导致查询速度急剧下降。 错误的使用put,会造成数据加载慢,当分配给Regio
UDF功能的权限控制机制 问题 SparkSQL中UDF功能的权限控制机制是怎样的? 回答 目前已有的SQL语句无法满足用户场景时,用户可使用UDF功能进行自定义操作。 为确保数据安全以及UDF中的恶意代码对系统造成破坏,SparkSQL的UDF功能只允许具备admin权限的用户注册
从checkpoint恢复spark应用的限制 问题 Spark应用可以从checkpoint恢复,用于从上次任务中断处继续往下执行,以保证数据不丢失。但是,在某些情况下,从checkpoint恢复应用会失败。 回答 由于checkpoint中包含了spark应用的对象序列化信息、task执行
给当前用户添加其他用户库表的HDFS路径的读、写、执行权限,具体配置请参考添加HDFS的Ranger访问权限策略。 在Ranger上为用户添加Spark SQL的访问策略后,需要在HDFS的访问策略中添加相应的路径访问策略,否则无法访问数据文件,具体请参考添加HDFS的Ranger访问权限策略。
为lost_and_found队列,而不是test21队列。 发生上述情况的原因是,任务未完成时,RM状态存储中存储的还是应用程序移动前的队列状态。唯一的解决办法就是等RM重启后,再次移动应用程序,将新的队列状态信息写入状态存储中。 父主题: Yarn常见问题
如何在CarbonData数据加载时修改默认的组名? 问题 如何在CarbonData数据加载时修改默认的组名? 回答 CarbonData数据加载时,默认的组名为“ficommon”。可以根据需要修改默认的组名。 编辑“carbon.properties”文件。 根据需要修改关键字“carbon
参数配置组合决定了每节点任务(map、reduce)的并发数。 如果所有的任务(map/reduce)需要读写数据至磁盘,多个进程将会同时访问一个磁盘。这将会导致磁盘的IO性能非常低下。为了改善磁盘的性能,请确保客户端并发访问磁盘的数不大于3。 最大并发的container数量应该为[2.5 *
Streaming支持的功能 支持对流式数据的ETL操作。 支持流式DataFrames或Datasets的schema推断和分区。 流式DataFrames或Datasets上的操作:包括无类型,类似SQL的操作(比如select、where、groupBy),以及有类型的RDD操作(比
安装JDK 开发和运行环境的基本配置。版本要求如下: MRS集群的服务端和客户端仅支持自带的Oracle JDK(版本为1.8),不允许替换。 对于客户应用需引用SDK类的Jar包运行在客户应用进程中的,支持Oracle JDK和IBM JDK。 Oracle JDK:支持1.7和1.8版本。
SELECT操作可以进行一定的调优操作。 查询的数据是大量的小文件。 查询的数据是较多的大文件。 在beeline/thriftserver模式下使用非spark用户操作。 操作步骤 可对INSERT...SELECT操作做如下的调优操作。 如果建的是Hive表,将存储类型设为Parquet,从而减少执行INSERT
使用lsof -i:21302(MRS1.7.X及以后端口号是16020)查看到pid,然后根据pid查看到相应的进程,发现RegionServer的端口被DFSZkFailoverController占用。 查看“/proc/sys/net/ipv4/ip_local_port_range”显示为“9000
rvice/ha/module/harm/plugin/script/gsDB/.startGS.fail”这个文件监控。其中XXX是产品版本号。 如果这个文件中的值大于3就会启动失败,NodeAgent会一直尝试重启该实例,此时仍会失败而且这个值每启动失败一次就会加1。 解决办法
开发Impala用户自定义函数 当Impala的内置函数不能满足需要时,可以通过编写用户自定义函数UDF(User-Defined Functions)插入自己的处理代码并在查询中使用它们。 按实现方式,UDF有如下分类: 普通的UDF,用于操作单个数据行,且产生一个数据行作为输出。