检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
选择客户端类型:选择“完整客户端”。 选择平台类型:默认勾选即可,例如“x86_64”。 勾选“仅保存到如下路径”,使用默认保存路径,文件生成后将保存在集群主OMS节点的“/tmp/FusionInsight-Client”目录下。 图3 下载集群客户端提示框 单击“确定”后,等待客户端软件生成成功。
务中并行处理的数据块的数量。通过增加扫描仪线程数,可增加并行处理的数据块的数量,从而提高性能。可使用“carbon.properties”文件中的“carbon.number.of.cores”属性来配置扫描仪线程数。例如,“carbon.number.of.cores = 4”。
testtb1 on cluster default_cluster; dynamic_0001 扫描文件数超限制。 Hive Spark HetuEngine 计划/已经扫描的文件数量阈值。 建议配置值:100000 SELECT ss_ticket_number FROM store_sales
数目前不可配。 建议适当调大task retry次数和Executor失败次数。 在客户端的“spark-defaults.conf”配置文件中配置如下参数。“spark.yarn.max.executor.failures”若不存在,则手动添加该参数项。 表1 参数说明 参数 描述
下,执行./bin/spark-shell即可进入Scala交互式界面从HDFS中获取数据,再操作RDD。 示例:一行代码可以实现统计一个文件中所有单词。 scala> sc.textFile("hdfs://10.96.1.57:9000//wordcount_data.txt")
下操作的客户端目录只是举例,请根据实际安装目录修改。 各组件业务用户由MRS集群管理员根据业务需要创建。 “机机”用户需要下载keytab文件,“人机”用户第一次登录时需修改密码。 非root用户使用HBase客户端,请确保该HBase客户端目录的属主为该用户,否则请参考如下命令修改属主。
登录FusionInsight Manager页面,选择“集群 > 服务 > Doris > 配置 > 全部配置”。 选择“FE(角色) > 自定义”,在参数文件“fe.conf”中添加自定义参数,参数名称为“enable_col_auth”,值为“true” 单击“保存”,单击“确定”,保存配置。
重新加载时间为10分钟。 拦截和熔断规则会中断SQL任务,请根据实际业务配置合理的值。 动态规则dynamic_0001(SQL语句扫描的文件数超过阈值),当Spark与Tez引擎达到提示阈值时拦截日志会在Yarn任务日志中打印,不支持在Beeline客户端输出。 熔断规则存在统
当前补丁Spark组件优化了数据库和表的location的黑名单目录列表,在{客户端安装目录}/Spark/spark/conf/spark-defaults.conf文件的参数spark.sql.insert.overwrite.dir.blacklist后追加",/user/hive/warehouse/
wheel 系统内部运行用户“omm”的主组。 ficommon 系统公共组,对应“compcommon”,可以访问集群在操作系统中保存的公共资源文件。 如果当前集群不是在FusionInsight Manager内第一次安装的集群,集群内除Manager以外其他组件对应的默认用户组名称
作业执行组ID。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 jar_path String 参数解释: 执行程序jar包或sql文件地址。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 input String 参数解释: 数据输入地址。 约束限制: 不涉及
并运行调测自己的应用程序。 开发指南 获取MRS二次开发样例工程 通过Flink分析网页停留时间 通过HBase管理企业用户信息 HDFS文件操作 Hive数据分析应用 Impala应用开发 Kafka消息发布及订阅 Kudu应用开发 MapReduce应用开发 Oozie离线分析网站日志
务中并行处理的数据块的数量。通过增加扫描仪线程数,可增加并行处理的数据块的数量,从而提高性能。可使用“carbon.properties”文件中的“carbon.number.of.cores”属性来配置扫描仪线程数。例如,“carbon.number.of.cores = 4”。
创建弹性伸缩策略 POST /v2/{project_id}/autoscaling-policy/{cluster_id} 集群HDFS文件接口 获取指定目录文件列表 GET /v2/{project_id}/clusters/{cluster_id}/files?path={direct
下,执行./bin/spark-shell即可进入Scala交互式界面从HDFS中获取数据,再操作RDD。 示例:一行代码可以实现统计一个文件中所有单词。 scala> sc.textFile("hdfs://10.96.1.57:9000//wordcount_data.txt")
数目前不可配。 建议适当调大task retry次数和Executor失败次数。 在客户端的“spark-defaults.conf”配置文件中配置如下参数。“spark.yarn.max.executor.failures”如果不存在,则手动添加该参数项。 表1 参数说明 参数
namesever 10.2.3.4 是,执行5。 否,执行7。 执行vi /etc/resolv.conf命令,将内容全部用“#”注释,并保存文件。 # namesever 10.2.3.4 # namesever 10.2.3.4 等待5分钟,查看告警是否恢复。 是,操作结束。
filter(_.contains("ERROR")) errors.cache() errors.count() textFile算子从HDFS读取日志文件,返回file(作为RDD)。 filter算子筛出带“ERROR”的行,赋给errors(新RDD)。filter算子是一个Transformation操作。
filter(_.contains("ERROR")) errors.cache() errors.count() textFile算子从HDFS读取日志文件,返回file(作为RDD)。 filter算子筛出带“ERROR”的行,赋给errors(新RDD)。filter算子是一个Transformation操作。
就不会停止,除非人工中止。 Spout Topology中产生源数据的组件,是Tuple的来源,通常可以从外部数据源(如消息队列、数据库、文件系统、TCP连接等)读取数据,然后转换为Topology内部的数据结构Tuple,由下一级组件处理。 Bolt Topology中接受数据