华为云用户手册

  • 通用云手机 通用云手机分为专业版和企业版,每个版本提供不同规格的云手机实例,当前仅提供专业版,详细介绍请参考表1。 表1 版本类型简介 版本 实例规格 特性说明 适用场景 专业版 4vCPUs | 8GB内存 | 32GB存储 | 最高分辨率720p 4vCPUs | 8GB内存 | 64GB存储 | 最高分辨率720p 8vCPUs | 16GB内存 | 128GB存储 | 最高分辨率1080p 8vCPUs | 16GB内存 | 512GB存储 | 最高分辨率1080p 端云协同:基于自研端云协议、音视频渲染和编解码算法,通过端侧与云侧SDK的配合,提供高清画质和流畅操作体验。 设备仿真:提供GPS、传感器、陀螺仪等与实体手机打通的虚拟仿真设备。 安全管控,包含防截屏、实时水印防篡改、应用安装黑白名单、端云音视频流、控制流的 数据加密 传输。 云机资源共享,提升性价比,面向中小型企业。 通用商务办公:随时随地使用PC、Pad等终端接入云手机,实现消息处理、流程审批、视频会议等移动办公 移动安全办公:在端侧和云侧严格管控,保证信息和数据安全。
  • KooPhone Administrator角色内容 { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "Koophone:*:*" ] }] } } }
  • KooPhone ReadOnlyUser角色内容 { "Version": "1.1", "Statement": [ { "Action": [ "Koophone:*get*", "Koophone:*list*" ], "Effect": "Allow", } ] } } }
  • KooPhone权限 默认情况下,新建的 IAM 用户没有任何权限,您需要将其加入用户组,并给用户组授予策略或角色,才能使得用户组中的用户获得对应的权限,这一过程称为授权。授权后,用户就可以基于被授予的权限对云服务进行操作。 KooPhone部署时通过物理区域划分,为项目级服务。授权时,“作用范围”需要选择 “区域级项目”,然后在指定区域(如华北-北京4)对应的项目(cn-north-4)中设置相关权限,并且该权限仅对此项目生效。如果在“所有项目”中设置权限,则该权限在所有区域项目中都生效。访问KooPhone时,需要先切换至授权区域。 权限根据授权精细程度分为角色和策略。 角色:IAM最初提供的一种根据用户的工作职能定义权限的粗粒度授权机制。该机制以服务为粒度,提供有限的服务相关角色用于授权。由于各服务之间存在业务依赖关系,因此给用户授予角色时,可能需要一并授予依赖的其他角色,才能正确完成业务。角色并不能满足用户对精细化授权的要求,无法完全达到企业对权限最小化的安全管控要求。 策略:IAM最新提供的一种细粒度授权的能力,可以精确到具体服务的操作、资源以及请求条件等。基于策略的授权是一种更加灵活的授权方式,能够满足企业对权限最小化的安全管控要求。例如:针对KooPhone服务,管理员能够控制IAM 用户仅能对某一模块进行指定的操作。 如表1所示,包括了KooPhone的所有系统角色。 表1 KooPhone系统权限 系统角色/策略名称 描述 角色类别 角色内容 KooPhone Administrator 具备KooPhone所有操作权限的角色,拥有该权限的用户可以拥有 KooPhone支持的全部权限。 系统角色 KooPhone Administrator角色内容 KooPhone ReadOnlyUser 具备KooPhone只读操作权限的用户。 系统角色 KooPhone ReadOnlyUser角色内容 表2列出了KooPhone常用操作与系统权限的授权关系,您可以参照该表选择合适的系统权限。 表2 KooPhone 常用操作与系统权限关系 操作 KooPhone Administrator KooPhone ReadOnlyUser 购买云手机 √ × 查看组织和用户详情 √ √ 创建组织 √ × 添加部门 √ × 添加成员 √ × 查询云手机实例(云手机状态、名称等信息) √ √ 自定义实例列表参数 √ × 重启(云手机实例) √ × 开机(云手机实例) √ × 关机(云手机实例) √ × 续费 √ × 退订 √ × 应用卸载 √ × 删除(云手机实例) √ × 绑定/解绑用户 √ × 查询应用部署详情 √ √ 上传应用 √ × 卸载应用 √ × 安装应用 √ × 查询安全管控详情 √ √ 开启防截屏 √ × 关闭防截屏 √ × 开启视频水印 √ × 关闭视频水印 √ × 批量删除(应用黑白名单) √ × 创建名单(应用黑白名单) √ × 开启(应用黑白名单) √ × 禁用(应用黑白名单) √ × 修改(应用黑白名单) √ × 删除(应用黑白名单) √ × 开启(数据流传输加密) √ × 关闭(数据流传输加密) √ ×
  • 应用场景一:安全移动办公 企业的传统实体办公手机缺少防截屏、应用管控及监控等统一防护手段,信息安全防护困难;数据资产分散到各实体手机本地,难以沉淀、统计和管理;手机硬件资产易丢失和毁损,应用和数据更新周期长、维护成本高。 KooPhone在端侧提供防截屏、防拍照录像、加实时水印等安全特性,严格管控数据外泄;在云侧具备数据统一监控、安全加固,应用集中管理、一键分发、统一升级,系统漏洞和安全威胁统一修复和防范;提供比一般办公软件更便捷的接入方式、更丰富的应用生态,企业员工可以随时随地使用手机接入云手机,实现消息处理、视频会议等安全的移动办公。
  • 应用场景二:远程客服协助 传统企业客服系统仅支持语音通话,无法给用户提供可视化、实时的远程沟通渠道,并且也无法对用户操作事后审计、举证。 KooPhone给企业客服提供互动式的用户触达通道,通过同屏分享、远程标注等能力实现与用户的可视化沟通和远程指导。用户接入简单,单击链接即可访问客服系统,无需安装App。业务数据云端留存,无用户信息泄露风险;操作记录可长时间保存,便于审计及行为异常分析,保障数据安全、可追溯。
  • 隐私声明 华为云低时延直播SDK是由 华为云计算 有限公司(以下简称“我们”或“华为云”)面向华为云客户提供,方便用户接入低时延直播。华为云客户根据开发文档和用户指南,在其应用中集成低时延直播SDK后,我们将通过被集成的低时延直播SDK向华为云客户面向的最终用户(以下简称“您”或“用户”)提供相关服务,处理华为云客户的应用相关的数据,相关数据中可能包含您的个人信息。华为云非常重视您的个人信息和隐私保护,我们将会按照法律要求和业界成熟的安全标准,为您的个人信息提供安全保护措施。 我们将通过本声明向您说明我们如何收集、使用、披露、保护、存储及传输您的个人信息。 请注意,我们要求集成华为云低时延直播SDK的所有华为云客户,必须做到严格遵循法律法规、开发者协议去处理您的个人信息。在接入、使用各开放能力前,华为云客户必须在其产品应用的隐私政策中,向您告知其集成SDK处理个人信息的基本情况,并获取您的同意或取得其他合法性基础。但我们无法控制华为云客户及其开发的应用如何处理华为云客户所控制的个人信息,也不对其行为负责。我们建议您认真阅读华为云客户的应用相关用户协议及隐私政策。在确认充分了解并同意,华为云客户如何处理您的个人信息后,再使用华为云客户的应用。 一、我们如何收集和使用您的个人信息 华为云仅会根据本声明以下所述目的和方式收集和使用您的个人信息。如果我们要将收集的个人信息用于本声明未载明的其他目的,我们会以合理的方式自行或通过华为云客户明确向您告知,并再次获取您的同意或取得其他合法性基础。如果SDK存在扩展功能,或收集和使用了您的可选个人信息,我们会在下文特别说明。 低时延直播的功能 为了向您提供低时延直播的功能,我们会处理您的音视频流,用于低时延直播的播放。这些内容数据不会被存储,仅在服务器内存中缓存,直播结束后自动清除。 低时延直播体验指标及问题定位的功能 为了向您提供低时延直播体验指标功能以及问题定位的功能,我们会处理您的IP地址、运营商信息、WiFi状态、浏览器信息、操作系统信息、设备型号等数据,用于对低时延直播的首屏时长、播放帧率、网络码率、成功率、观看人数、卡顿率等指标进行统计,以及用于协助您进行业务功能的问题定位和分析。您的上述数据将在中华人民共和国境内处理,这些内容数据的存储期限默认为90天。此为可选功能,可通过SDK接口打开关闭。 您的上述数据在中华人民共和国境内处理,我们不会将上述数据用作其他用途。 二、设备权限调用 当您使用相应功能及服务时,我们会通过华为云客户的应用向系统申请您设备的相应权限。您可以在设备的设置功能或“隐私设置”中,查看权限状态,并选择开启或关闭部分或全部权限。华为云客户在集成使用相应开放能力时,可自行决定权限的调用范围,华为云客户向您说明权限调用的用途。您根据华为云客户的应用请求,开启任一权限,即代表授权我们处理相关个人信息来为您提供相应服务;一旦您关闭任一权限即代表您取消了授权,我们将不再基于对应权限继续处理相关个人信息,可能无法继续为您提供该权限所对应的功能。请注意,您关闭权限的决定,不会影响此前基于您授权所进行的个人信息处理活动的效力。当前华为云低时延直播SDK暂不涉及申请设备权限,无需向您申请授权。 三、对未成年人的保护 在您开始使用本服务时,须承诺您是成年人。若您是未成年人,须您的父母或监护人同意您使用本服务及相关服务条款。 如果未成年人在未经父母或监护人同意的情况下,向我们提供了个人信息,父母或监护人可以联系我们,停止收集、使用或披露其个人信息。 如果我们发现在未事先获得可证实的父母或监护人同意的情况下,收集了未成年人的个人信息,会设法尽快删除相关数据。 如果华为云客户使用本服务用于教育用途,且您的最终用户可能是未成年人,请确保您的最终用户使用本服务前已获得其父母或监护人的明确同意。 四、管理您的个人信息 华为云非常尊重您对个人信息的关注,我们将遵照相关法律法规的要求,协调、支持并保障您行使访问、复制、更正或删除个人信息操作的主体权利。 由于您是通过华为云客户的应用使用华为云低时延直播SDK和服务,如果您希望访问、复制或更正与华为云低时延直播SDK的个人信息,您应通过华为云客户的应用提供的路径实现您的个人信息主体权利。 为保障您访问、复制、更正或删除个人信息的权利实现,我们在与华为云客户的协议中,明确要求华为云客户承诺根据法律法规要求,向您提供便捷的权利实现方式。同时,我们的开放能力也向华为云客户提供了相关的接口,支持华为云客户通过接口调用方式来执行您关于个人信息的访问、复制、更正、删除的权利请求。您也可以通过本声明中“如何联系我们”所述联系方式与我们取得联系,我们将尽力协调、支持并保障您的上述权利实现。 当您直接向我们提出个人信息主体权利时,为了保障您的数据安全和其他合法权益,我们可能会对您的身份进行验证并要求您提供验证身份所必要的个人信息,同时我们也可能会向华为云客户提供收集的身份验证信息以核实您的身份。在验证确认您的身份后,我们会根据法律法规要求及时响应您的相关请求。 如您对您的数据主体权利有进一步要求或存在任何疑问、意见或建议,可通过本声明中“如何联系我们”所述方式与我们取得联系,并行使您的相关权利。 五、信息存储地点及期限 存储地 上述信息将会传输并保存至中华人民共和国境内的服务器。 存储期限 音视频数据在拉流结束后,会立即删除。其他数据会在使用结束90天后删除。 我们仅在实现本声明所述目的所必需的时间内,保留您的个人信息。并在超出保留时间后,删除或匿名化处理您的个人信息,除非法律法规另有要求。 六、如何联系我们 我们设立了个人信息保护专职部门。当您有任何疑问、建议、投诉、请求,请通过访问隐私问题页面与我们联系。我们将尽快处理您提交的问题,并在15个工作日或法律法规规定的期限内,答复您的问题。 如果您对我们的回复不满意,特别是认为我们的个人信息处理行为损害了您的合法权益,您还可以向有管辖权的个人信息保护机构或其他监管部门进行投诉或举报。 一般情况下,我们会尽最大努力响应和处理您的请求。结合您的请求或问题的复杂程度,我们可能会有所延迟,但我们会告知您延迟的理由。
  • 使用约束 以下能力公测期间暂不支持,如需使用请关注后续产品转商公告。 暂不支持包周期购买实例。 不支持副本集节点缩减。 公测默认最大规格为单实例总CPU数不超过50,如需申请公测超大规格,请通过提交工单或者服务热线(4000-955-988或950808)联系我们。 一个IAM账号一个区域可以创建一个公测实例,如需申请增加公测实例数配额,请通过提交工单或者服务热线(4000-955-988或950808)联系我们。
  • 主页 主页是 开天企业工作台 应用的聚合,成员可在主页快速处理企业内相关事宜,如查看日程、查看新闻、查看待办事项。 开天 企业工作台 为各个行业预置了行业模版,租户可以直接使用。在管理后台的门户管理中,租户管理员可以自定义门户,详情请参考管理员配置企业门户。本章节以默认的行业模版向您介绍主页的布局及内容,如图1所示。 图1 默认主页详情 导航栏:工作台的导航窗格,用于切换不同功能的界面。 个人中心:可进入个人中心,查看当前账号的相关信息、帮助中心等内容。 应用:系统的应用栏目,由后台管理员订阅相关应用进行使用。 待办中心:当前用户需要处理及已处理的内容。 新闻:单位、行业及系统发布的新闻内容,可搜索或按分类查看历史新闻。 公告:单位及系统发布的公告内容,可搜索或按分类查看历史公告。 日程:日历功能,显示用户参与的会议、通知、提醒及日程。 父主题: 普通用户指南(web)
  • 操作步骤 审批模块下,单击“待我审批”,展示需要登录成员审批的内容,如图1所示。 图1 待我审批 单击列表,展示待我审批的申请详情。 在弹出的审批详情中,可查看审批的详细内容。查看信息后您可进行如下操作,如表1所示。 表1 参数说明 参数 说明 同意 该审批将通过,并通知对应审批人。 拒绝 该审批未通过,且会被退回至审批人。 评论 对该审批进行评论,不影响审批状态。 退回 将该审批退回,不做任何处理。 转交 将该审批转交给其他人进行审批。 加签 审批通过,在流程中增加其他人员进行审批。 操作完成后,您可在我已审批页面,进行查看。
  • 操作步骤 配置JobManager内存。 JobManager负责任务的调度,以及TaskManager、RM之间的消息通信。当任务数变多,任务平行度增大时,JobManager内存都需要相应增大。 您可以根据实际任务数量的多少,为JobManager设置一个合适的内存。 在使用yarn-session命令时,添加“-jm MEM”参数设置内存。 在使用yarn-cluster命令时,添加“-yjm MEM”参数设置内存。 配置TaskManager个数。 每个TaskManager每个核同时能跑一个task,所以增加了TaskManager的个数相当于增大了任务的并发度。在资源充足的情况下,可以相应增加TaskManager的个数,以提高运行效率。 配置TaskManager Slot数。 每个TaskManager多个核同时能跑多个task,相当于增大了任务的并发度。但是由于所有核共用TaskManager的内存,所以要在内存和核数之间做好平衡。 在使用yarn-session命令时,添加“-s NUM”参数设置SLOT数。 在使用yarn-cluster命令时,添加“-ys NUM”参数设置SLOT数。 配置TaskManager内存。 TaskManager的内存主要用于任务执行、通信等。当一个任务很大的时候,可能需要较多资源,因而内存也可以做相应的增加。 将在使用yarn-session命令时,添加“-tm MEM”参数设置内存。 将在使用yarn-cluster命令时,添加“-ytm MEM”参数设置内存。
  • 操作场景 该任务指导用户使用Flume客户端从本地采集静态日志保存到HBase表:flume_test。该场景介绍的是多级agent串联操作。 本章节适用于 MRS 3.x及之后版本。 本配置默认集群网络环境是安全的,数据传输过程不需要启用SSL认证。如需使用加密方式,请参考配置Flume加密传输数据采集任务。该配置可以只用一个Flume场景,例如Server:Spooldir Source+File Channel+HBase Sink。
  • 新建流表 访问Flink WebUI,请参考访问FlinkServer WebUI界面。 单击“流表管理”进入流表管理页面。 单击“新建流表”,在新建流表页面参考表1填写信息,单击“确定”,完成流表创建。创建完成后,可在对应流表的“操作”列对流表进行编辑、删除等操作。 图1 新建流表 表1 新建流表信息 参数名称 参数描述 备注 流/表名称 流/表的名称。 例如:flink_sink 描述 流/表的描述信息。 - 映射表类型 Flink SQL本身不带有数据存储功能,所有涉及表创建的操作,实际上均是对于外部数据表、存储的引用映射。 类型包含Kafka、HDFS。 - 类型 包含数据源表Source,数据结果表Sink。不同映射表类型包含的表如下所示。 Kafka:Source、Sink HDFS:Source、Sink - 数据连接 选择数据连接。 - Topic 读取的Kafka的topic,支持从多个Kakfa topic中读取,topic之间使用英文分隔符进行分隔。 “映射表类型”选择“Kafka”时存在此参数。 - 文件路径 要传输的HDFS目录或单个文件路径。 “映射表类型”选择“HDFS”时存在此参数。 例如: “/user/sqoop/ ”或“/user/sqoop/example.csv” 编码 选择不同“映射表类型”对应的编码如下: Kafka: CS V、JSON HDFS:CSV - 前缀 “映射表类型”选择“Kafka”,且“类型”选择“Source”,“编码”选择“JSON”时含义为:多层嵌套json的层级前缀,使用英文逗号(,)进行分隔。 例如:data,info表示取嵌套json中data,info下的内容,作为json格式数据输入 分隔符 选择不同“映射表类型”对应的含义为:用于指定CSV字段分隔符。当数据“编码”为“CSV”时存在此参数。 例如:“,” 行分隔符 文件中的换行符,包含“\r”、“\n”、“\r\n”。 “映射表类型”选择“HDFS”时存在此参数。 - 列分隔符 文件中的字段分隔符。 “映射表类型”选择“HDFS”时存在此参数。 例如:“,” 流/表结构 填写流/表结构,包含名称,类型。 - Proctime 指系统时间,与数据本身的时间戳无关,即在Flink算子内计算完成的时间。 “类型”选择“Source”时存在此参数。 - Event Time 指事件产生的时间,即数据产生时自带时间戳。 “类型”选择“Source”时存在此参数。 -
  • 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 el操作之后生成的字段 配置EL表达式: 名称:表达式输出结果的名称。 el表达式:表达式,格式为:表达式名称(输入字段名,是否用小写字母表示输出结果)。例如,md5sum(fieldname,true)。 md5sum:生成md5校验值。 sha1sum:生成sha1校验值。 sha256sum:生成sha256校验值。 sha512sum:生成sha512校验值。 类型:表达式输出结果类型,建议选择“VARCHAR”。 时间格式:表达是输出结果格式。 长度:表达式输出结果长度。 map 是 无
  • 写入操作配置 表1 写入操作重要配置项 参数 描述 默认值 hoodie.datasource.write.table.name 指定写入的hudi表名。 无 hoodie.datasource.write.operation 写hudi表指定的操作类型,当前支持upsert、delete、insert、bulk_insert等方式。 upsert:更新插入混合操作 delete:删除操作 insert:插入操作 bulk_insert: 用于初始建表导入数据, 注意初始建表禁止使用upsert、insert方式 insert_overwrite:对静态分区执行insert overwrite insert_overwrite_table:动态分区执行insert overwrite,该操作并不会立刻删除全表做overwrite,会逻辑上重写hudi表的元数据,无用数据后续由hudi的clean机制清理。效率比bulk_insert + overwrite 高 upsert hoodie.datasource.write.table.type 指定hudi表类型,一旦这个表类型被指定,后续禁止修改该参数,可选值MERGE_ON_READ。 COPY_ON_WRITE hoodie.datasource.write.precombine.field 该值用于在写之前对具有相同的key的行进行合并去重。 指定为具体的表字段 hoodie.datasource.write.payload.class 在更新过程中,该类用于提供方法将要更新的记录和更新的记录做合并,该实现可插拔,如要实现自己的合并逻辑,可自行编写。 org.apache.hudi.common.model.DefaultHoodieRecordPayload hoodie.datasource.write.recordkey.field 用于指定hudi的主键,hudi表要求有唯一主键。 指定为具体的表字段 hoodie.datasource.write.partitionpath.field 用于指定分区键,该值配合hoodie.datasource.write.keygenerator.class使用可以满足不同的分区场景。 无 hoodie.datasource.write.hive_style_partitioning 用于指定分区方式是否和hive保持一致,建议该值设置为true。 true hoodie.datasource.write.keygenerator.class 配合hoodie.datasource.write.partitionpath.field,hoodie.datasource.write.recordkey.field产生主键和分区方式。 说明: 写入设置KeyGenerator与表保存的参数值不一致时将提示需要保持一致。 org.apache.hudi.keygen.ComplexKeyGenerator 父主题: Hudi常见配置参数
  • 缓冲区超时设置 由于task在执行过程中存在数据通过网络进行交换,数据在不同服务器之间传递的缓冲区超时时间可以通过setBufferTimeout进行设置。 当设置“setBufferTimeout(-1)”,会等待缓冲区满之后才会刷新,使其达到最大吞吐量;当设置“setBufferTimeout(0)”时,可以最小化延迟,数据一旦接收到就会刷新;当设置“setBufferTimeout”大于0时,缓冲区会在该时间之后超时,然后进行缓冲区的刷新。 示例可以参考如下: env.setBufferTimeout(timeoutMillis); env.generateSequence(1,10).map(new MyMapper()).setBufferTimeout(timeoutMillis);
  • 如何开发Flume第三方插件 该操作指导用户进行第三方插件二次开发。 本章节适用于MRS 3.x及之后版本。 将自主研发的代码打成jar包。 安装Flume服务端或者客户端,如安装目录为“/opt/flumeclient”。 建立插件目录布局。 进入“Flume客户端安装目录/fusionInsight-flume-*/plugins.d”路径下,使用以下命令建立目录,可根据实际业务进行命名,无固定名称: cd /opt/flumeclient/fusioninsight-flume-1.9.0/plugins.d mkdir thirdPlugin cd thirdPlugin mkdir lib libext native 显示结果如下: 将第三方jar包放入“Flume客户端安装目录/fusionInsight-flume-*/plugins.d/thirdPlugin/lib”路径下,若该jar包依赖其他jar包,则将所依赖的jar包放入“Flume客户端安装目录/fusionInsight-flume-*/plugins.d/thirdPlugin/libext”文件夹中,“Flume客户端安装目录/fusionInsight-flume-*/plugins.d/thirdPlugin/native”放置本地库文件。 配置“Flume客户端安装目录/fusionInsight-flume-*/conf/properties.properties”文件。 具体properties.properties参数配置方法,参考配置Flume非加密传输数据采集任务和配置Flume加密传输数据采集任务对应典型场景中properties.properties文件参数列表的说明。 父主题: Flume常见问题
  • failure-rate策略 在作业失败后会直接重启,但超过设置的失败率后,作业会被认定为失败。在两个连续的重启尝试之间,重启策略会等待一个固定的时间。 以配置10分钟内若重启失败了3次则认为该作业失败,重试时间间隔为10s为例,参数配置为: restart-strategy: failure-rate restart-strategy.failure-rate.max-failures-per-interval: 3 restart-strategy.failure-rate.failure-rate-interval: 10 min restart-strategy.failure-rate.delay: 10 s
  • fixed-delay策略 发生故障时会尝试重启作业固定次数,如果超过了最大的尝试次数,作业最终会失败。并且在两次连续重启尝试之间,重启策略会等待固定的时间。 以配置若重启失败了3次则认为该Job失败,重试时间间隔为10s为例,参数配置为: restart-strategy: fixed-delay restart-strategy.fixed-delay.attempts: 3 restart-strategy.fixed-delay.delay: 10 s
  • 概述 Flink支持不同的重启策略,以在发生故障时控制作业是否重启以及如何重启。若不指定重启策略,集群会使用默认的重启策略。用户也可以在提交作业时指定一个重启策略,可参考创建FlinkServer作业在作业开发界面配置(MRS 3.1.0及以后版本)。 重启策略也可以通过Flink的配置文件“客户端安装目录/Flink/flink/conf/flink-conf.yaml”中的参数“restart-strategy”指定,为全局配置,还可以在应用代码中动态指定,会覆盖全局配置,重启策略包括失败率(failure-rate)和两种默认策略,默认策略为如下: 无重启(No restart):若没有启用CheckPoint,默认使用该策略。 固定间隔(fixed-delay):若启用了CheckPoint,但没有配置重启策略,默认使用该策略。
  • 重启策略选择 如果用户在作业失败后,不希望重试,则推荐使用No restart策略。 如果用户在作业失败后,希望对作业进行重试,推荐使用failure-rate策略。因为fixed-delay策略可能会因为网络、内存等硬件故障导致用户作业失败次数达到最大重试次数,从而导致作业失败。 为了防止在failure-rate策略下的无限重启,推荐如下参数配置: restart-strategy: failure-rate restart-strategy.failure-rate.max-failures-per-interval: 3 restart-strategy.failure-rate.failure-rate-interval: 10 min restart-strategy.failure-rate.delay: 10 s
  • 常用Sink配置 HDFS Sink HDFS Sink将数据写入HDFS。常用配置如表9所示: 图9 HDFS Sink 表9 HDFS Sink常用配置 参数 默认值 描述 channel - 与之相连的Channel。仅可在“properties.properties”文件中配置。 type hdfs 类型,需配置为“hdfs”。仅可在“properties.properties”文件中配置。 monTime 0(不开启) 线程监控阈值,更新时间大于阈值时重新启动该Sink,单位:秒。 hdfs.path - HDFS路径。 hdfs.inUseSuffix .tmp 正在写入的HDFS文件后缀。 hdfs.rollInterval 30 按时间滚动文件,单位:秒,同时需将“hdfs.fileCloseByEndEvent”设置为“false”。 hdfs.rollSize 1024 按大小滚动文件,单位:字节,同时需将“hdfs.fileCloseByEndEvent”设置为“false”。 hdfs.rollCount 10 按Event个数滚动文件,同时需将“hdfs.fileCloseByEndEvent”设置为“false”。 hdfs.idleTimeout 0 自动关闭空闲文件超时时间,单位:秒。 hdfs.batchSize 1000 每次写入HDFS的Event个数。 hdfs.kerberosPrincipal - 认证HDFS的Kerberos用户名,未启用Kerberos认证集群不配置。 hdfs.kerberosKeytab - 认证HDFS的Kerberos keytab路径,未启用Kerberos认证集群不配置 hdfs.fileCloseByEndEvent true 收到最后一个Event时是否关闭文件。 hdfs.batchCallTimeout - 每次写入HDFS超时控制时间,单位:毫秒。 当不配置此参数时,对每个Event写入HDFS进行超时控制。当“hdfs.batchSize”大于0时,配置此参数可以提升写入HDFS性能。 说明: “hdfs.batchCallTimeout”设置多长时间需要考虑“hdfs.batchSize”的大小,“hdfs.batchSize”越大,“hdfs.batchCallTimeout”也要调整更长时间,设置过短时间容易导致数据写入HDFS失败。 serializer.appendNewline true 将一个Event写入HDFS后是否追加换行符('\n'),如果追加该换行符,该换行符所占用的数据量指标不会被HDFS Sink统计。 Avro Sink Avro Sink把events转化为Avro events并发送到配置的主机的监测端口。常用配置如表10所示: 图10 Avro Sink 表10 Avro Sink常用配置 参数 默认值 描述 channel - 与之相连的Channel。仅可在“properties.properties”文件中配置。 type - 类型,需配置为“avro”。仅可在“properties.properties”文件中配置。 hostname - 绑定关联的主机名或IP地址。 port - 监测端口。 batch-size 1000 批次发送的Event个数。 ssl false 是否使用SSL加密。 truststore-type JKS Java信任库类型。 truststore - Java信任库文件。 truststore-password - Java信任库密码。 keystore-type JKS 密钥存储类型。 keystore - 密钥存储文件。 keystore-password - 密钥存储密码 HBase Sink HBase Sink将数据写入到HBase中。常用配置如表11所示: 图11 HBase Sink 表11 HBase Sink常用配置 参数 默认值 描述 channel - 与之相连的Channel。仅可在“properties.properties”文件中配置。 type - 类型,需配置为“hbase”。仅可在“properties.properties”文件中配置。 table - HBase表名称。 monTime 0(不开启) 线程监控阈值,更新时间大于阈值时重新启动该Sink,单位:秒。 columnFamily - HBase列族名称。 batchSize 1000 每次写入HBase的Event个数。 kerberosPrincipal - 认证HBase的Kerberos用户名,未启用Kerberos认证集群不配置。 kerberosKeytab - 认证HBase的Kerberos keytab路径,未启用Kerberos认证集群不配置。 Kafka Sink Kafka Sink将数据写入到Kafka中。常用配置如表12所示: 图12 Kafka Sink 表12 Kafka Sink常用配置 参数 默认值 描述 channel - 与之相连的Channel。仅可在“properties.properties”文件中配置。 type - 类型,需配置为“org.apache.flume.sink.kafka.KafkaSink”。 仅可在“properties.properties”文件中配置。 kafka.bootstrap.servers - Kafkabrokers列表,多个用英文逗号分隔。 monTime 0(不开启) 线程监控阈值,更新时间大于阈值时重新启动该Sink,单位:秒。 kafka.topic default-flume-topic 数据写入的topic。 flumeBatchSize 1000 每次写入Kafka的Event个数。 kafka.security.protocol SASL_PLAINTEXT Kafka安全协议,未启用Kerberos认证集群下须配置为“PLAINTEXT”。 kafka.kerberos.domain.name - Kafka Domain名称。安全集群必填。仅可在“properties.properties”文件中配置。 Other Kafka Producer Properties - 其他Kafka配置,可以接受任意Kafka支持的生产参数配置,配置需要加前缀“.kafka”。 仅可在“properties.properties”文件中配置。
  • 常用Channel配置 Memory Channel Memory Channel使用内存作为缓存区,Events存放在内存队列中。常用配置如表6所示: 图6 Memory Channel 表6 Memory Channel常用配置 参数 默认值 描述 type - 类型,需配置为“memory”。仅可在“properties.properties”文件中配置。 capacity 10000 缓存在Channel中的最大Event数。 transactionCapacity 1000 每次存取的最大Event数。 channelfullcount 10 Channel full次数,达到该次数后发送告警。 File Channel File Channel使用本地磁盘作为缓存区,Events存放在设置的“dataDirs”配置项文件夹中。常用配置如表7所示: 图7 File Channel 表7 File Channel常用配置 参数 默认值 描述 type - 类型,需配置为“file”。仅可在“properties.properties”文件中配置。 checkpointDir ${BIGDATA_DATA_HOME}/flume/checkpoint 检查点存放路径。 dataDirs ${BIGDATA_DATA_HOME}/flume/data 数据缓存路径,设置多个路径可提升性能,中间用逗号分开。 maxFileSize 2146435071 单个缓存文件的最大值,单位:字节。 minimumRequiredSpace 524288000 缓冲区空闲空间最小值,单位:字节。 capacity 1000000 缓存在Channel中的最大Event数。 transactionCapacity 10000 每次存取的最大Event数。 channelfullcount 10 Channel full次数,达到该次数后发送告警。 Kafka Channel Kafka Channel使用kafka集群缓存数据,Kafka提供高可用、多副本,以防Flume或Kafka Broker崩溃,Channel中的数据会立即被Sink消费。常用配置如表 10 Kafka Channel 常用配置所示: 图8 Kafka Channel 表8 Kafka Channel常用配置 参数 默认值 描述 type - 类型,需配置为 “org.apache.flume.channel.kafka.KafkaChannel”.。 仅可在“properties.properties”文件中配置。 kafka.bootstrap.servers - kafka broker列表。 kafka.topic flume-channel Channel用来缓存数据的topic。 kafka.consumer.group.id flume Kafka消费者组ID。 parseAsFlumeEvent true 是否解析为Flume event。 migrateZookeeperOffsets true 当Kafka没有存储offset时,是否从ZooKeeper中查找,并提交到Kafka。 kafka.consumer.auto.offset.reset latest 当没有offset记录时,从指定的位置消费数据。 kafka.producer.security.protocol SASL_PLAINTEXT Kafka生产者安全协议。 kafka.consumer.security.protocol SASL_PLAINTEXT Kafka消费者安全协议。
  • 操作场景 该任务指导用户使用Flume服务端从本地采集静态日志保存到Kafka的Topic列表(test1)。 本章节适用于MRS 3.x及之后版本。 本配置默认集群网络环境是安全的,数据传输过程不需要启用SSL认证。如需使用加密方式,请参考配置Flume加密传输数据采集任务。该配置为只用一个Flume场景,例如:Spooldir Source+Memory Channel+Kafka Sink.
  • Flink用户权限说明 访问并使用Flink WebUI进行业务操作需为用户赋予FlinkServer相关权限,Manager的admin用户没有FlinkServer的业务操作权限。 FlinkServer中应用(租户)是最大管理范围,包含集群连接管理、数据连接管理、应用管理、流表和作业管理等。 FlinkServer中有如表1所示三种资源权限: 表1 FlinkServer资源权限 权限名称 权限描述 备注 FlinkServer管理员权限 具有所有应用的编辑、查看权限。 是FlinkServer的最高权限。如果已经具有FlinkServer管理员权限,则会自动具备所有应用的权限。 应用编辑权限 具有当前应用编辑权限的用户,可以执行创建、编辑和删除集群连接、数据连接,创建流表、创建作业及运行作业等操作。 同时具有当前应用查看权限。 应用查看权限 具有当前应用查看权限的用户,可以查看应用。 - 父主题: Flink用户权限管理
  • 操作场景 此功能适用于Hive。 因为操作系统用户组个数限制,导致Hive不能创建超过32个角色,开启此功能后,Hive将支持创建超过32个角色。 开启本功能并对表库等授权后,对表库目录具有相同权限的角色将会用“|”合并。查询acl权限时,将显示合并后的结果,与开启该功能前的显示会有区别。此操作不可逆,请充分考虑实际应用场景,再决定是否作出调整。 MRS3.x及后续版本支持Ranger,如果当前组件使用了Ranger进行权限控制,需基于Ranger配置相关策略进行权限管理,具体操作可参考添加Hive的Ranger访问权限策略。 开启此功能后,包括owner在内默认最大可支持512个角色,由MetaStore自定义参数“hive.supports.roles.max”控制,可考虑实际应用场景进行修改。
  • create命令扩展属性 针对HDFS与SFTP服务器或RDB进行数据交换场景,MRS在开源sqoop-shell工具的基础上对create命令属性进行扩展,以达到在创建作业时指定行、列分隔符及转换步骤的目的。 表2 create命令扩展属性 属性 说明 fields-terminated-by 默认的列分割符。 lines-terminated-by 默认的行分割符。 input-fields-terminated-by 输入步骤的列分割符,当不指定时,默认等于fields-terminated-by的值。 input-lines-terminated-by 输入步骤的行分割符,当不指定时,默认等于lines-terminated-by的值。 output-fields-terminated-by 输出步骤的列分割符,当不指定时,默认等于fields-terminated-by的值。 output-lines-terminated-by 输出步骤的行分割符,当不指定时,默认等于lines-terminated-by的值。 trans 指定转换步骤,值为转换步骤文件所在的路径。当指定文件的相对路径时,默认为“sqoop2-shell”脚本所在路径下的文件。当配置了该属性,其他扩展属性都被忽略。
  • 概述 本章节适用于MRS 3.x及后续版本。 sqoop-shell是一个开源的shell工具,其所有功能都是通过执行脚本“sqoop2-shell”来实现的。 sqoop-shell工具提供了如下功能: 支持创建和更新连接器 支持创建和更新作业 支持删除连接器和作业 支持以同步或异步的方式启动作业 支持停止作业 支持查询作业状态 支持查询作业历史执行记录 支持复制连接器和作业 支持创建和更新转换步骤 支持指定行、列分隔符 sqoop-shell工具支持如下模式: 交互模式 通过执行不带参数的“sqoop2-shell”脚本,进入Loader特定的交互窗口,用户输入脚本后,工具会返回相应信息到交互窗口。 批量模式 通过执行“sqoop2-shell”脚本,带一个文件名作为参数,该文件中按行存储了多条命令,sqoop-shell工具将会按顺序执行文件中所有命令;或者在“sqoop2-shell”脚本后面通过“-c”参数附加一条命令,一次只执行一条命令。 sqoop-shell通过表1的命令来实现Loader各种功能。 表1 命令一览表 命令 说明 exit 表示退出交互模式。 该命令仅支持交互模式。 history 查看执行过的命令。 该命令仅支持交互模式。 help 查看工具帮助信息。 set 设置服务端属性。 show 显示服务属性和Loader所有元数据信息。 create 创建连接器和作业。 update 更新连接器和作业。 delete 删除连接器和作业。 clone 复制连接器和作业。 start 启动作业。 stop 停止作业。 status 查询作业状态。
  • sqoop1对接MRS服务 下载开源Sqoop,http://www.apache.org/dyn/closer.lua/sqoo:p/1.4.7。 将下载好的sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz 包放入MRS集群master节点的/opt/sqoop目录下并解压。 tar zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz 进入解压完成的目录,修改配置。 cd /opt/sqoop/sqoop-1.4.7.bin__hadoop-2.6.0/conf cp sqoop-env-template.sh sqoop-env.sh vi sqoop-env.sh 添加配置: export HADOOP_COMMON_HOME=/opt/client/HDFS/hadoop export HADOOP_MAPRED_HOME=/opt/client/HDFS/hadoop export HIVE_HOME=/opt/Bigdata/MRS_1.9.X/install/ FusionInsight -Hive-3.1.0/hive(请按照实际路径填写) export HIVE_CONF_DIR=/opt/client/Hive/config export HCAT_HOME=/opt/client/Hive/HCatalog 添加系统变量,将“SQOOP_HOME”添加到PATH中。 vi /etc/profile 添加以下信息: export SQOOP_HOME=/opt/sqoop/sqoop-1.4.7.bin__hadoop-2.6.0 export PATH=$PATH:$SQOOP_HOME/bin 执行以下命令复制jline-2.12.jar文件到lib文件下。 cp /opt/share/jline-2.12/jline-2.12.jar /opt/sqoop/sqoop-1.4.7.bin__hadoop-2.6.0/lib 执行以下命令,在文件中添加下列配置。 vim $JAVA_HOME/jre/lib/security/java.policy permission javax.management.MBeanTrustPermission "register"; 执行以下命令,实现sqoop1对接MRS服务。 source /etc/profile
  • 已安装Flume客户端 在客户端flume-check.properties文件中配置client.per-check.shell,指向plugin.sh的绝对路径。 例如Flume客户端安装路径为“/opt/FlumeClient”,则flume-check.properties文件所在目录为/opt/FlumeClient/fusioninsight-flume-1.9.0/conf, 配置如下: client.per-check.shell=/opt/FlumeClient/fusioninsight-flume-1.9.0/plugins.s/plugin.sh plugins = com.huawei.flume.services.FlumePreTransmitService flume.check.default.interval = 15 配置plugin.conf,定义具体调用的脚本、相关参数。 例如Flume客户端安装路径为“/opt/FlumeClient”,则plugin.conf配置文件所在目录为/opt/FlumeClient/fusioninsight-flume-1.9.0/conf, 配置如下: RUN_PLUGIN="PLUGIN_LIST_1" LOG _TO_HDFS_PATH="/yxs" LOG_TO_HDFS_ENCODE_PATH="${LOG_TO_HDFS_PATH}/Flume_Encoded/" PLUGIN_LINK_DIR="/tmp/yxs1" PLUGIN_MV_TARGET_DIR="/tmp/yxs2" PLUGIN_SUFFIX="COMPLETED" PLUGIN_LIST_1="mv_complete.sh --linkdir ${PLUGIN_LINK_DIR} --mvtargetdir ${PLUGIN_MV_TARGET_DIR} --suffix ${PLUGIN_SUFFIX}" 在客户端安装路径bin目录执行以下命令,重启Flume客户端,例如“/opt/FlumeClient/fusioninsight-flume-1.9.0/bin”。 ./flume-manage.sh restart
共100000条