华为云用户手册

  • 样例 数据输入 input_table id sentence_en sentence_chn 1 You can call me at 0513-1323563 我的电话是18812534124,不要打0732-1324-5634 2 It's a wrong telephone number like 071-2341. You can do it 这个电话号码1032-122233是错误的 3 It's a wrong telephone number like 12345678901 这也是个错误电话号码1236452123 4 We will go there at 13 past 10 o'clock. 我们将要在十点钟零十三分钟到那里 5 you can go there at eleven to twelve o'clock. 你可以在十一点四十九分出发 6 you can go there 52 past 20 o'clock. 你可以在二十点五十二分去 7 before 12 we finish it. 我们要在十二点之前完成它 8 We will finish it at 20:13:22 我们将在20点13分22秒完成它 9 We will finish it at 13:22 我们将在十三点二十二分完成 10 We will finish it at 60:22 我们将在六十点二十二分完成(这是个错误时间) 11 aaa cafd February 1,2022 xxx 当地时间12月7日 12 dfsad February, 2022 我吃了面包在九八年五月二十八号。 13 dafdsa Feb 1st, 2nd, 3rd, 4th 1936年 3月零九日,02月八日, 1830年, 14 dsafd Feb 1 一八二五年, 三月,12月, 在九号,在五日, 公元前一五三年 15 Feb 1 in 2022 二十年后,我不知道在哪里 16 11th August, 2020 去年12月28日,我去了兰州 17 1st in/of Feb 凌晨时候我醒了一次,然后到二月拾日 18 1 in Feb in 2022 人不能,至少不应该...【陆月贰十五日记】 19 I make 2022/01/08 二零二二年一月零八日,我开始了远行 20 I make 01/08/2022 一月八日,这个活动终止了,在二〇二二年。 21 I make 2203-01-20 贰贰零叁年一月二十日,游戏内测,五月三十日,正式上线。 27 I make 2203-01-20 贰零二三年一月二十日,游戏内测,五月三十日,正式上线。 22 will you 2019.01.30 这是个正确的时间2019年01月30日 23 I got it 1988 31 05 不想写了1988年 31号 05月 24 I got it 1988.02.33 怎么还有1988年.02月.33日 25 I got it 30/05 这个是30号/05月 26 I got it 05. 12(you need know it) 这是最后一个,05月. 12号 dict_table word id 游戏内测 0 电话号码 1 正式上线 2 二十年后 3 4 ok 5 配置流程 运行流程 输入参数 输出结果 sentence_en sentence_chn sentence_en_words sentence_chn_words You can call me at 0513-1323563 我的电话是18812534124,不要打0732-1324-5634 You/nx||can/nx||call/nx||me/nx||at/nx||0513-1323563/nz 我/r||的/uj||电话/n||是/v||18812534124/nz||不/d||要/v||打/v||0732-1324-5634/nz It's a wrong telephone number like 071-2341. You can do it 这个电话号码1032-122233是错误的 It's/nx||a/nx||wrong/nx||telephone/nx||number/nx||like/nx||071/m||2341/m||You/nx||can/nx||do/nx||it/nx 这个/r||电话号码/nz||1032/m||122233/m||是/v||错误/n||的/uj It's a wrong telephone number like 12345678901 这也是个错误电话号码1236452123 It's/nx||a/nx||wrong/nx||telephone/nx||number/nx||like/nx||12345678901/m 这/r||也/d||是/v||个/q||错误/n||电话号码/nz||1236452123/m We will go there at 13 past 10 o'clock. 我们将要在十点钟零十三分钟到那里 We/nx||will/nx||go/nx||there/nx||at 13 past 10 o'clock/nz 我们/r||将要/d||在/p||十点钟零十三分钟/nz||到/v||那里/r you can go there at eleven to twelve o'clock. 你可以在十一点四十九分出发 you/nx||can/nx||go/nx||there/nx||at eleven to twelve o'clock/nz 你/r||可以/v||在/p||十一点四十九分/nz||出发/v you can go there 52 past 20 o'clock. 你可以在二十点五十二分去 you/nx||can/nx||go/nx||there/nx||52 past 20 o'clock/nz 你/r||可以/v||在/p||二十点五十二分/nz||去/v before 12 we finish it. 我们要在十二点之前完成它 before 12/nz||we/nx||finish/nx||it/nx 我们/r||要/v||在/p||十二点/nz||之前/f||完成/v||它/r We will finish it at 20:13:22 我们将在20点13分22秒完成它 We/nx||will/nx||finish/nx||it/nx||at 20:13:22/nz 我们/r||将/d||在/p||20点13分22秒/nz||完成/v||它/r We will finish it at 13:22 我们将在十三点二十二分完成 We/nx||will/nx||finish/nx||it/nx||at 13:22/nz 我们/r||将/d||在/p||十三点二十二分/nz||完成/v We will finish it at 60:22 我们将在六十点二十二分完成(这是个错误时间) We/nx||will/nx||finish/nx||it/nx||at/nx||60/m||22/m 我们/r||将/d||在/p||六十/m||点/q||二十二/m||分/q||完成/v||这/r||是/v||个/q||错误/n||时间/n aaa cafd February 1,2022 xxx 当地时间12月7日 aaa/nx||cafd/nx||February 1,2022/nz||xxx/nx 当地/s||时间/n||12月7日/nz dfsad February, 2022 我吃了面包在九八年五月二十八号。 dfsad/nx||February, 2022/nz 我/r||吃/v||了/ul||面包/n||在/p||九八年五月二十八号/nz dafdsa Feb 1st, 2nd, 3rd, 4th 1936年 3月零九日,02月八日, 1830年, dafdsa/nx||Feb 1st/nz||2/m||nd/nx||3/m||rd/nx||4/m||th/nx 1936年 3月零九日/nz||02月八日/nz||1830年/nz dsafd Feb 1 一八二五年, 三月,12月, 在九号,在五日, 公元前一五三年 dsafd/nx||Feb 1/nz 一八二五年, 三月/nz||12月/nz||在/p||九号/nz||在/p||五/m||日/j||公元前一五三年/nz Feb 1 in 2022 二十年后,我不知道在哪里 Feb 1 in 2022/nz 二十年后/nz||我/r||不/d||知道/v||在/p||哪里/r 11th August, 2020 去年12月28日,我去了兰州 11th August, 2020/nz 去年/nz||12月28日/nz||我/r||去/v||了/ul||兰州/ns 1st in/of Feb 凌晨时候我醒了一次,然后到二月拾日 1/m||st/nx||in/nx||of Feb/nz 凌晨/nz||时候/n||我/r||醒/v||了/ul||一/m||次/q||然后/c||到/v||二月拾日/nz 1 in Feb in 2022 人不能,至少不应该...【陆月贰十五日记】 1 in Feb in 2022/nz 人/n||不能/v||至少/d||不/d||应该/v||陆月/nr||贰十五/m||日记/n I make 2022/01/08 二零二二年一月零八日,我开始了远行 I/nx||make/nx||2022/01/08/nz 二零二二年一月零八日/nz||我/r||开始/v||了/ul||远行/vn I make 01/08/2022 一月八日,这个活动终止了,在二〇二二年。 I/nx||make/nx||01/08/2022/nz 一月八日/nz||这个/r||活动/vn||终止/v||了/ul||在/p||二〇二二年/nz I make 2203-01-20 贰贰零叁年一月二十日,游戏内测,五月三十日,正式上线。 I/nx||make/nx||2203-01-20/nz 贰贰零叁年一月二十日/nz||游戏内测/nz||五月三十日/nz||正式上线/nz I make 2203-01-20 贰零二三年一月二十日,游戏内测,五月三十日,正式上线。 I/nx||make/nx||2203-01-20/nz 贰零二三年一月二十日/nz||游戏内测/nz||五月三十日/nz||正式上线/nz will you 2019.01.30 这是个正确的时间2019年01月30日 will/nx||you/nx||2019.01.30/nz 这/r||是/v||个/q||正确/a||的/uj||时间/n||2019年01月30日/nz I got it 1988 31 05 不想写了1988年 31号 05月 I/nx||got/nx||it/nx||1988 31 05/nz 不想/v||写/v||了/ul||1988年 31号 05月/nz I got it 1988.02.33 怎么还有1988年.02月.33日 I/nx||got/nx||it/nx||1988.02.33/nz 怎么/r||还有/v||1988/m||年/q||02/m||月/q||33/m||日/j I got it 30/05 这个是30号/05月 I/nx||got/nx||it/nx||30/05/nz 这个/r||是/v||30号/05月/nz I got it 05. 12(you need know it) 这是最后一个,05月. 12号 I/nx||got/nx||it/nx||05. 12/nz||you/nx||need/nx||know/nx||it/nx 这/r||是/v||最后/f||一个/mq||05月. 12号/nz
  • 输出表说明 列名 列描述 备注 xxx 原输入表列 如果remain_other_cols为True,则保留input_table全列;如果为False,则只保留input_table分词列 xxx_words 分词列的分词结果列 分词结果列列名为原分词列列名 + "_words" dict_table是对默认词典的增加,不是只保留dict_table里的词; 自定义词典或自定义合并的词词性标注为"nz"; 暂不支持中文繁体简体混合的时间日期,如“陆月贰十日”。
  • 样例 数据输入 id text 1 荷兰国家旅游会议促进局亚洲区总监、中国区首席代表杨宇对《环球时报》记者表示,未来重启的中国旅游市场会更加细分,也会出现更多新的旅行需求。 2 此外,国外的酒店从业者也非常期待中国游客“回归”。禧亚酒店及度假村集团大中华区品牌负责人张章告诉记者,作为马尔代夫最大的酒店集团之一,禧亚酒店及度假村集团旗下的5家岛屿度假酒店都已重启中国管家计划,重新召回中国籍宾客关系服务人员、中文管家、中国厨师等。 配置流程 运行流程 输入参数 输出结果 id text text_summary 1 荷兰国家旅游会议促进局亚洲区总监、中国区首席代表杨宇对《环球时报》记者表示,未来重启的中国旅游市场会更加细分,也会出现更多新的旅行需求。 未来重启的中国旅游市场会更加细分,荷兰国家旅游会议促进局亚洲区总监、中国区首席代表杨宇对《环球时报》记者表示,也会出现更多新的旅行需求。 2 此外,国外的酒店从业者也非常期待中国游客“回归”。禧亚酒店及度假村集团大中华区品牌负责人张章告诉记者,作为马尔代夫最大的酒店集团之一,禧亚酒店及度假村集团旗下的5家岛屿度假酒店都已重启中国管家计划,重新召回中国籍宾客关系服务人员、中文管家、中国厨师等。 禧亚酒店及度假村集团旗下的5家岛屿度假酒店都已重启中国管家计划,禧亚酒店及度假村集团大中华区品牌负责人张章告诉记者,作为马尔代夫最大的酒店集团之一,
  • 输入参数说明 参数名称 参数描述 参数要求 doc_id_col 标识文章的id列 string类型;必填;仅支持一列 sentence_col 原文本列列名 string类型;必填;仅支持一列 sentence_sep 用于拆分句子的标点符号 string类型;必填;默认为",,。::“”??!!;;" top_n 输出的摘要句子个数 integer类型;必填;默认为3 remain_other_cols 是否保留id列和原文本列外的其他列 boolean类型;必填;默认为False
  • 样例 数据输入 id text 1 在周六的早晨,我喜欢煎个鸡蛋,煮一杯红底薏米粥,窝在榻榻米中慢慢苏醒。 2 在一九一三年的五月,这座边陲小镇迎来了带领他们走向未来一百年繁华的人,这一天注定不平凡。 配置流程 运行流程 输入参数 输出结果 id text 1 在周六的早晨, 1 我喜欢煎个鸡蛋, 1 煮一杯红底薏米粥, 1 窝在榻榻米中慢慢苏醒。 2 在一九一三年的五月, 2 这座边陲小镇迎来了带领他们走向未来一百年繁华的人, 2 这一天注定不平凡。
  • 样例 数据样本 使用公开数据集AirPassengers.csv的前120行 数据示例 Month,Passengers1949-01,1121949-02,1181949-03,1321949-04,1291949-05,1211949-06,1351949-07,1481949-08,1481949-09,1361949-10,1191949-11,1041949-12,1181950-01,1151950-02,1261950-03,141
  • 参数说明 表3 参数 是否必选 描述 默认值 seq_col_name 是 时序列。仅用来对valueColName排序。 无 value_col_name 是 数值列。 无 group_col_names 否 分组列,多列用逗号分隔,例如col0,col1。每个分组会构建一个时间序列。 无 order 是 p、d和q分别表示自回归系数、差分、滑动回归系数。取值均为非负整数,范围为[0, 36]。 无 seasonal 否 sp、sd、sq分别表示季节因素的自回归,差分,移动平均系数,取值均为非负整数,范围为[0, 36]。 0,0,0 period 否 seasonal周期。数字类型,取值范围为(0, 100]。 12 predict_step 否 预测条数。数字类型,取值范围为(0, 365]。 12 confidence_level 否 预测置信水平。数字类型,取值范围为(0, 1)。 0.95
  • 参数说明 参数 是否必选 参数说明 默认值 id_col 是 用户id所在的列名 "id" vector_col 是 向量的列名列表,如col1,col2 "" topn 是 输出的距离最近的向量的数目。取值范围[1,+∞) 20 distance_type 是 距离的计算方式。取值[cosine] "cosine" distance_threshold 是 距离的阈值。当两个向量的距离小于此值时输出。取值范围(0,+∞) 1.0 leaf_size 是 叶子节点大小 50
  • 支持的功能 表1 ToolKit(latest)功能列表 支持的功能 说明 对应操作指导 SSH远程连接 支持SSH远程连接ModelArts的Notebook开发环境。 配置PyCharm ToolKit远程连接Notebook 训练模型 支持将本地开发的代码,快速提交至ModelArts并自动创建新版训练作业,在训练作业运行期间获取训练日志并展示到本地。 提交训练作业(新版训练) 停止训练作业 查看训练日志 OBS上传下载 上传本地文件或文件夹至OBS,从OBS下载文件或文件夹到本地。 在PyCharm中上传下载文件
  • 在OBS中查看 提交训练作业时,系统将自动在您配置的OBS Path中,使用作业名称创建一个新的文件夹,用于存储训练输出的模型、日志和代码。 例如“train-job-01”作业,提交作业时会在“test-modelarts2”桶下创建一个命名为“train-job-01”的文件夹,且此文件夹下分别新建了三个文件夹“output”、“log”、“code”,分别用于存储输出模型、日志和训练代码。“output”文件夹还会根据您的训练作业版本再创建子文件夹,结构示例如下。 test-modelarts2 |---train-job-01 |---output |---log |---code
  • 样例 数据样本 使用公开数据集AirPassengers.csv的前120行 数据示例: Month,Passengers1949-01,1121949-02,1181949-03,1321949-04,1291949-05,1211949-06,1351949-07,1481949-08,1481949-09,1361949-10,1191949-11,1041949-12,1181950-01,1151950-02,1261950-03,141
  • 概述 该算子可以帮助我们自动确定 A R I M A ( p , d , q ) ( P , D , Q ) m。 Auto ARIMA选择过程 1. 执行差分测试 决定差分d的大小(KPSS检测和ADF检测) 2. 拟合模型: 通过限制start_p、max_p、start_q max_q,在该范围内搜索最优参数;如果启用了季节性可选项,则还会执行Canova-Hansen来确定季节性差分的最佳阶数 D ,并之后基于此确定最佳 P 和 Q 超参数。 3. Auto ARIMA基于给定的information_criterion进行模型优化,范围('aic', 'aicc', 'bic', 'hqic', 'oob');A并通过生成AIC和BIC值来确定参数的最佳组合。AIC和BIC值是用于比较模型的评估器。这些值越低,模型就越好。 目前 Auto ARIMA算子只支持在Notebook环境运行,不支持 DLI 环境下运行。
  • 参数说明 表3 参数 是否必选 描述 默认值 seq_col_name 是 时序列。用来对valueColName排序。 无 value_col_name 是 数值列 无 group_col_names 否 分组列,多列用逗号分隔,如“col0,col1”。每个分组会构建一个时间序列 无 frequency 否 时序频率,正整数,范围为(0, 12]。 12说明 12表示12月/年。 max_order 否 p,q最大值,正整数,范围为[0,4]。 2 max_seasonal_order 否 季节性p,q最大值,正整数,范围为[0,2]。 1 max_diff 否 差分d最大值。正整数,范围为[0,2]。 2 max_seasonal_diff 否 季节性差分d最大值。正整数,范围为[0,1]。 1 diff 否 差分d,正整数,范围为[0,2]。diff与maxDiff同时设置时,maxDiff被忽略。diff与seasonalDiff要同时设置。 -1说明 取值为-1表示不指定diff。 seasonal_diff 否 季节性差分d。正整数,范围为[0,1]。seasonalDiff与maxSeasonalDiff同时设置时,maxSeasonalDiff被忽略。 -1说明 取值为-1表示不指定seasonalDiff。 max_iter 否 最大迭代次数,正整数 1500 tol 否 容忍度,double类型。 1e-5 predict_step 否 预测条数,数字,范围为(0, 365]。 12 confidence_level 否 预测置信水平,数字,范围为(0, 1)。 0.95
  • 场景介绍 在AI开发过程中,如何将文件方便快速地上传到Notebook几乎是每个开发者都会遇到的问题。 ModelArts之前对文件直接上传到Notebook的大小限制是100MB,超过限制的文件无法直接上传;其次需要上传的文件并不都在本地,可能是GitHub的开源仓库,可能是类似开源数据集(https://nodejs.org/dist/v12.4.0/node-v12.4.0-linux-x64.tar.xz)这样的远端文件,也可能是存放在OBS中的文件,ModelArts之前无法将这些文件直接上传到Notebook中;在文件上传过程中,用户无法获得更多的信息,例如上传进度和速度。 ModelArts上传文件特性主要解决了以上三个问题,不仅提供了更多上传文件的功能满足用户需求,而且展示了更多文件上传的细节,提升了用户的体验。 当前的文件上传功能: 支持上传本地文件; 支持Clone GitHub开源仓库; 支持上传OBS文件; 支持上传远端文件; 将文件上传详情可视化。 父主题: 上传文件至JupyterLab
  • 上传文件要求 对于大小不超过100MB的文件直接上传,并展示文件大小、上传进度及速度等详细信息。 对于大小超过100MB不超过5GB的文件可以使用OBS中转,系统先将文件上传OBS(对象桶或并行文件系统),然后从OBS下载到Notebook,上传完成后,会将文件从OBS中删除。 5GB以上的文件上传通过调用ModelArts SDK或者Moxing完成。 对于Notebook当前目录下已经有同文件名称的文件,可以覆盖继续上传,也可以取消。 支持10个文件同时上传,其余文件显示“等待上传”。不支持上传文件夹,可以将文件夹压缩成压缩包上传至Notebook后, 在Terminal中解压压缩包。 unzip xxx.zip #在xxx.zip压缩包所在路径直接解压 解压命令的更多使用说明可以在主流搜索引擎中查找Linux解压命令操作。 多个文件同时上传时,JupyterLab窗口最下面会显示上传文件总数和已上传文件数。
  • 异常处理 通过OBS下载文件到Notebook中时,提示Permission denied。请依次排查: 请确保读取的OBS桶和Notebook处于同一站点区域,例如:都在华北-北京四站点。不支持跨站点访问OBS桶。具体请参见如何查看OBS桶与ModelArts是否在同一区域。 请确认操作Notebook的帐号有权限读取OBS桶中的数据。如没有权限,请参见在Notebook中,如何访问其他帐号的OBS桶?。
  • 参数说明 参数 子参数 参数说明 input_columns_str - 数据集的特征列名组成的格式化字符串,例如: "column_a" "column_a,column_b" label_col - 目标列名 model_input_features_col - 特征向量的列名 prediction_col - 训练模型时,预测结果对应的列名,默认为"prediction" max_depth - 树的最大深度,默认为5 max_bins - 特征分裂时的最大分箱个数,默认为32 min_instances_per_node - 决策树分裂时要求每个节点必须包含的实例数目,默认为1 min_info_gain - 最小信息增益,默认为0 subsampling_rate - 训练每棵树时,对训练集的抽样率,默认为1 max_iter - 最大迭代次数,默认为20 step_size - 步长,默认为0.1
  • 样例 inputs = { "dataframe": None # @input {"label":"dataframe","type":"DataFrame"}}params = { "inputs": inputs, "select_columns_str": "", # @param {"label":"select_columns_str","type":"string","required":"false","helpTip":""} "bucket_num": 10 # @param {"label":"bucket_num","type":"integer","required":"true","range":"(0,2147483647)","helpTip":""} }bucket_statistics____id___ = MLSBucketStatistics(**params)bucket_statistics____id___.run()# @output {"label":"dataframe","name":"bucket_statistics____id___.get_outputs()['output_port_1']","type":"DataFrame"}
  • 样例 inputs = { "dataframe": None, # @input {"label":"dataframe","type":"DataFrame"} "pipeline_model": None, # @input {"label":"pipeline_model","type":"PipelineModel"} "gbt_regressor_model": None}params = { "inputs": inputs, "input_columns_str": "", # @param {"label": "input_columns_str", "type": "string", "required": "false", "helpTip": ""} "label_col": "", # @param {"label": "label_col", "type": "string", "required": "true", "helpTip": ""} "model_input_features_col": "model_features", # @param {"label": "model_input_features_col", "type": "string", "required": "false", "helpTip": ""} "prediction_col": "prediction", # @param {"label": "prediction_col", "type": "string", "required": "false", "helpTip": ""} "max_depth": 5, # @param {"label": "max_depth", "type": "integer", "required": "false","range":"(0,2147483647]", "helpTip": ""} "max_bins": 32, # @param {"label": "max_bins", "type": "integer", "required": "false","range":"(0,2147483647]", "helpTip": ""} "min_instances_per_node": 1, # @param {"label": "min_instances_per_node", "type": "integer", "required": "false","range":"(0,2147483647]", "helpTip": ""} "min_info_gain": 0.0, # @param {"label": "min_info_gain", "type": "number", "required": "false", "helpTip": ""} "subsampling_rate": 1.0, # @param {"label": "subsampling_rate", "type": "number", "required": "false", "helpTip": ""} "loss_type": "squared", # @param {"label": "loss_type", "type": "enum", "required": "false", "options": "squared, absolute", "helpTip": ""} "max_iter": 20, # @param {"label": "max_iter", "type": "integer", "required": "false","range":"(0,2147483647]", "helpTip": ""} "step_size": 0.1, # @param {"label": "step_size", "type": "number", "required": "false", "helpTip": ""} "impurity": "variance"}gbt_regression_feature_importance____id___ = MLSGBTRegressorFeatureImportance(**params)gbt_regression_feature_importance____id___.run()# @output {"label":"dataframe","name":"gbt_regression_feature_importance____id___.get_outputs()['output_port_1']","type":"DataFrame"}
  • 样例 inputs = { "dataframe": None # @input {"label":"dataframe","type":"DataFrame"}}params = { "inputs": inputs, "select_column_name": "", # @param {"label":"select_column_name","type":"string","required":"true","helpTip":""} "string_bucket_show_num": 10, # @param {"label":"string_bucket_show_num","type":"integer","required":"true","helpTip":""} "numerical_bucket_show_num": 10, # @param {"label":"numerical_bucket_show_num","type":"integer","required":"true","helpTip":""} "numerical_interval": 0.05 # @param {"label":"numerical_interval","type":"float","required":"true","helpTip":""}}plot_bar_chart____id___ = MLSPlotBarChart(**params)plot_bar_chart____id___.run()
  • 样例 inputs = { "dataframe": None # @input {"label":"dataframe","type":"DataFrame"}}params = { "inputs": inputs, "select_column_name": "", # @param {"label":"select_column_name","type":"string","required":"true","helpTip":""} "numeric_intervals_str": "", # @param {"label":"numeric_intervals_str","type":"string","required":"false","helpTip":""} "numeric_interval_length": "", # @param {"label":"numeric_interval_length","type":"string","required":"false","helpTip":""} "show_share_number": 5, # @param {"label":"show_share_number","type":"integer","required":"false","range":"(0,2147483647]","helpTip":""} "figure_length": "", # @param {"label":"figure_length","type":"integer","required":"false","range":"(0,2147483647]","helpTip":""} "figure_width": "" # @param {"label":"figure_width","type":"integer","required":"false","range":"(0,2147483647]","helpTip":""}}plot_pie____id___ = MLSPlotPie(**params)plot_pie____id___.run()
  • 输入 参数 子参数 参数说明 inputs dataframe 参数必选,表示输入的数据集;如果没有pipeline_model和gbt_regressor_model参数,表示直接根据数据集训练梯度提升树回归模型得到特征重要性 pipeline_model 参数可选,如果含有该参数,表示根据上游的pyspark pipeline模型对象pipeline_model来计算特征重要性 gbt_regressor_model 参数可选,如果含有该参数,表示根据上游的gbt_regressor_model对象来计算特征重要性
  • 参数说明 参数 子参数 参数说明 select_column_name - 选择列的列名 numeric_intervals_str - 画饼形图时,每个区间的长度组成的字符串,逗号隔开 numeric_interval_length - 如果numeric_intervals_str没有设置,默认饼形图的每个区间的长度一样,numeric_interval_length表示此时的区间长度 show_share_number - 饼形图的份额数目,默认为5 figure_length - 图的长度 figure_width - 图的宽度
  • 样例 inputs = { "dataframe": None # @input {"label":"dataframe","type":"DataFrame"}}params = { "inputs": inputs, "select_columns_str": "", # @param {"label":"select_columns_str","type":"string","required":"true","helpTip":""} "start_index": 0, # @param {"label":"start_index","type":"integer","required":"true","helpTip":""} "end_index": 0, # @param {"label":"end_index","type":"integer","required":"true","helpTip":""} "figure_length": 30, # @param {"label":"figure_length","type":"integer","required":"false","helpTip":""} "figure_width": 10 # @param {"label":"figure_width","type":"integer","required":"false","helpTip":""}}plot_line____id___ = MLSPlotLine(**params)plot_line____id___.run()
  • 样例 inputs = { "dataframe": None # @input {"label":"dataframe","type":"DataFrame"}}params = { "inputs": inputs, "select_columns_str": "" # @param {"label":"select_columns_str","type":"string","required":"true","helpTip":""}}box_plot____id___ = MLSBoxPlot(**params)box_plot____id___.run()
  • 样例 inputs = { "dataframe": None # @input {"label":"dataframe","type":"DataFrame"}}params = { "inputs": inputs, "start_index": "", # @param {"label":"start_index","type":"integer","required":"true","range":"[0,2147483647]","helpTip":""} "end_index": "", # @param {"label":"end_index","type":"integer","required":"true","range":"[0,2147483647]","helpTip":""} "x_axis_column_name": "", # @param {"label":"x_axis_column_name","type":"string","required":"false","helpTip":""} "y_axis_columns_str": "", # @param {"label":"y_axis_columns_str","type":"string","required":"false","helpTip":""} "figure_length": "", # @param {"label":"figure_length","type":"integer","required":"false","range":"[0,2147483647]","helpTip":""} "figure_width": "" # @param {"label":"figure_width","type":"integer","required":"false","range":"[0,2147483647]","helpTip":""}}plot_scatter____id___ = MLSPlotScatter(**params)plot_scatter____id___.run()
  • 样例 inputs = { "dataframe": None # @input {"label":"dataframe","type":"DataFrame"}}params = { "inputs": inputs, "new_column_name_map_str": "" # @param {"label":"new_column_name_map_str","type":"string","required":"true","helpTip":""}}change_column_name____id___ = MLSChangeColumnName(**params)change_column_name____id___.run()# @output {"label":"dataframe","name":"change_column_name____id___.get_outputs()['output_port_1']","type":"DataFrame"}
  • 参数说明 参数 子参数 参数说明 start_index - 只对数据集转成的数组的某个区间内元素化散点图,start_index表示开始位置 end_index - 只对数据集转成的数组的某个区间内元素化散点图,end_index表示结束位置 x_axis_column_name - 散点图x轴的列名 y_axis_columns_str - 散点图y轴的某些列,y_axis_columns_str表示用列名逗号隔开的字符串 figure_length - 图的长度 figure_width - 图的宽度
  • 样例 inputs = { "left_dataframe": None, # @input {"label":"left_dataframe","type":"DataFrame"} "right_dataframe": None # @input {"label":"right_dataframe","type":"DataFrame"}}params = { "inputs": inputs}column_append____id___ = MLSColumnAppend(**params)column_append____id___.run()# @output {"label":"dataframe","name":"column_append____id___.get_outputs()['output_port_1']","type":"DataFrame"}
  • 参数说明 参数 子参数 参数说明 input_columns_str - 数据集的特征列名组成的格式化字符串,例如: "column_a" "column_a,column_b" label_col - 目标列名 model_input_features_col - 特征向量的列名 prediction_col - 训练模型时,预测结果对应的列名,默认为"prediction" max_depth - 树的最大深度,默认为5 max_bins - 特征分裂时的最大分箱个数,默认为32 min_instances_per_node - 树分裂时要求每个节点必须包含的实例数目,默认为1 min_info_gain - 最小信息增益,默认为0.0 subsampling_rate - 训练每棵树时,对训练集的抽样率,默认为1.0 num_trees - 树的个数,默认为20 feature_subset_strategy - 每个树节点分裂时使用的特征个数,默认为"auto"
共100000条