AI开发平台MODELARTS-创建ModelArts数据增强任务:数据域迁移算子(CycleGan算子)

时间:2024-08-16 20:38:57

数据域迁移算子(CycleGan算子)

基于CycleGAN用于生成域迁移的图像,即将一类图片转换成另一类图片,把X空间中的样本转换成Y空间中的样本。CycleGAN可以利用非成对数据进行训练。模型训练时运行支持两个输入,分别代表数据的原域和目标域,在训练结束时会生成所有原域向目标域迁移的图像。
图5 CycleGan算子
表3 CycleGan算子高级参数

参数名

默认值

参数说明

do_validation

True

是否进行数据校验,默认为True,表示数据生成前需要进行数据校验,否则只进行数据生成。

image_channel

3

生成图像的通道数。

image_height

256

图像相关参数:生成图像的高,大小需要是2的次方。

image_width

256

图像相关参数:生成图像的宽,大小需要是2的次方

batch_size

1

训练相关参数:批量训练样本个数。

max_epoch

100

训练相关参数:训练遍历数据集次数。

g_learning_rate

0.0001

训练相关参数:生成器训练学习率。

d_learning_rate

0.0001

训练相关参数:判别器训练学习率。

log_frequency

5

训练相关参数:日志打印频率(按step计数)。

save_frequency

5

训练相关参数:模型保存频率(按epoch计数)。

predict

False

是否进行推理预测,默认为False。如果设置True,需要在resume参数设置已经训练完成的模型的obs路径。

resume

empty

如果predict设置为True,需要填写Tensorflow模型文件的obs路径用于推理预测。当前仅支持“.pb”格式的模型。示例:obs://xxx/xxxx.pb。

默认值为empty。

  • 输入说明

    算子输入分为两种,“数据集”“OBS目录”

    • 选择“数据集”,请从下拉框中选择ModelArts中管理的数据集及其版本。要求数据集类型与您在本任务中选择的场景类别一致。
    • 选择“OBS目录”,图像生成算子不需要标注信息,输入支持单层级或双层级目录,存放结构支持“单层级”“双层级”模式。

    单层级目录结构如下所示:

    image_folder----0001.jpg           
                ----0002.jpg            
                ----0003.jpg            
                ...            
                ----1000.jpg

    双层级目录结构如下所示:

    image_folder----sub_folder_1----0001.jpg                            
                                ----0002.jpg                            
                                ----0003.jpg                            
                                ...                            
                                ----0500.jpg            
                ----sub_folder_2----0001.jpg                            
                                ----0002.jpg                           
                                ----0003.jpg                            
                                ...                            
                                ----0500.jpg
                                ...            
                ----sub_folder_100----0001.jpg                            
                                  ----0002.jpg                            
                                  ----0003.jpg                            
                                  ...                            
                                  ----0500.jpg
  • 输出说明

    输出目录的结构如下所示。其中“model”文件夹存放用于推理的“frozen pb”模型,“samples”文件夹存放训练过程中输出图像,“Data”文件夹存放训练模型生成的图像。

    train_url----model----CYcleGan_epoch_10.pb                  
                      ----CYcleGan_epoch_20.pb                  
                      ...                 
                      ----CYcleGan_epoch_1000.pb         
             ----samples----0000_0.jpg                   
                       ----0000_1.jpg                  
                       ...                   
                       ----0100_15.jpg         
             ----Data----CYcleGan_0_0.jpg                 
                     ----CYcleGan_0_1.jpg                 
                     ...                 
                     ----CYcleGan_16_8.jpg         
             ----output_0.manifest

    其中manifest文件内容示例如下所示。

    {
    	"id": "xss",
    	"source": "obs://home/fc8e2688015d4a1784dcbda44d840307_14.jpg",
    	"usage": "train", 
    	"annotation": [
    		{
    			"name": "Cat", 
    			"type": "modelarts/image_classification"
    		}
    	]
    }
support.huaweicloud.com/usermanual-standard-modelarts/dataprocess-modelarts-00017.html