AI开发平台MODELARTS-准备数据:声音分类的数据要求

时间:2024-08-27 15:16:52

声音分类的数据要求

  • 音频只支持16bit的WAV格式。支持WAV的所有子格式。
  • 单条音频时长应大于1s,大小不能超过4MB。
  • 适当增加训练数据,会提升模型的精度。声音分类建议每类音频至少50条,每类音频总时长至少5分钟。
  • 建议训练数据和真实识别场景的声音保持一致并且每类的音频尽量覆盖真实环境的所有场景。
  • 训练集的数据质量对于模型的精度有很大影响,建议训练集音频的采样率和采样精度保持一致。
  • 标注质量对于最终的模型精度有极大的影响,标注过程中尽量不要出现误标情况。
  • 音频标注涉及到的标注标签和声音内容只支持中文和英文,不支持小语种。
support.huaweicloud.com/exemlug-modelarts/modelarts_21_0021.html