阅读(286) 书签 (0)

文心千帆数据增强使用说明

2023-07-19 16:36 更新

什么是数据增强

平台支持对文本数据集进行数据增强。当在实践中无法收集到数目庞大的高质量数据时,可以通过数据增强策略,对数据本身进行一定程度的扰动和扩充,从而产生"新"数据。在训练时会通过学习大量的"新"数据,提高模型的泛化能力。

注意文本数据增强功能仅支持增强未发布的非空数据集。

登录到文心千帆大模型操作台,在左侧功能列数据处理中选择数据增强,进入数据增强的主任务界面。

创建数据增强任务

在数据处理-数据增强页面中,选择“创建任务”。

image.png

  • 处理前数据集:存放增强前的源数据。
  • 处理后数据集:存放增强后的数据。

增强配置方案

以下增强配置方案,在创建数据增强任务时,请至少选择一种:

方案类型方案描述增强示例
近义词替换加载word2vec词典对于输入的tokens进行分词,并以15%的概率进行近义词的搜索替换。处理前:AI技术可以模拟人类智能,实现机器自主学习、理解、判断和推理,能够广泛应用于医疗、金融、教育、交通、制造等各个领域。
处理后:AI技术可以模拟人类智能,实现机器自主学习、理解和判定和推理,能够广泛运用于医疗保健、金融管理、教育、交通、制造等各个领域。
随机删除采用SpanBert中的 span masking,对每个句子,迭代式的采样Span,直到整个句子的Masked tokens达到15%。对于满足条件的token进行删除。处理前:AI技术可以模拟人类智能,实现机器自主学习、理解、判断和推理,能够广泛应用于医疗、金融、教育、交通、制造等各个领域。
处理后:AI技可以模拟人类智能现机学习、理解、判断和推理,能够广泛应用于医疗、金融、教育、交通、制造等各个领域
随机mask对每个句子,迭代式的采样Span,直到整个句子的Masked tokens达到15%。对于满足条件的token进行mask。处理前:AI技术可以模拟人类智能,实现机器自主学习、理解、判断和推理,能够广泛应用于医疗、金融、教育、交通、制造等各个领域。
处理后:AI技术可以模拟人类image.png,实现机器自主学习、理解、判断和推理,能够广泛应用于医疗、金融、教育、交通、制造等各个领域
同词性替换使用LAC分词工具,对文件中的所有数据进行分词操作,然后构建一个词性字典,字典的key为token的词性(tag),value为存放相应token的list,然后对于文件中的每一条数据,以15%的概率对文本中的token进行词性替换。处理前:AI技术可以模拟人类智能,实现机器自主学习、理解、判断和推理,能够广泛应用于医疗、金融、教育、交通、制造等各个领域。
处理后:AI技术可以能够人类智能,实现机器自主学习、理解、判断和推理,判断广泛应用于医疗、领域、推理、交通、教育等各个领域。
同音词替换采用同音词汇进行原文替换,达到数据增强的目的。不考虑拼音声调,可以设置是否考虑常见方言读音误读,如 zh 与 z 不分,eng 与 en 不分,f 与 h 不分,l 与 n 不分等情况;替换时,优先使用常用词汇(依据词频而定)。处理前:AI技术可以模拟人类智能,实现机器自主学习、理解、判断和推理,能够广泛应用于医疗、金融、教育、交通、制造等各个领域。
处理后:AI急速可以模拟人类智能,实现机器自主学习、理解、判断和推理,能够广泛应用于医疗、金融、教育、交通、制造等各个领域。

增强处理中策略

  • 串行叠加:每段文本都按顺序经过所选算子的处理,各个算子的效果叠加在每段文本。
  • 并行遍历:每段文本分别经过各个所选算子的处理,对应各个算子都分别产生一段新文本。完成以上所有配置后点击“确定”,完成数据增强任务的创建。

查看数据增强任务

任务提交后,您可至“增强任务管理”页面,查看增强状态和任务详情。

image.png

任务管理界面可以删除此数据增强任务,但是已经发起的增强数据集版本不受影响,仍然会进行增强任务。