阅读(660) 书签赞(0)

文心千帆数据增强使用说明

2023-07-19 16:36 更新

什么是数据增强

平台支持对文本数据集进行数据增强。当在实践中无法收集到数目庞大的高质量数据时，可以通过数据增强策略，对数据本身进行一定程度的扰动和扩充，从而产生"新"数据。在训练时会通过学习大量的"新"数据，提高模型的泛化能力。

注意文本数据增强功能仅支持增强未发布的非空数据集。

登录到文心千帆大模型操作台，在左侧功能列数据处理中选择数据增强，进入数据增强的主任务界面。

创建数据增强任务

在数据处理-数据增强页面中，选择“创建任务”。

处理前数据集：存放增强前的源数据。
处理后数据集：存放增强后的数据。

增强配置方案

以下增强配置方案，在创建数据增强任务时，请至少选择一种：

方案类型	方案描述	增强示例
近义词替换	加载word2vec词典对于输入的tokens进行分词，并以15%的概率进行近义词的搜索替换。	处理前：AI技术可以模拟人类智能，实现机器自主学习、理解、判断和推理，能够广泛应用于医疗、金融、教育、交通、制造等各个领域。处理后：AI技术可以模拟人类智能，实现机器自主学习、理解和判定和推理，能够广泛运用于医疗保健、金融管理、教育、交通、制造等各个领域。
随机删除	采用SpanBert中的 span masking，对每个句子，迭代式的采样Span，直到整个句子的Masked tokens达到15%。对于满足条件的token进行删除。	处理前：AI技术可以模拟人类智能，实现机器自主学习、理解、判断和推理，能够广泛应用于医疗、金融、教育、交通、制造等各个领域。处理后：AI技可以模拟人类智能现机学习、理解、判断和推理，能够广泛应用于医疗、金融、教育、交通、制造等各个领域
随机mask	对每个句子，迭代式的采样Span，直到整个句子的Masked tokens达到15%。对于满足条件的token进行mask。	处理前：AI技术可以模拟人类智能，实现机器自主学习、理解、判断和推理，能够广泛应用于医疗、金融、教育、交通、制造等各个领域。处理后：AI技术可以模拟人类，实现机器自主学习、理解、判断和推理，能够广泛应用于医疗、金融、教育、交通、制造等各个领域
同词性替换	使用LAC分词工具，对文件中的所有数据进行分词操作，然后构建一个词性字典，字典的key为token的词性（tag），value为存放相应token的list，然后对于文件中的每一条数据，以15%的概率对文本中的token进行词性替换。	处理前：AI技术可以模拟人类智能，实现机器自主学习、理解、判断和推理，能够广泛应用于医疗、金融、教育、交通、制造等各个领域。处理后：AI技术可以能够人类智能，实现机器自主学习、理解、判断和推理，判断广泛应用于医疗、领域、推理、交通、教育等各个领域。
同音词替换	采用同音词汇进行原文替换，达到数据增强的目的。不考虑拼音声调，可以设置是否考虑常见方言读音误读，如 zh 与 z 不分，eng 与 en 不分，f 与 h 不分，l 与 n 不分等情况；替换时，优先使用常用词汇（依据词频而定）。	处理前：AI技术可以模拟人类智能，实现机器自主学习、理解、判断和推理，能够广泛应用于医疗、金融、教育、交通、制造等各个领域。处理后：AI急速可以模拟人类智能，实现机器自主学习、理解、判断和推理，能够广泛应用于医疗、金融、教育、交通、制造等各个领域。

增强处理中策略

串行叠加：每段文本都按顺序经过所选算子的处理，各个算子的效果叠加在每段文本。
并行遍历：每段文本分别经过各个所选算子的处理，对应各个算子都分别产生一段新文本。完成以上所有配置后点击“确定”，完成数据增强任务的创建。

查看数据增强任务

任务提交后，您可至“增强任务管理”页面，查看增强状态和任务详情。

任务管理界面可以删除此数据增强任务，但是已经发起的增强数据集版本不受影响，仍然会进行增强任务。

← 文心千帆数据清洗使用说明

文心千帆数据回流使用说明 →