阅读(173) 书签赞(0)

文心千帆创建数据集

2023-07-19 15:08 更新

平台支持统一纳管自训模型的数据集，并对数据样本集可自主进行版本迭代、继续导入和删除等操作。

登录到文心千帆大模型操作台，在左侧功能列选择数据集管理，进入数据集管理主任务界面。

其中不同标注类型的文本，将用于不同的模型训练方式，重点关注标注类型相关内容，单/多轮对话区别和示例可文中进行参考。

列表查看

数据集支持对已经建立的数据按数据集组为粒度分行展示。如下图所示：

可根据实际需求对上图中的字段进行名称变更、新增版本、导入数据和删除等操作。

创建数据集

需输入数据集名称，默认数据类型为文本，数据集版本从V1开始迭代，“完成创建”即可创建一个空数据集，“创建并导入”则直接进入数据导入页面。

标注类型

标注类型分为以下类型：

文本对话非排序模版：单轮或多轮的文本对话数据，单个提问和回答一一对应，作为后续SFT、 prompt tuning以及delta tuning的训练输入。含排序模版：单轮或多轮的文本对话数据，单个提问对应多个回答，需要对多个回答进行排序，作为后续奖励模型的训练输入。
query问题集：单轮或多轮的提问语料数据，作为后续RLHF的训练输入。

导入数据

创建数据集后，在数据集管理页面中，找到该数据集，点击右侧操作列下的“导入”按钮，即可进入导入数据页面。其中导入对话文本数据可参考文本对话数据导入,导入query问题集数据可参考query问题集数据导入。已发布的数据集版本，不再支持导入。

新增数据集版本

如您在本数据集的基础上想要增加版本，可以选择“新增版本”按钮，新版本数据可以选择是否继承历史版本，如不继承，可重新选择标注类型。

准备数据集的技巧

可参考以下准备数据集的技巧：

设计分类

首先想好分类如何设计，每个分类为你希望识别出的一种结果，如要识别新闻的内容类型，则可以以“科技”、“体育”、“农业”等分别作为一个分类标准；如果审核场景中通过文本判断是否出现广告，可以设计为两类设计为“正常”、“不正常”两类，或者“正常”、“异常原因一”、“异常原因二”、“异常原因三”等多类。

注意：目前单个模型的上限为1000类，如果要超过这个量级请在百度云控制台内提交工单反馈。

数据量

基于设计好的分类准备文本数据，每个分类建议至少需要准备50个文本文件以上，如果想要较好的效果，建议文件1000个起，如果某些分类的文本具有相似性，需要增加更多文本。

文本的基本格式要求：目前文本文件类型支持txt，文本文件大小限制长度最大4096，格式为UTF-8字符。一个模型的文本总量限制10万个文本文件。

数据分布

训练集文本需要和实际场景要识别的文本环境一致。
考虑实际应用场景的种种可能性，每个分类的文本需要覆盖实际场景里面存在的可能性，训练集若能覆盖的场景越多，模型的泛化能力则越强。

可能的疑问

如果训练文本数据无法全部覆盖实际场景要识别的文本，怎么办？

答：训练的模型算法会有一定的泛化能力，尽可能覆盖即可。

多语种模型支持全球94种语言：

南非语, 阿姆哈拉语, 阿拉伯语, 阿萨姆语, 阿塞拜疆语, 白俄罗斯语, 保加利亚语, 孟加拉语, 孟加拉语(拉丁化), 布列塔尼语, 波斯尼亚语, 加泰隆语, 捷克语, 威尔士语, 丹麦语, 德语, 希腊语, 英语, 世界语, 西班牙语, 爱沙尼亚语, 巴斯克语, 波斯语, 芬兰语, 法语, 弗里斯兰语, 爱尔兰语, 苏格兰盖尔语, 加利西亚语, 古吉拉特语, 希伯来语, 印地语, 印地语(拉丁化), 克罗地亚语, 匈牙利语, 亚美尼亚语, 印尼语, 冰岛语, 意大利语, 日语, 爪哇语, 格鲁吉亚语, 哈萨克语, 高棉语, 康纳达语, 韩语, 库尔德语, 柯尔克孜语, 拉丁语, 老挝语, 立陶宛语, 拉脱维亚语, 马拉加斯语, 马其顿语, 马拉亚拉姆语, 蒙古语, 马拉提语, 马来语, 缅甸语, 尼泊尔语, 荷兰语, 挪威语, 奥里亚语, 旁遮普语, 巴利语, 普什图语, 葡萄牙语, 罗马尼亚语, 俄语, 梵语, 信德语, 僧伽罗语, 斯洛伐克语, 斯洛文尼亚语, 索马里语, 阿尔巴尼亚语, 塞尔维亚语, 巽他语, 瑞典语, 斯瓦希里语, 泰米尔语, 泰米尔语(拉丁化), 泰卢固语, 泰卢固语(拉丁化), 泰语, 他加禄语, 土耳其语, 维吾尔语, 乌克兰语, 乌尔都语, 乌尔都语(拉丁化), 乌兹别克斯坦语, 越南语, 意第绪语。

如果需要寻求第三方数据采集团队协助数据采集，请在百度云控制台内提交工单反馈。

← 文心千帆数据服务使用说明

文心千帆导入文本对话数据 →