93 lines
2.9 KiB
Python
93 lines
2.9 KiB
Python
|
import datasets
|
||
|
|
||
|
Features = {}
|
||
|
|
||
|
# 项目早期所使用的数据集字段,后续会在更新过程中逐渐废弃
|
||
|
Features['TEXT_CORPUS_LEGACY'] = datasets.Features(
|
||
|
{
|
||
|
"text": datasets.Value("string"),
|
||
|
"meta": datasets.Value("string")
|
||
|
}
|
||
|
)
|
||
|
|
||
|
# 文本数据集所使用的格式
|
||
|
Features['TEXT_CORPUS'] = datasets.Features(
|
||
|
{
|
||
|
"文件名": datasets.Value("string"),
|
||
|
"是否待查文件": datasets.Value("bool"),
|
||
|
"是否重复文件": datasets.Value("bool"),
|
||
|
"文件大小": datasets.Value("int64"),
|
||
|
"simhash": datasets.Value("string"), # for issue https://github.com/huggingface/datasets/issues/6007
|
||
|
"最长段落长度": datasets.Value("int64"),
|
||
|
"段落数": datasets.Value("int64"),
|
||
|
"去重段落数": datasets.Value("int64"),
|
||
|
"低质量段落数": datasets.Value("int64"),
|
||
|
"段落": [
|
||
|
datasets.Features(
|
||
|
{
|
||
|
"行号": datasets.Value("int64"),
|
||
|
"是否重复": datasets.Value("bool"),
|
||
|
"是否跨文件重复": datasets.Value("bool"),
|
||
|
"md5": datasets.Value("string"),
|
||
|
"内容": datasets.Value("string"),
|
||
|
}
|
||
|
)
|
||
|
]
|
||
|
}
|
||
|
)
|
||
|
|
||
|
# 问答数据所使用的格式
|
||
|
Features['QA_CORPUS'] = datasets.Features(
|
||
|
{
|
||
|
"id": datasets.Value("string"),
|
||
|
"问": datasets.Value("string"),
|
||
|
"答": datasets.Value("string"),
|
||
|
"来源": datasets.Value("string"),
|
||
|
"元数据": {
|
||
|
"create_time": datasets.Value("string"),
|
||
|
"问题明细": datasets.Value("string"),
|
||
|
"回答明细": datasets.Value("string"),
|
||
|
"扩展字段": datasets.Value("string"),
|
||
|
}
|
||
|
}
|
||
|
)
|
||
|
|
||
|
# 代码数据所使用的格式
|
||
|
Features['CODE_CORPUS'] = datasets.Features(
|
||
|
{
|
||
|
"来源": datasets.Value("string"),
|
||
|
"仓库名": datasets.Value("string"),
|
||
|
"path": datasets.Value("string"),
|
||
|
"文件名": datasets.Value("string"),
|
||
|
"ext": datasets.Value("string"),
|
||
|
"size": datasets.Value("int64"),
|
||
|
"原始编码": datasets.Value("string"),
|
||
|
"md5": datasets.Value("string"),
|
||
|
"text": datasets.Value("string")
|
||
|
}
|
||
|
)
|
||
|
|
||
|
# 论坛对话语料
|
||
|
Features['FORUM_DIALOGUE'] = datasets.Features(
|
||
|
{
|
||
|
"ID": datasets.Value('int32'),
|
||
|
"主题": datasets.Value("string"),
|
||
|
"来源": datasets.Value("string"),
|
||
|
"回复": [
|
||
|
datasets.Features(
|
||
|
{
|
||
|
"楼ID": datasets.Value("string"),
|
||
|
"回复": datasets.Value("string"),
|
||
|
"扩展字段": datasets.Value("string"),
|
||
|
}
|
||
|
)
|
||
|
],
|
||
|
"元数据": {
|
||
|
"发帖时间": datasets.Value("string"),
|
||
|
"回复数": datasets.Value("int32"),
|
||
|
"扩展字段": datasets.Value("string")
|
||
|
}
|
||
|
}
|
||
|
)
|
||
|
|