沉积学知识图谱中实体识别

赛道开始时间：2022-04-18 00:00:00 赛道截止时间：2022-07-07 00:00:00

一、赛题名称沉积学知识图谱中实体识别

二、赛题简介近年来，沉积学领域的学者将研究热点转向文本文献，这是因为文本文献中含有丰富的语义关系与关键信息特征。然而，人工智能已经成功地对多种文本实体进行建模与学习。本赛题关注自动构建领域文献的数据集以完成信息提取生成这一任务，以沉积学 PDF 文本为输入信号，提取对应的文本内关键实体。

三、功能要求如图 1 所示，本赛题要求参赛者从提供的沉积学文献中识别出所涉及到的关键信息，包括但不限于：

（1）物质信息：群组、生物、地层等（例如群组单词 Formation，还需识别出前面 A 或 B 关键词，形成有研究价值关键词，A Formation 或 A B Formation）。

（2）时间信息：时期（例如白垩纪时期，还需识别出前面修饰词形成有研究价值关键词，早白垩纪时期）、MA（百万年）等。

（3）地点信息：山脉等。数据集说明：（1）数据集包含但不仅限于本赛题所提供数据集，可自行设计生成数据集方法，或改良本赛题所提供的数据集生成方法。

输入输出说明：（1）输入为文本数据可自行下载补充，但文本要为互联网公开语料，格式为 PDF。（2）输出为提取的关键信息，其中至少分成物质信息、时间信息、地点信息三种情况。

实验效果说明：（1）如图二所示，本赛道已用 BiLSTM-CRF 命名体识别模型，最终各标签准确率均要大于基准模型准确率。

图 1：沉积学语句抽取用例可视化

图 2：模型各标签准确率

四、实现条件

开发语言：推荐 Python

操作系统：windows

运行环境：PyTorch 或 Tensorflow

五、赛题数据本赛题提供沉积学数据集。该数据集包含训练集、验证集与测试集。比赛开始后将公布训练集与验证集，测试语句列表将在作品提交截止日期前 3 天公布。

数据集与案例模型下载链接为： https://github.com/zhichen-roger/Sedimentological-data-sets.git

六、作品提交要求

1、模型设计报告，采用规定英文模板撰写并提交。需要给出模型在验证集、测试集上的评价指标和各标签指标；

2、模型训练代码、模型权重。需要给出相关依赖软件包版本号，保证可复现性；

3、模型在给定测试语句列表上的生成结果演示视频（≤3 分钟）。测试语句列表将在作品提交截止日期前 3 天公布。

七、评分标准比赛最终得分由初赛预测评测指标、报告及演示视频得分、答辩现场表现得分三部分构成，上述三部分得分占比分别为 40%、30%、 30%。参赛队伍提交的模型将在测试语句集上通过识别种类、实际识别误差、算法准确率、算法耗时这 4 种评价指标进行性能评测。评价指标的详细定义以及代码实现见数据集与识别模型的下载链接。

国际“远见杯”元智能数据挑战大赛组委会

2022 年 3 月