沉积学知识图谱中实体识别
赛道开始时间:2022-04-18 00:00:00 赛道截止时间:2022-07-07 00:00:00
一、赛题名称 沉积学知识图谱中实体识别
二、赛题简介 近年来,沉积学领域的学者将研究热点转向文本文献,这是因为 文本文献中含有丰富的语义关系与关键信息特征。然而,人工智能已 经成功地对多种文本实体进行建模与学习。本赛题关注自动构建领域 文献的数据集以完成信息提取生成这一任务,以沉积学 PDF 文本为 输入信号,提取对应的文本内关键实体。
三、功能要求 如图 1 所示,本赛题要求参赛者从提供的沉积学文献中识别出所 涉及到的关键信息,包括但不限于:
(1)物质信息:群组、生物、地层等(例如群组单词 Formation, 还需识别出前面 A 或 B 关键词,形成有研究价值关键词,A Formation 或 A B Formation)。
(2)时间信息:时期(例如白垩纪时期,还需识别出前面修饰 词形成有研究价值关键词,早白垩纪时期)、MA(百万年)等。
(3)地点信息:山脉等。 数据集说明: (1)数据集包含但不仅限于本赛题所提供数据集,可自行设计 生成数据集方法,或改良本赛题所提供的数据集生成方法。
输入输出说明: (1)输入为文本数据可自行下载补充,但文本要为互联网公开 语料,格式为 PDF。(2)输出为提取的关键信息,其中至少分成物质信息、时间信 息、地点信息三种情况。
实验效果说明: (1)如图二所示,本赛道已用 BiLSTM-CRF 命名体识别模型, 最终各标签准确率均要大于基准模型准确率。
图 1:沉积学语句抽取用例可视化
图 2:模型各标签准确率
四、实现条件
开发语言:推荐 Python
操作系统:windows
运行环境:PyTorch 或 Tensorflow
五、赛题数据 本赛题提供沉积学数据集。该数据集包含训练集、验证集与测试 集。比赛开始后将公布训练集与验证集,测试语句列表将在作品提交 截止日期前 3 天公布。
数据集与案例模型下载链接为: https://github.com/zhichen-roger/Sedimentological-data-sets.git
六、作品提交要求
1、 模型设计报告,采用规定英文模板撰写并提交。需要给出模 型在验证集、测试集上的评价指标和各标签指标;
2、 模型训练代码、模型权重。需要给出相关依赖软件包版本号, 保证可复现性;
3、 模型在给定测试语句列表上的生成结果演示视频(≤3 分钟)。 测试语句列表将在作品提交截止日期前 3 天公布。
七、评分标准 比赛最终得分由初赛预测评测指标、报告及演示视频得分、答辩 现场表现得分三部分构成,上述三部分得分占比分别为 40%、30%、 30%。参赛队伍提交的模型将在测试语句集上通过识别种类、实际识 别误差、算法准确率、算法耗时这 4 种评价指标进行性能评测。评价 指标的详细定义以及代码实现见数据集与识别模型的下载链接。
国际“远见杯”元智能数据挑战大赛组委会
2022 年 3 月