全球实时:一个有效的图表图像数据提取框架
在本文中,作者通过采用最先进的计算机视觉技术,在数据挖掘系统的数据提取阶段,填补了研究的空白。如图1所示,该阶段包含两个子任务,即绘制元素检测和数据转换。为了建立一个鲁棒的Box detector,作者综合比较了不同的基于深度学习的方法,并找到了一种合适的高精度的边框检测方法。为了建立鲁棒point detector,采用了带有特征融合模块的全卷积网络,与传统方法相比,可以区分近点。该系统可以有效地处理各种图表数据,而不需要做出启发式的假设。在数据转换方面,作者将检测到的元素转换为具有语义值的数据。提出了一种网络来测量图例匹配阶段图例和检测元素之间的特征相似性。此外,作者还提供了一个关于从信息图表中获取原始表格的baseline,并发现了一些关键的因素来提高各个阶段的性能。实验结果证明了该系统的有效性。
(资料图)
图表数据是一种重要的信息传输媒介,它能简洁地分类和整合困难信息。近年来,越来越多的图表图像出现在多媒体、科学论文和商业报告中。因此,从图表图像中自动提取数据的问题已经引起了大量的研究关注。
如图1所示,图表数据挖掘系统一般包括以下六个阶段:图表分类、文本检测和识别、文本角色分类、轴分析、图例分析和数据提取。在上述所有阶段中,数据提取是最关键、最困难的部分,其性能取决于定位的质量。在本工作中,作者主要讨论了数据提取阶段。本阶段的目标是检测地块区域中的元素,并将它们转换为具有语义的数据标记。
如图2所示,该任务有两个子任务:绘图元素检测和数据转换
作者从目标检测领域学习方法,建立了一个鲁棒的数据提取系统。然而,应该清楚的是,图表图像与自然图像有明显的不同。如图3所示,(a)是来自COCO数据集的图像,(b)是来自合成图表数据集的图像。首先,与一般对象相比,图表图像中的元素具有很大范围的长宽比和大小。图表图像包含了不同元素的组合。这些元素可以是非常短的,比如数字点,也可以是长的,比如标题。其次,图表图像对定位精度高度敏感。虽然在0.5到0.7范围内的IoU值对于一般的目标检测是可接受的,但对于图表图像则是不可接受的。如图3b所示,即使当IoU为0.9时,在条形图像上仍有较小的数值偏差,这显示了图表图像对IoU的敏感性。因此,对于图表数据的提取,检测系统需要高精度的边框或点,即具有较高的IoU值。
因此,对于图表数据的提取,检测系统需要高精度的边界边框或点,即具有较高的IoU值。
目前,最先进的计算机视觉技术还没有被图表挖掘方法完全采用。此外,使用基于深度学习的方法进行图表挖掘的比较也很少。人们认为,基于深度学习的方法可以避免硬启发式假设,并且在处理各种真实图表数据时更稳健。在本研究中,作者使用已发表的真实数据集,试图填补数据提取阶段的这一研究空白。在所提出的框架中,首先检测到主区域中的元素。基于数据挖掘系统中前几个阶段的轴分析和图例分析结果,作者将检测到的元素转换为具有语义值的数据标记。这项工作的贡献可以总结如下。(i)为了构建一个鲁棒的Box detector,作者综合比较了不同的基于深度学习的方法。作者主要研究现有的目标检测方法是否适用于条型元素检测。特别是,它们应该能够(1)检测具有较大长宽比范围的元素,并能够(2)定位具有较高IoU值的对象。(ii)为了构建一个鲁棒的point detector,作者使用一个带有特征融合模块的全卷积网络(FCN)来输出一个热图掩模。它能很好地区分近点,而传统的方法和基于检测的方法很容易失败。(iii)在数据转换的图例匹配阶段,一个网络被训练来测量特征相似性。当特征提取阶段存在噪声时,它比基于图像的特征具有鲁棒性。最后,作者提供了一个公共数据集的baseline,这可以促进进一步的研究。
三、方法介绍作者所提出的方法的总体架构如图4所示。在功能上,该框架由三个组成部分组成:一个预先训练好的图表分类模型,用于检测边框或点的元素检测模块,以及用于确定元素值的数据转换。在下面的部分中,作者首先介绍box detector和point detector的细节。接下来,作者将提供数据转换的实现细节。
3.1 Box detector为了提取不同尺度上的鲁棒特征,作者使用了带有FPN的ResNet-50 。FPN使用带有横向连接的自顶向下体系结构,以融合来自单一尺度输入的不同分辨率的特性,使其能够检测具有大高宽比范围的元素。为了检测具有高IoU的边框,作者选择CascadeR-CNN作为作者的box detector。如图5(a)所示,box detector有四个阶段,一个区域候选网络(RPN),三个用于检测。第一个检测阶段的采样遵循Faster R-CNN。在接下来的阶段中,通过简单地使用上one-stage的回归输出来实现重新采样。
3.2 Point detector点是图表数据中的另一个常见的图表元素。如前所述,相应的图表类型包括散点、线和面。一般来下,点密集分布在地块区域,数据以(x,y)的格式表示。在这项工作中,作者使用基于分割的方法来检测点,这可以帮助区分近点。
网络结构
如图5(b)所示,从主干网络中提取了四级的特征图,记为,其大小分别为输入图像的1/16、1/8、1/4和1/2。然后,在上采样阶段,对来自不同深度的特征进行融合。在每个合并阶段中,来自最后一个阶段的特征映射首先被输入到上采样模块,使其大小增加一倍,然后与当前的特征映射连接起来。接下来,使用由两个连续的层构建的融合模块,生成这个合并阶段的最终输出。在最后一个合并阶段之后,然后使用由两个层构建的头模块。最后,将特征图上采样到原图大小。
标签生成
为了训练FCN网络,作者生成了一个热图掩模。二进制映射将轮廓内的所有像素设置为相同的值,但不能反映每个像素之间的关系。与二值分割图相比,作者为掩模上的这些点绘制高斯热图。利用高斯核函数计算了高斯值。如果两个高斯分布重叠,而一个点有两个值,作者使用最大值。
其中(x、y)是掩模上的点坐标,(、)是目标点的中心。σ是一个决定大小的高斯核参数。在这里,作者将σ的值设为2。
后处理
在测试阶段,Point detector输出一个热图掩模。作者首先过滤主绘图区域外的输出噪声。然后,作者使用一个高置信度阈值来输出正区域。通过寻找连接分量的中心,得到最终的点输出。在连通分量分析过程中,对于较大的连通区域,作者也随机选择该区域内的点作为输出。
3.3 数据变换在检测到元素之后,作者需要确定元素的值。在这个阶段,目标是将绘图区域中检测到的元素转换为具有语义值的数据标记。如图6所示,本阶段进行了图例匹配和值计算。
图例匹配:
根据在数据挖掘系统中从第五阶段得到的图例分析结果,作者可以得到图例的位置。如果存在图例,作者需要提取元素和图例的特征。然后利用l2距离来度量特征的相似性,并将元素划分为相应的图例。基于图像的特征,如RGB特征和HSV特征,在检测结果不够紧密时不鲁棒。因此,作者提出训练一个特征模型来度量特征相似性。
该网络直接从patch输入图像x学习映射到嵌入向量。它由多个模块组成,使用conv-BN-ReLU层构建,最后为每个patch输入输出一个128d的嵌入向量。在训练阶段,网络使用三倍的损失进行优化。这种损失的目的是通过一个距离边际将正对和负对分开。同一集群的嵌入向量应该距离较小,不同的集群应该距离较大。在测试阶段,将裁剪后的图例补丁和元素补丁输入到模型中。对于每个元素,在特征维度上距离最小的图例是对应的类。
数值计算:
根据第四阶段得到的轴分析结果,作者可以得到检测到的勾选点的位置及其对应的语义值。然后,作者分析了相邻勾选点之间的数值关系,包括线性或指数的情况。最后,作者计算了单位尺度的值,并使用插值方法来确定元素的值。
四、实验4.1数据集本研究中使用了两组数据集,分别为Synth2020和UB PMC2020。第一个数据集Synth2020,是Synth2019的扩展版本。使用Matplotlib库创建了多个不同类型的图表。第二个数据集是来自PubMedCentral的科学出版物中的真实图表,它具有不同的图像分辨率和更多的图像不确定性。作者将ICPR2020官方训练数据集随机分为训练集和验证集。表1给出了这两个数据集分割的详细信息。
4.2配置细节在Box detector实验中,作者选择条形数据进行训练。主特征提取器是在ImageNet上预先训练过的ResNet-50。在回归阶段,作者采用RoIAlign抽样候选到7x7的固定大小。batch size为8,初始学习率设置为0.01。采用随机梯度下降(SGD)对模型进行优化,训练的最大周期为20。在推理阶段,利用非最大抑制(NMS)来抑制冗余输出。
在point detector实验中,作者选择散点型数据进行训练。在训练阶段,作者使用MSE损失来优化网络。采用多种数据增强,包括随机裁剪、随机旋转、随机翻转和图像失真,以避免过拟合。作者采用OHEM 策略来学习困难样本。正样本和负样本的比例为1:3。使用Adam优化器对模型进行优化,最大迭代次数为30k,batch size为4。
在数据转换实验中,作者训练模型提取特征进行聚类。训练的输入大小为24x24,嵌入维数设置为128。采用Adam优化器对模型进行优化,最大迭代次数为50k。batch size为8,初始学习率设置为0.001。
4.3结果分析Box detector的评估:
当IoU的值分别设置为0.5、0.7、0.9时,用Score_a和f-measure来评估Box detector的性能。Score_a使用ICPR2020竞赛的评价机制。训练后的模型分别在Synth2020验证集和UB PMC2020测试集上进行了测试。由于Synth2020的测试集目前不可用,所以作者使用验证集来测试Synth2020数据集上的模型性能。
为了进行比较,作者实现了不同的检测模型,包括one-stage和two-stage的检测模型。one-stage模型是SSD 和YOLO-v3而two-stage模型是FasterR-CNN。如表2所示,one-stage模型的性能表现最差,多级回归磁头有助于获得较高的精度。此外,附加的FPN结构有效地有助于检测具有较大高宽比范围的元素。在Synth2020和UB PMC2020数据集上,具有FPN结构的Cascade R-CNN模型表现最好。因此,对于条形数据检测,具有多元回归头和FPN结构的模型取得了令人印象深刻的性能。
One-stage模型在早期的迭代中输出了糟糕的结果。同时,NMS不能有效地过滤这些误差输出,如图7(b).所示NMS不能抑制这些输出,因为这些长矩形之间的离子值单位小于0.5由于这些原因,该模型不能达到全局最优解。
Point detector的评估:
在本节中,将根据竞赛中发布的评价机制来评估point detector的性能。训练后的模型在Synth2020验证、UB PMC2020验证和测试集上进行了测试。
作者将作者的方法与传统的图像处理方法,如连接组件分析和基于检测的方法。该检测模型是基于fasterR-CNN。为了训练fasterR-CNN模型,作者将点(x,y)扩展为一个矩形(x−r,y−r,x+r,y+r),其数据格式为(left,top,right,bottom)。作者还实现了另一种基于分割的方法Pose ResNet,该方法最初被提出用于pose point检测。Pose ResNet模型采用了下采样和上采样的结构,没有考虑不同深度的特征融合。
如表3所示,该方法简单而有效,在三个测试集上都优于其他方法。如图8所示,在Synth2020验证集上,有许多情况下,散点被连接并形成一个更大的连接分量。在UB PMC2020测试集上,在情节区域有许多噪声,如文本元素。传统的图像处理方法不能区分构成较大分量的近点。当点数较大或相邻点连接时,基于检测的方法失败。与Pose ResNet相比,特征融合方法有助于区分相邻点,如图8(d).所示该方法能有效地处理这些情况,并准确地定位相邻点。
数据转换特征的鲁棒性:
作者选择行型数据来评估数据转换的性能。数据转换的性能取决于图例匹配阶段和值计算阶段。值计算阶段的性能取决于OCR引擎是否能正确识别勾点值。忽略了OCR引擎引起的误差,作者讨论了从训练网络的图例匹配阶段提取的特征的鲁棒性。如表4所示,作者比较了对ground truth和预测结果进行图例匹配阶段时的性能。对于简短的表示法,这里的s1、s2、s3分别表示平均名称得分、平均数据序列得分和平均得分,这在评估脚本中声明。
当使用ground truth作为输入时,元素的位置是相当准确的。从训练网络中提取的特征与RGB和HSV特征连接后的特征具有可比性。通过考虑特征的级联,可以进一步提高性能。当使用预测检测结果时,元素的位置可能不够紧凑,这可能会在提取特征时引入噪声。实验结果表明,该方法的特征比基于图像的特征更具有鲁棒性。
拟建系统的评价结果:
如表5所示,作者提供了作者提出的ICPR2020比赛的系统性能,这可以作为一个baseline,便于进一步的研究。对于简短的表示法,这里的s0、s1、s2和s3分别表示视觉元素检测得分、平均名称得分、平均数据序列得分和平均得分。在本工作中,没有采用额外的数据或模型集成策略。结果表明,作者的系统在UB PMC2020测试集上的性能优于Rank1和Rank2的结果,证明了该系统的有效性。
五、总结与讨论在本工作中,作者讨论了一个数据挖掘系统中的数据提取阶段。为了建立一个可靠的Box detector,作者比较了不同的目标检测方法,并找到了一个合适的方法来解决表征图表数据的特殊问题。具有多元回归头和FPN结构的模型取得了令人印象深刻的性能。为了建立鲁棒的point detector,与基于图像处理的方法和基于检测的方法相比,该基于分割的方法可以避免困难的启发式假设,并很好地区分近点。对于数据转换,作者提出了一种测量特征相似性的网络,它比基于图像的特征更稳健。在实验中,作者在数据提取的每个阶段都进行了实验。作者找到了提高每个阶段效果的关键因素。在公共数据集上的整体性能证明了该系统的有效性。由于近年来出现的图表越来越多,作者相信从图表数据的自动提取领域将迅速发展。作者希望这项工作能够提供有用的见解,并为比较提供一个baseline。
标签:
-
2022-05-23 16:13:32
上海奉贤等区开展常态化防疫压力测试 有序开放公交、公园、公共服务场所、公共街区商区<
本报上海5月21日电 (记者刘士安、曹玲娟)上海正在奉贤等区开展常态化防疫压力测试。在21日召开的上海市疫情防控工作新闻发布会上,奉
-
2022-05-23 16:13:32
“抗疫 宅家云课堂”,吸引沪上老同志观看50万人次<
由上海市委老干部局主办,上海市老干部大学、市科技助老服务中心承办的“抗疫 宅家云课堂”系列直播讲座自4月12日启动以来,深受老同
-
2022-05-23 16:13:32
“代跑腿”买药、开通绿色通道 丰台为管控区居民提供便捷医疗服务<
“真是太感谢了,解决了我的燃眉之急!”家住假日万恒社区的杨女士对前来送药的居委会工作人员说。 自5月17日6时起,丰台区对青塔街...
-
2022-05-23 16:13:32
上海嘉定:儿童计划免疫接种全部恢复,实行预约制<
在5月22日召开的上海市新冠肺炎疫情防控新闻发布会上,嘉定区副区长王浩介绍,从4月28日开始,嘉定在防范区逐步有序恢复老年人疫苗接种
-
2022-05-23 16:13:32
乡村振兴看新疆 | 种下红樱桃 结出“致富果”<
央广网阿图什5月22日消息(记者 罗成 通讯员 杨林)乡村振兴靠产业,产业发展靠特色。新疆阿图什市阿扎克镇麦依村积极引导农民因地制
-
2023-03-30 15:43:57
全球实时:一个有效的图表图像数据提取框架
建立了可以有效地处理各种图表数据,而不需要做出启发式的假设的鲁棒Boxdetector系统;提出了一种网络来测量图例匹配阶段图例和检测元素之间的
-
2023-03-30 14:58:13
3月30日国内盐酸市场行情暂稳
3月30日国内地区盐酸价格详情厂家3月29日3月30日变化聊城华通60元 吨60元 吨无山东振坤200元 吨200元 吨无石家庄至简260元 吨260元 吨无芗
-
2023-03-30 13:41:23
天天快看点丨中消协发布消费警示:大学生群体要远离不良“校园贷”
人民网北京3月30日电(记者孙博洋)记者从中消协了解到,30日,中国消费者协会联合共青团中央发布了“校园贷”消费警示,提醒广大大学生群体...
-
2023-03-30 12:30:31
全球播报:瞿时尹:REITs扩容消费基建 有望带动房企估值的提升丨就市论市
REITs扩容至消费商业地产,短期能带动房企估值的提升,中长期有利于完善新发展模式所需的“投融建管退”的闭环,推动行业长期稳健发展。200...
-
2023-03-30 11:42:32
消息!粤黔牵手 心向未来
据中国台湾网消息近日,以“粤黔牵手心向未来”为主题的台湾青年岭南挚友交流联谊贵州行活动在贵阳开营。参加此次活动的台青大多数首次来贵...
-
2023-03-30 10:57:53
把“要我发展”变成“我要发展”
今年中央一号文件强调,增强脱贫地区和脱贫群众内生发展动力。这是全面推进乡村振兴的重要基础。在甘肃省平凉市灵台县、甘南藏族自治州合作市
-
2023-03-30 10:20:04
世界实时:常州社保缴费基数2023基数调整是多少 2023常州社保要交多少钱一个月
因为每年常州社保基数会调整范围,而且很多单位一直都是按照最低标准缴纳社保费用,所以社保方案调整后,社保费用也同样都是会有所不同。如果
-
2023-03-30 09:42:18
阿里健康北京公司更名为礼得合
企查查APP显示,近日,原阿里健康信息技术(北京)有限公司发生工商变更,企业名称变更为礼得合信息技术(北京)有限公司。企查查信息显示,该公司
-
2023-03-30 08:55:03
世界热消息:长虹美菱:融资净买入68万元,融资余额5756.91万元(03-29)
2023年3月29日长虹美菱融资净买入68万元,融资余额5756 91万元
-
2023-03-30 07:22:12
比亚迪2022利润大涨超特斯拉成全球第一|环球观焦点
中国新能源汽车龙头企业比亚迪发布2022年年报,营收4240 61亿元,同比增长96 20%,归母净利润166 22亿元,同比增长445 86%。其中汽车、汽车相
-
2023-03-30 05:27:59
全球快看点丨外服控股(600662):3月29日北向资金增持15.99万股
3月29日北向资金增持15 99万股外服控股。近5个交易日中,获北向资金增持的有2天,累计净增持148 4万股。近20个交易日中,获北向资金增持的有10
-
2023-03-30 00:58:57
茄子能隔夜吃吗_茄子能否过一夜再吃
解答:1、茄子能不能隔夜吃,一般要看储存条件和茄子有没有变质。如果没有变质,一般是可以吃的。2、食用:茄子营养价值丰富,
-
2023-03-29 22:19:08
TVB第二场淘宝直播要来了!港剧沉浸式直播12小时
TVB有了更高的期待。
-
2023-03-29 21:08:03
【天天快播报】【假面骑士幻想入】東方蒼穹我 EP13「失信」・上(第二部分)
(幻想乡雾之湖附近11:31a m)(风见幽香)最后的记忆,是达古巴出现在我面前时断开的,当时我甚至都没有反应的时间,就已经失去了意识,现在
-
2023-03-29 20:23:40
虚荣就是三把石灰_关于虚荣的哲理故事相关作文 哲理故事大全: 环球要闻
抄写作文网小编为大家提供虚荣就是三把石灰_关于虚荣的哲理故事相关作文哲理故事大全:来供大家参考,欢迎阅读。虚荣就是三把石灰_关于虚荣的
-
2023-03-29 19:18:59
热点在线丨“中欧科研快车”首次驶入江西
中新网南昌3月29日电(朱莹)“2023年首趟‘中欧科研快车’开到了江西南昌,可帮助江西科研人员更深入地了解中欧科技合作等,也让欧方代表了解江
-
2023-03-29 18:12:01
天天新动态:于隽隽因工作调整辞去西藏城投副总经理职务
公司副总经理于隽隽因工作调整,于2023年3月28日向董事会提交书面辞职报告,辞去副总经理职务。
-
2023-03-29 17:17:40
【天天播资讯】一边寻求对话,一边南海挑衅中国早有言在先
美国“虚空造牌”成习惯,但中国不吃这一套,多极化时代即将来临,美方展现诚意的时候到了。在和中国有关的议题上,美国最近的表现有些“精...
-
2023-03-29 16:24:59
日本发布教科书审定结果,韩在野党:总统对日外交失败_当前观点
澎湃新闻记者南博一关于日本文部科学省发布的小学教科书审定结果,韩国外交部3月28日以发言人名义发表声明,认为日本对领土和历史的记述存在问
-
2023-03-29 16:03:58
理想回应雷达在无人陵园内显示全是人影:融合感知会有异常
理想回应雷达在无人陵园内显示全是人影:融合感知会有异常
-
2023-03-29 14:45:38
纯棉阻燃剂商品报价动态(2023-03-29)|关注
交易商品牌 产地交货地最新报价纯棉阻燃剂 含量≥60%,密度1 050-1 100g cm3,PH值5—7河南森蒂环保科技有限公司森蒂环保河南省 郑州市98
-
2023-03-29 13:52:33
每日资讯:棉花被子多久晒一次好?
棉花被子是冬季保暖的必备装备,经过长时间的使用和洗涤,被子内部的棉花会变得潮湿和发霉,如果不及时的晾晒会影响棉花被子的使用效果,同时
-
2023-03-29 12:17:43
阜新:创新监督方式 以"小切口"写好法治化营商环境建设"大文章"
日前,阜新市政府办公室印发文件,正式启动行政执法监督专项行动,提升行政执法部门严格规范公正文明执法水平。阜新市以此次行动为契机,围绕
-
2023-03-29 11:23:46
东电首次对福岛1号机组反应堆正下方进行调查|新视野
中新网3月29日电据日媒报道,东京电力公司28日重启了福岛第一核电站1号机组反应堆安全壳的内部调查。首次让水下机器人进入可能有核燃料熔落的
-
2023-03-29 10:59:45
荣耀大天使智法怎么加点 荣耀大天使智法加点方法
荣耀大天使智法怎么加点荣耀大天使智法加点方法,
-
2023-03-29 10:26:52
热头条丨郑州大学农学院2023年硕士研究生拟调剂信息公告已公布
郑州大学农学院2023年硕士研究生拟调剂信息公告已公布由研究生考试栏目提供,查找更多考试报名资讯、准考证打印、成绩查询或郑州大学农学院2023
-
2023-03-29 09:01:46
博鳌四位企业家直面供应链转移:做两手准备_世界看点
博鳌四位企业家直面供应链转移:做两手准备,物流,两手准备,产业链供应链
-
2023-03-29 07:53:45
用意念也能写字?浙二告诉你:是真的
张大伯正在进行试验。潮新闻记者郑文 摄在脑海里写字,一条条被脑机接口设备捕获的脑电波在计算机屏幕上不停跳动,这些波形,时而杂乱无章,时
-
2023-03-29 06:20:10
韩国严正抗议日本审定通过歪曲历史教材
(记者刘旭)韩国外交部发言人当地时间28日发表声明,对日本政府审定通过含有主张独岛主权和淡化二战期间日本强征朝鲜半岛劳工内容的小学教科书
-
2023-03-29 01:58:05
汤普森要5年1.9亿续约合同 勇士还价只愿给8500万 双方已暂停谈判
汤普森要5年1 9亿续约合同勇士还价只愿给8500万双方已暂停谈判,库里,勇士队,水花兄弟,霍尔姆斯,续约合同,网球赛事,网球运动员,乔丹·汤普森,奥
-
全球实时:一个有效的图表图像数据提取框架
2023-03-30 15:43:57 -
3月30日国内盐酸市场行情暂稳
2023-03-30 14:58:13 -
天天快看点丨中消协发布消费警示:大学生群体要远离不良“校园贷”
2023-03-30 13:41:23 -
全球播报:瞿时尹:REITs扩容消费基建 有望带动房企估值的提升丨就市论市
2023-03-30 12:30:31 -
消息!粤黔牵手 心向未来
2023-03-30 11:42:32 -
把“要我发展”变成“我要发展”
2023-03-30 10:57:53 -
世界实时:常州社保缴费基数2023基数调整是多少 2023常州社保要交多少钱一个月
2023-03-30 10:20:04