Bootstrap

这个领域有意思,认识一下MSDS手写笔迹验证数据集

关注公众号,发现CV技术之美

手写签名是一项非常“古老”又常见的身份验证方式,尤其在金融领域,但笔迹验证这一方向的研究论文却不多,很大可能的影响因素是相关公开数据集太少。

前几天,华南理工大学、华中科技大学的学者公布了一个中文手写笔迹数据集MSDS,含当前最大的公开中文签名数据集,值得关注。

作者信息:

fa8158523321fa5185b4836863ebb13f.png

相关论文:

https://arxiv.org/pdf/2210.08836.pdf

数据集地址:

https://github.com/HCIILAB/MSDS

百度云链接:

https://pan.baidu.com/s/1orJTpE0ijtU51Izso3UbbA?pwd=kva8

该数据集分两部分,一部分是手写中文签名数据集MSDS-ChS,另一部分是令牌数字字串(对应于让用户手写一串数字用于笔迹身份鉴定)MSDS-TDS

数据集样例如下:

a3c526a2ac2088703ffdde8f3008a97f.png

上图中(a)来自一个英文手写签名数据集DeepSignDB,(b)来自于上述MSDS-ChS数据集,(c)来自上述MSDS-TDS数据集。蓝色和红色为同一人书写,灰色为其他人书写。

下图展示了数据收集软件界面,这个数据集是用输入笔在电子屏幕上书写采集的(所以,对同一个人来说,与在纸质媒介上书写的签名和数字可能会不同)。

1335b2691e77c61f766abba4310c7b35.png

下图为该数据集的统计信息:

80d3a53ad9074783c83eae5e8dd706d9.png

总计采集了402个用户的书写笔迹数据,每人书写10次真实签名,书写10次给定的其他用户的签名(也就是根据看到的其他人的签名进行伪造,模拟现实中的签名伪造),书写10次真实的之前用过的已不再用的手机号码,再书写10次给定的其他用户的手机号码(也是根据看到的其他人的笔迹进行伪造)。

得到的数据如下:

7439bfab9508a66f6d635a432abc1b29.png

MSDS-ChS与其他中文手笔迹数据集的比较:

f96cfb490fe4734efb4782f9e680df3d.png

可见,MSDS-ChS 是当前公开的最大的中文手写笔迹鉴别数据集。

MSDS-TDS与其他相关数据集的比较:

879b99f6613130f8e7103e2efcff46e1.png

作者不仅构建了数据集,同时也用现有的SOTA算法进行了测试。

MSDS-ChS 上的测试结果,结果使用错误率衡量(%):

4a186c12188e5597220840ec992d83e3.png

MSDS-TDS 上的测试结果,同样结果使用错误率衡量(%):

aa715b1269c24c406c2f670c5bb5ea95.png

更多实验设置可参考原论文,从上述结果可见DsDTW是表现最好的算法,另外比较耐人寻味的是,尽管中文看起来比阿拉伯数字复杂(更容易具有明显的书写风格),但从现有算法的结果看手写电话号码比手写签名是更好的笔迹验证方式

一些被错误接受的和错误拒绝的样例:

36d7b8496b9ac2e7027e36cf0e6f397c.png

这是一个比较有意思的领域,手写笔迹鉴定尤其在金融领域应用广泛,希望这个数据集能启发更多相关研究。

感兴趣的朋友可以关注:

https://github.com/HCIILAB/MSDS

多说一句,现实中大部分人是不太擅长伪造别人笔迹的,但有些“专业人士”伪造的可以写的很像(为不法目的),就像《雍正王朝》电视剧里的老十四,几次伪造都是肉眼难辨,对于这种“专业人士”,构建相关数据集更有必要(当然找到这样的人很难)。

a991077011e7534685f993147e96ecc9.jpeg

END

欢迎加入「OCR交流群👇备注:OCR

8539ac8253a0a221d18f7f81edb5a9a4.png

;