日志样式

案例:针对新型电信网络诈骗犯罪的串并案方法

 

新型电信网络诈骗案件的高发给人民群众的财产安全造成了极大的损害。同时,新型电信网络诈骗犯罪具有不断专业化和职业化的特点,案件侦办难度日益增大。通过使用串并案的方法,将属于同一诈骗团伙所作的案件串到一起,可以大大提升案件的侦办效率。
 
 
本文提出两种常用的电信网络诈骗案串并案方法:标识号串并和语义相似度串并,并在此基础上,给出了进一步的改进方法。实验结果表明,改进方法提升了电信网络诈骗串并案的精确率和召回率,可以为新型电信网络诈骗案件的侦破提供重要的帮助。
 
引  言
 
随着社会科技的不断发展,通过电话、短信、互联网等手段进行诈骗的新型电信网络诈骗逐渐成为一种高发的诈骗犯罪。相比于传统类型的诈骗,电信网络诈骗不需要和受害人进行实质接触,嫌疑人以现代通讯工具作为工具,通过虚构事实或隐瞒真相,骗取受害人的钱财。
 
一般而言,电信网络诈骗案件往往有以下的特点:
 
  1. 发展迅速,蔓延快,收益高;

  2. 犯罪地域分布广,跨国跨境诈骗比较突出;

  3. 团伙作案,组织严密,分工明确;

  4. 诈骗方式翻新迅速,手段多样;

  5. 诈骗手段科技含量高,隐蔽性高,普通群众难以辨别信息真假。

 
电信网络诈骗案件的高发,给人民的财产安全造成了极大的威胁和损害。同时,电信网络诈骗类案件常常面临技术条件缺失、取证繁琐、证据链易于缺失、警银缺乏深度合作等原因,使得案件的侦破面临巨大的挑战。
 
因此,从海量的数据中找出电信类诈骗案件的线索,能够为电信网络诈骗案件的侦破提供信息,具有很大的实际应用价值。
 
串并案是把同一个或同一伙犯罪嫌疑人所作的多起案件串联到一起,用于统一组织和侦破的一种技术手段。
 

 
一般情况下,同一个或同一伙犯罪嫌疑人在一定的时间内,所作的案件会具有类似的作案目标、作案手段等特点,同时,也会在这些案件中留下类似的线索。
 
通过将这些案件整合到一起,可以利用多起案件中的线索交叉验证,获取更多关于嫌疑人的线索和特征,加速案件的侦破。
 
实践证明,在犯罪活动日益专业化和职业化的情况下,采用串并案的方法,对系列案件进行侦办,是一种更加高效的方法。
 
一、电信网络诈骗的串并案方法
 
电信网络诈骗案件中,犯罪嫌疑人往往通过电话、短信、互联网等方式进行诈骗。在犯罪过程的实施中,不可避免的会留下一些通讯工具的ID,如电话号码、微信号码、QQ号等,在此统一将这些号码或者ID统称为标识号。
 
同时,受害人在报案时,会描述受骗的经历过程,形成简要案情。标识号和简要案情给出了案件的绝大部分信息,也是串并案的数据来源。因此常见的电信网络诈骗串并案方法也可以分为标识号串并和语义相似度串并。
 
本文首先分别介绍这两种串并案方法,然后在此基础上,对串并案方法进行改进。

 

 

(一)标识号串并
 
电信网络诈骗的嫌疑人在和被害人接触的过程中,会留下通讯工具的标识号。而通讯工具的ID通常具有唯一性,因此,标识号可以作为一个串并案的重要线索。当不同的案件中,出现了相同的标识号时,可以大概率确定,这些案件是由同一个(伙)犯罪嫌疑人所作的案件。因此,通过标识号串并是一种重要的串并案手段。
 
一般而言,受害人在报案时,会在简要案情中提到所遇到诈骗嫌疑人使用的各种不同类型的标识号,因此,进行串并的第一步是先要从案情文本中,对各种标识号进行提取。在提取标识号的过程中,要注意避免提取到一些公共标识号如银行的客户服务号码等,以避免这些公共标识号对串并案结果造成影响。
 
本研究中,通过使用正则表达式的手段,对以下通讯手段的ID号进行了提取:电话号码(包含手机和固定电话)、QQ号、微信号、银行账号、支付宝账号、网址、邮箱、微博、陌陌、闲鱼、旺旺、淘宝、京东、转转。得到标识号之后,通过对案件数据库进行匹配,如果有不同的案件中出现了相同的标识号,则可以认为这些案件是由同一团伙所作的案件。
 
下面通过一个案件对标识号串并进行说明:
 
待串并案件A1:2018年9月17日17时许,我所接米**来所报警称:自己被冒充公安民警的人诈骗9996元人民币。接警后我所民警迅速开展工作。经工作了解:2018年9月16日14时许米**接到一自称是电信工作人员的电话称米**因涉嫌诈骗案现座机已被昆明市公安局锁定,并要求米**联系134****2158一自称是昆明市公安局曹姓民警,米**联系对方后,对方称因米**涉嫌一起诈骗案,又让其联系134****3165一自称是马科长的人,该自称是马科长的人向米**索要银行账号及密码,米**将银行账号密码通过电话告知马科长后,发现卡内9996元现金被人通过电话银行转走。米**银行账号为:622*********882,开户人:米**;对方自称曹警官的人员联系方式为:134****2158,自称马科长的人员联系方式为:134****3165。
 
使用标识号提取工具提取后可以得到相应的标识号如下所示:
 
{'QQ':{},'PHONE':{134****3165','134****2158},'BANK':{622*********882'},'WECHAT'{},'WEB':{},'EMAIL':{},'ALIPAY:{}}
 
将这些标识号用于案件串并,最终串并得到案件28条,列举出其中的一条如下所示:
 
案件A2:2018年9月5日17时许,牛**在**花园*号楼*门**家中接到自称是云南省昆明市公安局民警电话(134****3165、135****2431、0357****8520、03337****7116)。电话内牛**被告知涉嫌犯罪,名下银行账户存款需证实合法来源并被要求配合调查。后牛**向对方提供家庭住址。2018年9月6日12时许,一自称是昆明市公安局女警察,便衣持工作证到牛**家中向其索要银行存折、存单、密码及户主身份证件原件。牛**及其丈夫刘**为配合调查将此交给该女子,后该女子离开失联。2018年9月7日上午,牛**发现银行钱款被盗,报警求助。资金具体去向,涉案账号:中国建设银行,卡号:627*********655,开卡人:冯**。
 
可以看到,在两起案件中都出现了134****3165的手机号码,并且从案情来看,都属于冒充公检法类型的诈骗,同时作案时间也很接近,可以基本认定是由同一团伙所作的案件。
 
 
(二)语义相似度串并
 
使用标识号进行串并,虽然精确率较高,但是忽略了很多案情中作案手段特点的信息,导致当标识号间没有直接关联的案件无法串并到一起。同时,随着犯罪团伙反侦查意识的提高,犯罪分子会不断更换通讯工具的ID,使得标识号串并案的召回率较低。另一方面,同一诈骗团伙,在一定的时间内,会采用相同诈骗手段,对受害人进行诈骗。
 
语义串并是通过挖掘简要案情文本中的信息,从而将语义类似的案件串到一起。
 
本研究也给出了基于语义相似度串并的思路。首先对案情文本进行预处理,之后通过自然语言处理的技术将其表示为一个特征向量,通过特征向量之间的余弦相似度来判断案件之间语义的相似程度。
 
当两个案件案情的相似度大于某个阈值时,则认为是由同一团伙所作的案件。
 
本研究中,使用了TextCNN作为案情文本的特征提取器。
 
先使用已经标注好小类标识的案情数据,训练了一个TextCNN分类器,然后将分类器除去Softmax层的部分用于提取案情的特征向量,然后将特征向量用于串并案。
 
当有新的案件需要进行串并时,首先通过特征提取器得到其特征向量,然后计算该特征向量和数据库中的其他案件的特征向量的相似度,从而进行新案件的串并。
 
为了演示语义相似度的串并过程,也以上述的案件A1进行了串并,从得到的串并结果中选取了一起进行说明:
 
案件A3:2018年6月19日事主傅**报警称在**东里*号楼*单元**接到一个冒称铁岭市公安局的电话(对方陈**,曹**),说事主涉及到一起非法洗钱案,需要事主向自己的农业银行卡存入20000元的抵押金防止外逃的保证金,事主农业银行卡原本有7100元人民币,又从微信往农业银行卡提现了10000元人民币,还让事主浏览了一个网址(**.**.**)并且注册,(到款账户:6230*********673,开户人:贾**)页面提示要求事主填写自己户名,身份证号,手机号,银行卡号及密码,后事主手机就收到银行短信提醒告知事主卡内的钱都被划走了,后事主发现被打电话报警了。资金去向:事主登陆了一个网址(域名网址:**.**),填写了银行卡号(628*********871)和密码,后自己的钱就被划走了,(到款账户:6230*******673,开户人:贾**)对方信息:陈**手机号133****2650,曹**手机号:(182****2070,133****0104曹**QQ128******昵称:武昌****)
 
从案情文本来看,也是属于冒充公检法类型的案件,但是并没有标识号和待串案件相同。类似这样被串中的案件数量较多,较难区分出到底哪些案件是真的由同一团伙所为,因此需要对方法进行进一步的改进。

 

 

(三)串并案方法的改进
 
上述介绍了两种常用的电信网络诈骗串并案方法。然而以上方法都有其一定的局限性:
 
  1. 标识号串并虽然精确率较高,但是由于标识号记录的不完整性、易错性,以及犯罪团伙的反侦查,会使得本应串并的案件未能串中,导致召回率较低;

  2. 语义相似度串并的方法,由于同一种类型的案件都会有比较接近的语义相似度,使得同一类案件中,由不同团伙所作的案件较难区分,虽然召回率较高,但是精确率较低。

    因此,需要对方法进行进一步的改进。

 
 
为了改善串并案方法的性能,本研究对数据进行了探索,发现属于同一类别的案件,虽然在作案手段上很相似,但是也还是会有关键信息点,可以对这些案件进行区分,从而将其串到不同的类别中。所以,提取到有价值的关键信息点,是解决这一问题的关键。例如,在冒充公检法的案件中,同一团伙在一定时间内,会冒充同一公安机关进行诈骗。
 
因此,在这类型的诈骗中,可以将被冒充的公安机关作为一个关键信息点,将具有相似语义的案件中,冒充同一公安机关的案件串到一起,从而大幅度提升串并案的精确率。
 
本研究中,先针对案情的文本数据进行了探索,根据业务知识,找到了一些关键信息点,然后使用命名实体识别的技术,对案情文本中的关键信息点进行了提取。提取之后的关键点信息需要进行进一步的实体统一处理,将属于同一实体的不同描述映射为统一的描述。例如“北京市公安局顺义分局”,也可以描述为“北京顺义公安局”、“顺义公安分局”等。将这些命名实体的名称统一之后,就可以用于案件的串并。
 
实验结果
 
为了对比上述方法的效果,本研究用单案串并的方法,对上述方法进行了测试,给出了不同方法的串并结果的对比,如图1所示。
 
图1不同串并案方法串中案件结果图
 
图中,横轴是案件的编号,纵轴是不同的串并案方法,绿色表示该案件被串中。
 
其中,使用标识号串并串中案件28起,语义和关键信息点串并串中案件55起,只使用语义相似度串并的案件数量超过1000起,数量太多以至于无法在图中合理展示。
 
从图1中可以看出,两种方法得到的结果还是有很大部分的重合。然而,由于案情数据录入的不完整性,也导致有些案件只在一种方法中串中,而在另一种方法中没有串中。
 
由于使用标识号串中的案件中出现了同一团伙的标识号,而在语义和关键信息点串中的案件语义相似度高,且有相同的关键信息点,因此都具有较高的置信度。
 
实际应用中,可以将两者结果的并集作为最终的串并结果。这样最终的串并方法相比于单一的标识号串并方法提高了召回率,相比于单一的语义串并提高了精确率,具有较高的实用价值。
 
 
三、结语
 
在本研究中,主要阐述了常见的电信网络诈骗的串并案方法,即基于正则表达式提取标识号的标识号串并和基于TextCNN作为特征提取器的语义相似度串并。同时,为了进一步提升方法的精确率和召回率,对数据研究得到的关键信息点进行提取,使得方法在语义相似度的基础上,可以区分不同团伙所作的案件,提升了方法的精确率。
 
然而,本文提出的方法也有一些局限性,比如,标识号和关键信息点的提取都需要大量的人工经验,是一种手动构造特征的过程,而没有实现利用深度学习实现端到端的处理,方法过程稍显复杂。要想实现端到端的方法也需要更多的精细化的对数据的标注,以及采集更多更详细、更全面的数据。