尊龙凯时

尊龙凯时动态

基于依存句法剖析的资金账户生意画像

  • 时间:2019-01-15
  • 泉源:尊龙凯时

本文作者:丁德智,李玫,李国栋(尊龙凯时股份有限公司)

摘要:为了提升电网企业资金清静管控能力,有用提防资金清静危害,包管资金高效运转,文章使用企业海量的银行生意流水数据,应用自然语言处置惩罚手艺,基于依存句法剖析的效果设计摘要标签化的提取规则,获得与生意纪录有关的生意标签与营业标签。进一步构建出动态完整、实时反应的资金账户生意画像,资助企业管理职员周全相识账户的历史生意行为,实时发明异常生意危害,辅助管理决议。使用某电网公司6个月的资金生意数据对模子的效果举行测试和评估,获得了平均96%以上的F1值,效果证实了模子具有很好的适用性,能够在电网企业举行推广应用。

要害词:账户画像;资金管理;依存句法剖析;生意摘要

0 小序

电网企业资金流动大,生意频仍,属于典范的资金麋集型企业。现在电网企业在资金清静管理方面普遍保存资金监控信息化水平低和监视监控不完善等问题。改变现有监控系统低效、信息孤岛的现状,需要构建基于大数据的集清静监控、信息共享、数据剖析、决议支持为一体的资金智能清静防控平台,实现信息化的资金清静管理模式。这一管理模式的实现需要使用自然语言处置惩罚(Natural Language Processing, NLP)及机械学习等手艺。现在NLP手艺的研究主要集中于情绪剖析方面,多应用于互联网行业。在电力行业,尤其是资金清静管理领域应用保存较多空缺。

古板的资金账户画像主要是基于账户的静态属性举行标签分类,保存更新不实时、信息滞后的弱点。本文通过对企业海量的银行资金生意流水摘要举行句法关系剖析,智能提取生意标签和营业标签,构建动态、完整、周全的资金账户生意画像,资助管理职员实时相识账户的历史生意行为,实时洞察账户异常行动,精准定位生意危害,为资金账户的周全监控和清静使用提供高精准度的危害防控手段。

1 资金账户生意画像提取框架

1.1 整体提取框架

标签提取流程如图1所示,提取流程包括数据预处置惩罚、自然语言处置惩罚、词库构建及标签提取4个办法。实现思绪是先对生意摘要举行预处置惩罚,过滤掉噪声数据,然后举行自然语言处置惩罚,剖析获得句法关系树,凭证标签提取规则,从句法关系树中提取生意标签和营业标签。关于提取不乐成的摘要,先用生意标签和营业标签相互填补,若是仍然保存摘要提取失败,则将其归为“未知生意”。

1.2 焦点办法说明

1.2.1 数据预处置惩罚

本办法主要是去重和剔除摘要中的噪声数据,例如日期、数字、英文及收款单位名称等,洗濯后的摘要只保存了要害信息。

示例:“aHYX_付5月购电费(3001)”→“付购电费”。

1.2.2自然语言处置惩罚

本办法使用哈尔滨工业大学的LTP(Language Technology Platform)开源中文NLP系统对预处置惩罚后的生意摘要举行分词、词性标注、命名实体识别、及依存句法剖析,最终天生句法关系树。

凭证摘要的特点,本模子主要用到的句法关系有焦点词(HED)、主谓关系(SBV)、动宾关系(VOB)、并列关系(COO)及状中关系(ATT)。详细的语义关系说明请参评语言云简介。

1.2.3 词库构建

本模子应用到的词库有营业同义词库、营业动词库及营业要害词库。其中营业同义词库用于合并语义相同的生意营业,例如

上述词库需要资深营业专家加入构建,本模子词库的部分样例见表1所列。

1.2.4 标签提取

标签提取是本模子的焦点办法,包括生意标签提取、营业标签提取及未提取标签填充3部分。

1)生意标签

凭证句法依赖关系树,按规则提取生意标签,例如差盘缠、购电费等,主要用到了营业同义词库,详细的提取规则见2.1节。

2)营业标签

凭证句法依赖关系树,按规则提取营业标签,例如报销差盘缠、预付购电费等,主要用到了营业动词库和营业要害词库,详细的提取规则见2.2节。

3)未提取标签填充

关于未能提取生意标签但提取了营业标签的摘要,将营业标签去除与营业动词库相匹配的词,即可获得生意标签,例如:

2 基于句法模式的标签提取规则

2.1 生意标签提取规则

洗濯后的生意摘要基本是随笔本,句法关系相对简朴,HED的词性主要为动词和名词,因此生意规则将围绕HED的词性举行设计,详细如下。

2.1.1规则1

若HED词性是名词(n体现),将HED与营业同义词库举行模糊匹配:

1)若匹配出零个标签,则不可提取生意标签;

2)若匹配出1个标签,则此标签的焦点词为生意标签;

3)若匹配出多个标签:若多个标签对应的焦点词是1个,则此焦点词为生意标签;若多个标签对应的焦点词是多个,则使用HED的ATT词举行过滤:若无ATT,将HED切换为精准匹配,若是能精准匹配出1个,则此标签的焦点词为生意标签,不然不可提取标签;若有多个ATT,凭证ATT的顺序,依次举行模糊匹配过滤,若是最终焦点词是1个,则此焦点词为生意标签,不然不可提取标签。

提取规则1示例如图2所示,示例为提取生意标签

2.1.2规则2

若HED词性是动词(v体现),HED保存VOB词且词性是名词,将VOB词与营业同义词库举行匹配,匹配逻辑与“规则1”一致(若是有多个VOB,则依次按本规则匹配)。

提取规则2示例如图3所示,示例为提取生意标签

2.1.3规则3

若HED词性是动词,且不保存VOB词或VOB词的词性不是名词:

1)若HED有COO关系的词。若该词的词性是动词,则将该词看成HED,按“规则2”逻辑举行匹配;若该词的词性不是动词,则按“HED无COO关系的词”的规则处置惩罚(若是有多个COO关系,则依次按本规则执行,由于是随笔本,基本不保存这种情形)。

2)若HED无COO关系的词。若HED有ATT关系的词,将该词与营业同义词库举行匹配,匹配逻辑与“规则1”一致(若是有多个ATT关系的词,则按句法顺序,依次按本规则执行);若HED无ATT关系的词,但有SBV关系的词,则将该词与营业同义词库举行匹配,匹配逻辑与“规则1”一致,不然不可提取标签。

提取规则3示例如图4所示,示例为提取生意标签

2.1.4规则4

若HED词性既不是名词也不是动词:

1)若句中只有HED一个词,将HED与营业同义词库举行匹配,匹配逻辑与“规则1”一致;

2)若句中尚有其他词,则不可提取出标签。

提取规则4示例如图5所示,示例为提取生意标签

2.2 营业标签提取规则

由于生意营业往往会带有显着的要害词,好比费、款、金等,因此营业标签提取规则将围绕这些要害字睁开设计,思绪是先定位营业词,再识别营业动词,详细如下。

2.2.1规则1

若是分词效果中的词能与要害词库中的词完全匹配,则将该词标记为H,凭证句法剖析效果找到与H有ATT关系的词,记为ATTH。若是没有ATT,则不可提取标签。

然后从分词效果中查找是否有词包括营业动词库中的词。

1)若没有,则营业动词默以为‘付’,记为V;

2)若只有1个,则该词为营业动词,将该词记为V;

3)若有多个,则优先级最高的词为营业动词,若优先级相同,则按句法关系顺序合并为1个营业动词,记为V;若是V是ATTH+H的子字符串,营业标签为+H;不然营业标签为V++H。

规则1部分示例如表2所列。

2.2.2规则2

若是分词效果中的词包括要害词库中的词(非完全匹配),则将该词标记为H。

1)若H只有1个,营业动词的查找规则与“规则1”一致。若是V是H的子字符串,则营业标签为H,不然营业标签为V+H;

2)若H有多个,则依次检查与H词语法关系为VOB的动词:若能找到,且该动词在营业动词库中,则该词为营业动词,不然默认营业动词为“付”,记为V,营业标签效果为V+H;若找不到,查找H中是否包括营业动词库中的词,若是包括,则营业动词为空,营业标签为H,不然营业动词默以为‘付’,记为V,营业标签效果为V+H。

规则2部分示例见表3所列。

2.2.3规则3

若是分词效果中的词不包括要害词库中的词,则不可提取营业标签。

3 实证剖析

3.1 数据泉源

实证剖析所用数据来自某电网公司2018年1月至6月的银行生意流水数据(见表4)。

3.2 评价指标

本文使用准确率和召回率以及F-Measure对实证剖析效果举行评估,同时将人工提取的标签作为准确标签效果。准确率是指算法提取效果中的准确标签数占提取出的总标签数的比例,召回率是指算法提取效果中准确标签数与生意摘要中现实可提取标签总数的比例。F-Measure则是综合了准确率和召回率的评价指标。盘算公式划分如下。

式中,P体现准确率,A体现可提取并且提取准确的标签个数,B体现原本不可以提取标签但提取的标签个数以及提取过失的标签个数之和。

式中,R体现召回率,C体现未能准确提取标签的个数。

式中,α是用来权衡准确率和召回率的相对主要性的参数,本文将准确率和召回率视为一律主要,即α取值为1,故F-Measure故为F1:

3.3 效果剖析

表5展示的是2018年6月银行生意摘要提取标签的部分效果。

3.3.1 模子准确率与召回率剖析

思量到每月提取标签的数目级约莫在10万条,数目较多,人工识别本钱高,因此,本文将接纳随机抽样方法,每次随机抽取1000条生意摘要,将提取的标签与基于人工提取标签相比,盘算模子的准确率、召回率和F1值。同时为了包管评价指标的可靠性,重复3次有放回抽样,并用3次效果的均值作为模子最后的评价指标,标签提取效果剖析见表6所列。

从效果剖析表中可知,6个月的生意摘要的生意标签和营业标签提取准确率均在90%以上,部分月份抵达98%,召回率均在95%以上,整体F1值凌驾94%。

准确率方面,生意标签的准确率均较高,主要是由于本文的生意标签的提取规则思量周全并且营业同义词库相对完整。相比生意标签,营业标签的准确率相对更高,主要是由于提取规则越发开放,更能体现一样平常性。

召回率方面,生意标签和营业标签的召回率均很高,主要是由于摘要语句较短,句子的焦点词基本都具有营业寄义词语,因此召回率较高。6个月的召回率都较量高且较量稳固,说明提取规则可以识别出大部分的生意摘要,同时批注构建的营业同义词库和营业动词库较量周全。

综上剖析,模子整体效果很好,并且体现稳固。

3.3.2 影响模子效果因素剖析

对实证效果中未能提取标签或标签提取过失的摘要举行归纳总结,主要缘故原由如下。

(1)生意摘要过于简朴、语义不明。保存省略主语、错别字、口语化及漏填等情形,例如

(2)分词及词性标注效果的准确性。由于电网企业涉及许多专业词汇,在专业字典不完整的情形下,会爆发切词及词性标注蜕化的情形,导致无法准确提取标签。

(3)词库的完整性。少部分摘要未能提取生意标签是由于营业同义词库不完整导致的,另外,营业动词库和营业要害词库的完整性也在一定水平上影响了营业标签的提取。

3.4 画像展示

图6、图7划分展示了某一资金账户的生意标签和营业标签的提取效果。

4 结语

本文接纳自然语言处置惩罚手艺对电网企业银行生意流水摘要举行挖掘剖析,构建了资金账户生意画像模子,突破了古板的数据盘问剖析对非结构化数据处置惩罚与应用的限制,能够从更周全的角度相识账户的历史生意特征,对未来新的生意行为是否保存异常具有主要的参考价值。

在对某电网公司近6个月的实证剖析中,本模子获得了平均96%以上的F1值,证实了模子的有用性和适用性,能够在电网企业举行推广应用。

针对影响模子效果的因素,本文思量从以下几方面做出刷新:

①建设词库的完善机制。通过机制一直沉淀营业专家的知识履历,坚持模子的有用性;

②进一步优化专业辞书。一方面建设类似于词库的完善机制,一直加入专业词汇;另一方面需要充分应用自然语言处置惩罚手艺发明新词的能力,从专业网站中提取新词;

③规范生意摘要填写。制订摘要规范性填写指导说明书,将摘要的规范性纳入绩效审核中,通过管理手段,包管摘要的完整性和规范性。




网站地图