商业银行大数据审计难点与对策

时间:2022-04-03 10:31:42

商业银行大数据审计难点与对策

一、商业银行大数据审计分析的难点与挑战

(一)数据获取难度大,大数据分析有时成为。“无米之炊”商业银行内部审计大数据分析虽然起步较早,但受理论储备和科技投入等因素的影响,普遍缺乏高效的数据分析接口,数据需求得不到有效满足,审计部门常常面临“无米下锅”的窘境。一是数据来源系统杂。商业银行信息化建设历史较长,经过长期发展,各银行均建立起庞大的信息系统。为迎合业务发展需要,许多商业银行将系统建设职责按业务条线进行了划分,而系统整合不够充分,客观上造成了系统林立而数据隔绝的问题。例如,大型商业银行的系统数量可达千余个,涵盖银行各业务条线。由于受部门银行等不利因素影响,各条线单独采集和加工数据,部分系统间机构树、客户编码等基础数据还不统一,给系统间数据交互造成障碍。目前,大多数商业银行都建立了企业级数据仓库,但数据完备程度仍有待提升,新系统数据入仓速度也不能满足审计时效的要求。二是数据类型样式多。传统数据分析方法主要是对结构化数据的分析。大数据理论丰富和普及了对数据类型的认识,将网页、日志文件、搜索索引、社交媒体、电子邮件、办公文档、影音文件及传感数据等多种类型数据都纳入分析。商业银行内部审计多年来在结构化数据采集和存储方面积累了一定的经验,但对非机构化数据的处理仍处于起步阶段。三是数据安全影响大。商业银行就像一架强大的数据加工机器,不但收集了客户的多维度关键信息,也通过交易结算生成了海量行为数据。这些数据有的受到国际组织或他国监管机构关注,有的属于我国政府监管重点,有的是银行内部数据,敏感性强、受保护程度高。如欧盟《通用数据保护条例》(GDPR)被称为史上最严厉的个人数据保护法,对触犯法规的处罚上限是“两千万欧元或企业年度全球营业额的4%”,也会给企业声誉带来重大风险。从当前实践来看,覆盖数据采集、加工和应用全链条的数据安全机制还不够完善,出于安全需要,商业银行大多被动采取限制使用策略,数据需求普遍得不到充分满足。随着全社会数据安全意识的提升,数据获取难度将不断加大,一定程度上对数据使用产生了障碍。四是数据申请链条长。内审部门根据审计项目需要,常常需要分析不同业务条线、不同系统的数据。审计数据需求涵盖范围广,时效性强。而现有数据申请机制,常常需要与业务部门、数据管理部门、数据加载部门和数据维护部门等多部门进行协商,沟通协调成本较高。即使审批通过,还需经历数据采集、上传、加载等技术流程,从数据申请到数据获得耗时较长,缺乏一站式便捷的数据应用接口。五是数据存储空间不足。从当前应用实践来看,商业银行内审部门主要采取两种方式实现审计数据分析。一种是直接访问数据仓库。该方式的优点是数据通道相对贯通,数据获取难度小,但出于安全性和效率性考虑,数据仓库往往无法支持较多用户同步访问,系统并发任务受限,不能满足审计业务需要。另一种是将审计需要的数据迁移至审计数据库。该方式的优点是数据库独立,数据管理的自主性强,但也给审计部门赋予了本不擅长的数据管理职责。有的商业银行审计数据库达到几百T的规模,由于存储资源不充分,数据管理机制和手段不完善,该类审计数据库时常面临存储结构不合理和存储空间不足的问题。(二)原始数据不够规范清晰,数据含义难以理解。商业银行内部审计大数据分析一项显著的特色就是可以从数据源头着手分析,通过对未经加工和清洗的原始数据进行比对,找出问题疑点线索。应用这种数据分析方式,需要对原始数据有较深入的理解。而在当前数据的设计初衷、采集方式和服务流程等方面,均对数据的认识和理解存在不利因素。一是数据和业务不易对应。当今商业银行信息化程度之高,各类业务鲜有不通过信息系统管理和作业的。在这一发展态势下,银行的各类业务都在系统中留有痕迹,有具体的数据体现。国外大型咨询公司曾估算,银行每创收100万美元,平均产生820GB数据,数据量级高居各行业之首。但长期以来,有的商业银行系统建设重开发、轻管理,存在不重视数据资产的倾向,数据管理不够规范,从数据还原业务场景存在一定困难。二是数据间关系较难建立。按照关系型数据库的设计规范,商业银行数据库通常遵从一定的范式要求,范式越高数据库冗余越小。但范式要求会拆解原有数据的业务逻辑,审计数据分析过程中需要重建数据间关系,还原业务逻辑。而数据间关系的信息专业性较强,审计存在一定的技术障碍。三是数据字典难以获取。数据字典是理解数据的重要文档,因此,数据字典往往作为商业银行的重要数据进行保管。各家银行数据文档管理的规范程度不同,有的商业银行缺乏对数据字典的统一管理,版本更新也不够及时。内部审计在获取数据字典的过程中存在不小的困难。(三)数据分析能力与手段不足。数据应用是体现数据价值的关键环节。当前商业银行内部审计无论在技术手段,还是分析结果方面,数据应用能力与水平都有较大的提升空间。一是数据分析方式方法比较单一。当前商业银行内部审计主要采用传统的SQL联机数据分析手段。该数据分析方法往往从真实业务场景出发,分析违规业务的数据特征,通过账表拼接和统计分析,按照业务规则和风险规律,揭示问题线索。该方法直观性强,容易理解,但对业务规则的依赖程度较高。数据分析过程中,有时很难提出有针对性的业务规则,有时提出的规则准确性较低,由此造成SQL联机数据分析的覆盖面不全、准确性不高。目前,该方法仍然在商业银行内部审计大数据分析中扮演重要角色,分析技术难以取得显著突破。二是数据分析技术在内部审计方面的应用场景缺乏。基于数据挖掘和深度学习理论的大数据分析技术,以概率论为基础,重视对事物相关性的分析,在客户营销和风险管理等方面都有比较成熟的应用。但商业银行内部审计以问题为导向,重视对普遍性和典型性问题的揭示。由于审计发现问题往往涉及责任人认定和处理处罚,客观要求问题指向的确定性较强,由此也影响了大数据分析技术在内部审计中的应用。三是数据分析结果精确性不足。当前商业银行内部审计主要从业务特征入手开展数据分析,业务特征难以做到穷尽,许多业务特征也没有具体的数据表现,因此审计部门往往只能在有限的业务范围内,锁定风险点的个别特征。这些特征有的属于风险点的非充分特征,不能直接认定违规线索,由此推断出的问题疑点精准性不高。

二、商业银行内部审计应对大数据挑战的策略

(一)建立审计大数据架构体系,实现数据可获得。采集数据是大数据应用的第一步,也是开展大数据分析的基础。贯通高效的数据获取途径,建设多层次、多维度数据架构,是大数据应用成功与否的核心(见图1)。一是以原系统数据为基础,满足临时性数据需求。审计大数据必须打通与原系统数据的通道。审计数据分析非常注重对原汁原味数据的挖掘,一是因为原系统数据没有经过清洗,更能体现业务的貌;二是审计的灵活性决定了数据分析的不确定性,审计数据分析常常会对个别系统、个别数据进行临时提取和分析。建立与原系统数据往来的“高速公路”,支持灵活、及时、便捷和高效的数据访问,是审计大数据分析的基础和保障。二是以数据仓库为核心,解决审计数据分析业务覆盖面的问题。数据仓库存储全行主要系统数据,并往往按照一定的业务逻辑进行清洗和加工。与数据仓库建立高效的数据传输和访问机制,能够有效降低审计数据库资源占用,提高数据组织效率。审计对仓库数据的使用,也可以从运用的角度推动仓库丰富数据来源,提升数据仓库建设水平。三是以数据集市为抓手,满足常规审计数据分析需求。在原系统和数据仓库之上,建设不同主题的数据集市,每一主题下分别按照业务规则还原业务场景。大多数情况下,可以不再从原系统开始拼接数据,而是直接使用集市数据开展分析,降低了数据分析门槛,提高了数据分析效率。四是以外部数据为补充,扩展数据种类和来源。大数据环境下,数据的特点表现为大、多、广。大就是数据量大,多是指数据种类多,广则是指数据来源丰富。目前业内比较成熟的大数据应用,正是体现了数据广的特点。比如,统筹客户消费、信用、司法、海关、工商等多渠道信息,通过相互印证和比对,全面反映客户状态和质量,实现对客户的完整画像。广阔的数据来源,为审计大数据分析提供了更多方向和可能。(二)搭建完善的模型体系,满足数据可理解。模型是商业银行大数据分析的主要抓手。多层次、多维度的审计模型体系,体现了内审部门对商业银行业务风险的理解和认识。模型体系是否完善,决定了审计数据分析的能力和水平。按照使用场景的不同,审计模型可分为基础模型、分析模型和特征模型三类(见图2)。一是利用基础模型,重现业务场景。基础模型是审计模型体系的基础,通过重现业务场景,在审计数据分析中发挥前端和接口作用,模型结果主要存放在数据集市中。系统建设往往涉及多个模块和环节,对每一节点数据的理解常常分散于各开发人员,审计人员在审计项目有限的时间范围内,很难对原始数据形成深入理解。建设基础模型,就是在原始数据之上,通过梳理表间关系、字段含义,还原业务链条,重现业务场景,建立可理解程度高的中间数据模型,供各类数据分析场景使用。二是利用分析模型,展现业务短板和经营风险。分析模型是在基础模型之上,建立对某一机构、某一产品或某一客户的多维度分析。分析模型可以体现业务的发展脉络和未来趋势,也可以展现业务的集中程度和分布规律,还可以与某一标准进行比对,查找过度和差距。分析模型通常思路相对固定、编码相对成熟,审计分析模型也可以借鉴业务部门的经验,通过逐步积累,丰富分析维度,实现对机构、产品和客户的全覆盖。该类模型对制定审计计划、确定审计重点都是非常重要的参考。三是利用特征模型,锁定问题线索。特征模型是针对某一业务风险点的具体分析。特征模型的编制主要来源于审计业务实践,如制度文件、审计案例等。特征模型的结果直接指向具体审计样本。与分析模型主要解决面和线的问题相比,特征模型更加注重对点的分析。特征模型的丰富与否,体现了审计对业务风险的刻画能力。(三)采用多种分析手段,达到数据可运用。魔高一尺,道高一丈。在传统审计数据分析思路和手段逐步透明化的背景下,沿用传统方法发现审计疑点线索的难度正在不断加大,迫切需要丰富审计数据分析手段,通过维度变化揭示舞弊和违规。一是通过统计汇总,实现历史数据积累。对成熟的特征模型,实现定期自动运行,形成区分时段和时点的风险特征线索。对线索记录进行累积,直观展示违规数量、金额等量化指标,展现特征的集中程度,反映业务风险的聚集水平。二是通过大数据分析技术,发现数据背后隐藏的相关性规则。传统的审计数据分析,主要是从业务实际出发,梳理业务规则,首先完成业务建模,再根据业务模型的数据映射,通过数据关联和拼接,完成数据建模。当前应用比较广泛的大数据分析技术与此相反,往往从数据特征出发,将数据特征投入成熟的算法,首先形成数据模型,再凭借业务经验对模型结果进行解读,提炼业务模型。大数据分析技术与传统方法相比,主要依靠数据说话,能够挖掘业务数据的深层规律,从而发现传统方法难以锁定的问题,揭示非常规风险。三是通过可视化技术,直观展示分析结果。多种数据类型、多个数据来源渠道纳入审计数据分析范围,必然带来分析结果的多样化,也会带来结果数量的膨胀。审计数据分析的目的是面向应用的、不直观、不易理解、数据量庞大的结果数据,一定会影响疑点线索的应用。可视化分析技术是以可视技术和自动化分析技术为核心,支持对大规模复杂数据进行分析的技术方法。可视化的自动建模技术将大数据以直观的图形形式展示,审计人员可以直观发现数据背后的信息。因此,审计数据分析应有效引入文本可视化、网络可视化、时空数据可视化、多维数据可视化等多种技术,打通数据的最后一公里,提升分析结果的直观性,促进分析结果的有效应用。

总之,对商业银行内部审计来说,大数据是一种技术,也是一种模式,更是一种思想。大数据浪潮滚滚而来,涉及商业银行的方方面面,内审部门除技术层面外,还要从组织方式、工作模式、业务流程和人员构成等多个方面主动变革,适应未来审计业务发展的需要,进一步发挥内部审计在商业银行经营管理、风险合规和绩效发展等多方面的独特作用。

作者:曹轶 单位:中国农业银行股份有限公司审计局