- 从垂直管理到合纵连横:华西医院高效运营管理实务
- 程永忠主编
- 6039字
- 2021-04-16 11:05:36
二、 数据挖掘与运营管理
(一) 数据挖掘 1.数据挖掘的由来
身处网络化的时代,通信、计算机和网络技术正改变着整个人类和社会。让我们来看一些身边俯拾即是的现象:《纽约时报》由20世纪60年代的10~20版扩张至现在的100~200版,最高曾达1572版;《北京青年报》也已是16~40版;《市场营销报》已达100版。然而在现实社会中,人均日阅读时间通常为30~45分钟,只能浏览一份24版的报纸。大量信息在给人们带来方便的同时也带来了一大堆问题:第一是信息过量,难以消化;第二是信息真假难以辨识;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。人们开始提出一个新的口号:“要学会抛弃信息”。人们开始考虑:“如何才能不被信息淹没,而是从中及时发现有用的知识,提高信息利用率?”面对这一挑战,数据开采和知识发现技术应运而生,并显示出其强大的生命力。
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识手段,导致了“数据爆炸,但知识贫乏”的现象。
超大规模数据库的出现,例如商业数据仓库和计算机自动收集的数据记录;先进的计算机技术,例如更快和更大的计算能力和并行体系结构;对大量数据的快速访问;对数据应用精深的统计方法计算的能力。这四个主要的技术理由激发了数据挖掘的开发、应用和研究。
2.数据挖掘的定义
什么是数据挖掘(data mining)?从技术的角度简单地说,就是指从大量的、不完全的、有噪音的、随机的实际应用数据中,提取隐含在其中人们不知道的,但又是潜在有用的信息和知识的过程,并且对所提取的信息按多种方式进行分析。
这里所说的知识,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。作为一种新的信息处理技术,数据挖掘,又称为数据库中知识发现(Knowledge Discovery in Database,KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程由以下步骤组成:①数据清理;②数据集成;③数据选择;④数据变换;⑤数据挖掘;⑥模式评估;⑦知识表示。由于数据挖掘可以与不同领域的用户或者知识库进行交互,因此数据挖掘的应用范围很广泛。
3.数据挖掘的功能
数据挖掘通过预测未来趋势及行为,做出前瞻的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能:
(1) 自动预测趋势和行为:
数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其他可预测的问题,包括预报破产以及认定对指定事件最可能作出反应的群体。
(2) 关联分析:
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。
(3) 聚类:
数据库中的记录可被划分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。20世纪80年代初,Mchalski提出了概念聚类技术,其要点是:在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。
(4) 概念描述:
概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。
(5) 偏差检测:
数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。
4.数据挖掘的技术
数据挖掘是近年来数据库应用技术中相当热门的议题,看似神奇、听来时髦,实际上却不是什么新东西,因其所用的,诸如预测模型、数据分割,联结分析(link analysis)、偏差侦测(deviation detection)等,美国早在第二次世界大战前就已应用在人口普查及军事等方面了。
一般而言,数据挖掘的理论技术可分为传统技术与改良技术。传统技术以统计分析为代表,统计学内所含序列统计、概率论、回归分析、类别数据分析等都属于传统数据挖掘技术,尤其data mining对象多为变量繁多且样本数庞大的数据,是以高等统计学里所包含之多变量分析中用来精简变量的因素分析(factor analysis)、用来分类的判别分析(discriminant analysis),以及用来区隔群体的分群分析(cluster analysis)等,在data mining过程中特别常用。
在改良技术方面,应用较普遍的有决策树理论(decision trees)、类神经网络(neural network)以及规则归纳法(rules induction)等。
(1) 决策树:
是一种用树枝状展现数据受各变量的影响情形之预测模型,根据对目标变量产生之效应的不同而建构分类的规则,一般多运用在对客户数据的分析上。例如针对有回函与未回函的邮寄对象找出影响其分类结果的变量组合,常用分类方法为CART(Classification and Regression Trees)及CHAID(Chi-Square Automatic Interaction Detector)两种。
(2) 类神经网络:
是一种仿真人脑思考结构的数据分析模式,由输入之变量与数值中自我学习并根据学习经验所得的知识不断调整参数以期建构数据的型样(patterns)。类神经网络为非线性的设计,与传统回归分析相比,好处是在进行分析时无须限定模式,特别当数据变量间存有交互效应时可自动侦测出。缺点则在于其分析过程为一个黑盒子,故常无法以可读的模型格式展现,每阶段的加权与转换也不明确,所以类神经网络多利用于数据属于高度非线性且带有相当程度的变量交感效应时。
(3) 规则归纳法:
是知识发掘领域中最常用的格式,这是一种由一连串的“如果……/则……”(If……Then……)之逻辑规则对数据进行细分的技术,在实际运用时如何界定规则为有效是最大的问题,通常需要先将数据中发生数太少的项目剔除,以避免产生无意义的逻辑规则。
5.数据挖掘与传统分析的不同
数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识的。数据挖掘所得到的信息应具有先前未知、有效和可实用三个特征。先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系。
(二) 数据挖掘在运营管理中的应用
数据挖掘在各领域的应用非常广泛,只要该产业拥有分析价值与需求的数据仓储或数据库,皆可利用挖掘工具进行有目的的挖掘分析。一般较常见的应用案例多发生在零售业、直销和行销界、制造业、财务金融保险、通讯业以及医疗服务等。
电话公司、信用卡公司、保险公司以及股票交易商对于欺诈行为的侦测(fraud detection)都很有兴趣,这些行业每年因为欺诈行为而造成的损失非常可观。数据挖掘可以从一些信用不良的客户数据中找出相似特征并预测可能的欺诈交易,达到减少损失的目的。财务金融业可以利用数据挖掘来分析市场动向,并预测个别公司的运营以及股价走向。数据挖掘的另一个独特的用法是在医疗业,用来预测手术、用药、诊断或是流程控制的效率。
1.数据挖掘与商业银行
数据挖掘技术在美国银行金融领域应用广泛。金融事务需要搜集和处理大量的数据,对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。商业银行业务的利润和风险是共存的。为了保证最大的利润和最小的风险,必须对账户进行科学的分析和归类,并进行信用评估。Mellon银行使用Intelligent Agent数据挖掘软件提高销售和定价金融产品的精确度,如家庭普通贷款。零售信贷客户主要有两类,一类很少使用信贷限额(低循环者),另一类能够保持较高的未清余额(高循环者)。每一类都代表着销售的挑战。低循环者代表缺省和支出注销费用的危险性较低,但会带来极少的净收入或负收入,因为他们的服务费用几乎与高循环者的相同。银行常常为他们提供项目,鼓励他们更多地使用信贷限额或找到交叉销售高利润产品的机会。高循环者由高和中等危险元件构成。高危险分段具有支付缺省和注销费用的潜力。对于中等危险分段,销售项目的重点是留住可获利的客户并争取能带来相同利润的新客户。但根据新观点,用户的行为会随时间而变化。分析客户整个生命周期的费用和收入就可以看出谁是最具有创利潜能的。Mellon银行认为“根据市场的某一部分进行定制”能够发现最终用户并将市场定位于这些用户。但是,要这么做就必须了解关于最终用户特点的信息。数据挖掘工具为Mellon银行提供了获取此类信息的途径。Mellon银行销售部在先期数据挖掘项目上使用Intelligence Agent寻找信息,主要目的是确定现有Mellon用户购买特定附加产品:家庭普通信贷限额的倾向,利用该工具可生成用于检测的模型。据银行官员称:Intelligence Agent可帮助用户增强其商业智能,如交往、分类或回归分析,依赖这些能力,可对那些有较高倾向购买银行产品、服务产品和服务的客户进行有目的的推销。该官员认为,该软件可反馈用于分析和决策的高质量信息,然后将信息输入产品的算法。Intelligence Agent还有可定制的能力。美国Firstar银行使用Marksman数据挖掘工具,根据客户的消费模式预测何时为客户提供何种产品。Firstar银行市场调查和数据库营销部经理发现:公共数据库中存储着关于每位消费者的大量信息,关键是要透彻地分析消费者投入到新产品中的原因,在数据库中找到一种模式,从而能够为每种新产品找到最合适的消费者。Marksman能读取800~1000个变量并且给它们赋值,根据消费者是否有家庭财产贷款、赊账卡、存款证或其他储蓄、投资产品,将它们分成若干组,然后使用数据挖掘工具预测何时向每位消费者提供哪种产品。预测准客户的需要是美国商业银行的竞争优势。
2.数据挖掘与医院管理
数据挖掘在医院的应用将对医院的医疗质量管理、病种分析等临床应用以及医院市场定位、医院运营管理等方面有非常大的帮助和实际作用。
(1) 医疗质量中的数据挖掘
① 工作量指标影响因素分析:进行各种工作量指标影响因素分析的目的,是科学、合理地评价各种影响因素,找出影响关键变量发展变化的主要因素,为医院决策管理提供依据。比如医院收治病人数是医院工作量的重要指标,直接影响医院的社会效益和经济效益。2003年曾有学者利用数据挖掘技术中的灰色关联分析方法对医院收治病人数的影响因素进行分析后发现,从关联度大小看,病床周转次数、住院病人手术人次与年收治病人数关联程度较高,是影响医院年收治病人数的主要因素;其次是平均开放病床数和年平均医生人数。
② 临床治疗效果分析:对疾病预后情况的评价,是医疗质量管理的主要内容。利用病人主记录数据仓库,我们可以对病人的预后情况进行分类。比如在出院病人中,对正常出院病人的情况、死亡病人的情况、转院或者转科病人的情况,可通过分析死亡率、治愈率以及好转率的特征来制定相关的治疗方案。
③ 医疗质量综合评价:应用数据挖掘技术对医疗质量进行综合评价,将对加强医疗质量管理起着积极的促进作用。对综合评价的过程进行标准化,采用统一评价模式、统一评价指标、统一标化方法、统一权重系数、统一分类方法,对医疗、护理工作检查资料以及根据医院业务工作报表指标,对终末质量进行综合评价比较。
(2) 门急诊管理中的数据挖掘
① 门急诊就医趋势:从门急诊数据仓库中对就医人群的年龄、职业、性别等特征进行就医人群的动态变化分析,以了解患者的需求,以便决策者采取相关的策略来加强门急诊的科学化管理。比如门急诊的预约服务就是利用数据挖掘技术而提炼出来的。实行预约挂号大大减少了病人在医院的等候时间,提高了服务质量。
② 门急诊病人疾病谱分析:门诊病人疾病谱广泛,病种繁杂,利用数据挖掘技术对门诊的诊断进行归类,建立门诊单病种数据仓库,决策者们就可以参考疾病谱来确定学科建设和发展方向,积极应对各种挑战,提高医疗服务质量。
③ 门急诊病人人次的预测:门急诊人次是反映医院工作量的主要指标之一,常常引起人们的关注。由于它与多种因素相互关联,受某些因素的影响可产生波动现象,因而在应用传统的预测方法时,会受到某种程度的局限。而数据挖掘中的灰色预测是将原始数据生成为较有规律的生成数据后再建模拟预测的一种预测方法。
(3) 医院配置中的数据挖掘
① 医护人员优化配置:医院决策者可以利用数据挖掘技术得出的结论对全院医护人员的配置进行调整,合理安排人力资源,杜绝出现人力资源浪费和短缺问题,以保证全院各个科室的正常运转。
② 床位合理分配:管理者可利用数据挖掘技术实施床位的预留和使用分配,保证医院床位的最大利用率。例如某些医院将所有空床全部汇总到一个部门,由相关的管理人员按顺序以及病情的轻重缓急安排病人入院。
③ 药品耗材的合理库存:根据药品销售明细和耗材使用明细仓库来提取数据,并对数据进行宏观分析,以保证药房管理人员安排合理的药品和耗材的安全库存,并缩短库存提前期,使医院药品流通渠道畅通无阻。
(4) 数据挖掘在医院管理中的应用前景:
现代医院在借助于信息技术的基础上,已经成为一个集医疗技术、数据库技术、管理技术、数据分析技术于一体化的信息化综合行业体系。现代医院中的数据来源可以是多个不同的管理系统,而用户覆盖了基层工作人员,乃至最高决策层。从数据转变成最终提供给用户的信息,这一过程就需要利用数据挖掘技术,通过系统采集源数据后进行预处理,再深度整合挖掘数据,最后将其变成可执行的决策信息传递给用户(图1-1)。
由于数据挖掘技术是应用技术,如果能将医学领域的专业知识和挖掘人员的专业知识结合,收集大量的数据,反复实践,形成一个真实可靠的系统,帮助决策者们制定出管理医院的良好决策,并为医院制定竞争策略提供有力的技术支持。因此,数据挖掘技术对医院未来的发展趋势,将起到辅助实际工作的决策作用。
图1-1 数据转化过程
附:数据挖掘常用工具 一般分析目的的软件包:
TipDM(顶尖数据挖掘平台)
GDM(Geni-Sage Data Mining Analysis System,博通数据挖掘分析系统)
SAS Enterprise Miner
Markway Analysis System(马克威分析系统)
KXEN(凯森)
IBM Intelligent Miner
Unica PRW
SPSS Clementine(医疗业)
SGI MineSet
Oracle Darwin
AngossKnowledgeSeeker
针对特定功能或产业而研发的软件:
KD1(针对零售业)
Options & Choices(针对保险业)
HNC(针对信用卡诈欺或呆账侦测)
Unica Model 1(针对行销业)
iEM System(针对流程行业的实时历史数据)
整合DSS(Decision Support Systems)/OLAP/Data Mining的大型分析系统
Cognos Scenario and Business Objects
(程永忠 李楠)