SAS帮助你进行数据挖掘
早期的计算机主要就是用来进行数据处理或称数值计算的。后来随着计算机技术及其周边设备和通讯能力的发展,计算机更多地用于了大量繁杂事务的在线处理,生产设备的实时控制等。在此过程中,计算机系统积累了越来越多的数据,数据处理的任务就更加繁重。到今天,即使是发展中的我们中国,在一个企业中有数以几十或上百GB(10
字节)计的生产经营数据已不是什么希奇的事情了。企业的数据和由此而产生的信息是企业的重要财富。它最真实、具体的反映了企业运作的本质状况。但是,面对堆积如"山"的数据,你可能并未看清企业运作的本质规律是什么,或者说你至少是未能全部看清楚。面对激烈竞争的市场经济,企业的经营和管理者任何不符合客观事物规律性的决策都会给企业带来损失,甚至失败。运用有力的工具,不断地探索企业成败、得失的原委,并以此不断完善企业运作,这是每一个成功的企业家必不可少的工作任务。美国SAS软件从60年代在北卡洲立大学开创伊始就致力于计算机数据处理的研究。几十年来无数的成功事例使人们推崇SAS为国际上标准的数理统计分析软件;进而,SAS的丰富数据采集、数据管理、数据分析和信息展现的能力,又使之成为决策支持的最好的工具;现在SAS又推出了套装的SAS/Enterprise
Miner这一企业级的数据处理分析和决策支持软件包。SAS系统的软件和这些软件运用的无数成功经验,一定能帮你从企业堆积如"山"的数据中"挖掘"出隐藏着的规律性,以支持你正确的经营决策。
SAS的数据挖掘软件集成了一系列有效的技术手段全面地支持你的工作。首先是支持你的数据重组工作。在你的企业或组织中或许已经有了成功的MIS系统、CIMS系统或是有了大量卓有成效的过程控制系统,甚至是办公自动化系统。其中的数据体系对应着一项项事务处理和一个又一个控制环节,它们定能完美的支持其原有的工作。但当你从企业级的角度去审视,并想进一步分析处理时,你会感到这些数据过于分散,数量越来越大,并难以整合。美国数据挖掘技术开拓者Gregory
Piatetsky-Shapiro曾戏言说:"原来曾希望计算机系统成为我们智慧的源泉,但从中涌出的却是洪水般的数据!"其实不必埋怨数据太多,也不必埋怨原来的数据结构不好,它们是适应原有工作任务的,只是不适合你现在的要求而已。要支持你的企业级的决策,就是需要"洪水般的数据量",但是要面向企业级的工作任务对其进行重组。SAS有连续两年获奖的数据仓库系统支持你进行数据重组,并以全新的数据、信息的结构形式支持你的全新的工作方式。这在前面五篇连载文章中已作了详尽的介绍。建立数据仓库,这是进一步能有成效的进行数据挖掘的基础工作。
要看清企业或组织运作的状况,第一步就是能查询到反映你所关心事情的相应数据、信息。以SAS的多维数据库产品MDDB构造的数据仓库从物理结构上保证了你查询的迅速、方便。E.F.Codd在提出在线分析处理OLAP概念时,多维数据结构是实现其任务的第一项要求。一些简单的决策支持所需要的就是有针对性的数据。在数据重组后的数据仓库中还建立了所谓数据市场(Data
Marts),它就可以更针对决策支持的需要而设计,其中还可综合不同层次的汇总数据和跨数据仓库主题的数据。
SAS软件研究所对数据挖掘所下的定义是:数据挖掘是按照既定的业务目标,对大量的企业数据进行探索、揭示隐藏其中的规律性并进一步将之模型化的先进、有效的方法。
对数据的探索、挖掘首先要有一个明确的业务目标。一组生产数据可作生产能力的分析;可作生产成本核算的分析;亦可作影响产品质量诸因素的分析。目标决定了此后数据挖掘过程的各种运作,并导引了运作的方向。虽然说数据挖掘的业务目标在过程中不是不可修正的,也应当在工作进程中不断的进一步明确化,但其基本原则内容要保持稳定不变,否则数据挖掘工作是难以有效的进行的。
这里所指的大量企业数据最好是按照数据仓库的概念重组过的,在数据仓库中的数据、信息才能最有效的支持数据挖掘。假如所取用的数据并不足以反映企业的真实情况,当然也不可能挖掘出有用的规律。数据仓库的数据重组,首先是从企业正在运行的计算机系统中完整地将数据取出来。所谓完整,就是决策支持目标所涉及的各个环节不能有遗漏;其次各个环节的数据要按一定的规则有机、准确地衔接起来。从决策支持的主题来看,这重新组织过的数据,以极易取用的数据结构方式,全面的描述了该主题。
有了反映业务主题全貌的数据后,在进行数据的分析、探索时,对于不同的人,可能会采用不同的方式方法。Gartner
Group在评价数据挖掘工具时,也特别提到了面对各种不同类型人员的可伸缩性和完整性。SAS支持各层次用户:
业务水平和数学水平可能比较一般,对这样的用户提供方便的数据查询是非常重要的。实际上早期的决策支持主要就是数据查询的支持。可能也要做一些简单的数理统计分析。若统计分析的要求是较明确的,可以事先做好,向他们提供统计分析的结果。这可做成SAS数据仓库中的信息市场(Information
Mart)。对应他们随机的需求,应当提供菜单式选择的方便工具。
业务水平较高,但数学水平一般,且没有时间和兴趣再钻研数学方法的人,除了以上资源外,还应提供能简便的实现各种常用的数理统计的工具。让他们不必受累于繁杂的过程,通过简单的需求设定,即可执行他们需要的操作。
有计算机和数学知识,但对业务的熟悉程度一般的人员。对他们要提供较全面的数据处理工具,如:数理统计;聚类分析;决策树;人工神经元网络;……等。
对有很深计算机和数学造诣的数据分析专家不仅要提供上述环境,而且还要提供实现各种算法的工具和开发平台。
SAS系统提供了适合各类人员使用的既完整,又有伸缩性的摸块化的工具。
通过探索和模型化所得的结果可分成两种类型:一种是描述型的;另一种是预测型的。描述型的结果是指通过数据挖掘量化的搞清了业务目标的现状。如在原来工艺规程中允许的范围内,生产出来的产品质量水平波动很大。通过数据挖掘找出了这同一种产品在什么条件下产出的产品质量比较好;什么条件下产出的产品质量较差。通过数据挖掘,描述清楚了产品质量高低的规律性,这就为修改原来的工艺规程提供了决策的支持依据。
通过数据挖掘还可以建立起企业或某个过程的各种不同类型模型。这些模型不仅能描述当前的现状和规律性,而且利用它还可以预测当条件变化后可能发生的状况。这就为企业开发新产品;甚至于为企业业务重组提供决策支持依据。
在世界走向信息化的今天,充分利用企业的信息资源,挖掘企业和所对应市场的运作规律性,以不断提高企业的经济效益是先进企业的必由之路。世界有名的Gartner
Group咨询顾问公司预计:不久的将来先进的大企业将会设置"统一数据分析专家"的工作岗位。
在以SAS数据仓库和数据挖掘应用获奖的美国LTV钢铁公司阐述其获奖文章的题目是"DW
+ DM =
$aving"亦即在企业中建立数据仓库进行数据挖掘就是挖取企业的经济效益。
SAS的数据挖掘的方法论-SEMMA
正象是你拿个镐在山上挖几下不能算是开采矿山一样,用数理统计方法或人工神经元网络作个数据分析,也不能说就是在进行数据挖掘了。要开采矿山,首先要按照人类总结千百年来经验所形成的理论规律去找矿;发现矿藏后还要根据其实际地质情况,有针对性的采用相应的方法最有效的挖掘才能获得有价值的宝藏。同样,要想有效地进行数据挖掘也必须要有好的工具和一整套妥善的方法论。可以说在数据挖掘中你采用的工具、使用工具的能力、以及数据挖掘过程中的方法论在很大程度上决定了你能开拓的成果。SAS研究所不仅有丰富的工具供你选用,而且在多年的数据处理研究工作中积累了一套行之有效的数据挖掘方法论──SEMMA,通过使用SAS技术进行数据挖掘,我们愿意和你分享这些经验:
Sample──数据取样
Explore──数据特征探索、分析和予处理
Modify──问题明确化、数据调整和技术选择
Model──模型的研发、知识的发现
Assess──模型和知识的综合解释和评价
Sample──数据取样
当进行数据挖掘时,首先要从企业大量数据中取出一个与你要探索问题相关的样板数据子集,而不是动用全部企业数据。这就象在对开采出来矿石首先要进行选矿一样。通过数据样本的精选,不仅能减少数据处理量,节省系统资源,而且能通过数据的筛选,使你想要它反映的规律性更加凸现出来。
通过数据取样,要把好数据的质量关。在任何时候都不要忽视数据的质量,即使你是从一个数据仓库中进行数据取样,也不要忘记检查其质量如何。因为通过数据挖掘是要探索企业运作的规律性的,原始数据有误,还谈什么从中探索规律性。若你真的从中还探索出来了什么"规律性",再依此去指导工作,则很可能是在进行误导。若你是从正在运行着的系统中进行数据取样,则更要注意数据的完整性和有效性。再次提醒你在任何时候都不要忽视数据的质量,慎之又慎!
从巨大的企业数据母体中取出哪些数据作为样本数据呢?这要依你所要达到的目标来区分采用不同的办法:如果你是要进行过程的观察、控制,这时你可进行随机取样,然后根据样本数据对企业或其中某个过程的状况作出估计。SAS不仅支持这一取样过程,而且可对所取出的样本数据进行各种例行的检验。若你想通过数据挖掘得出企业或其某个过程的全面规律性时,必须获得在足够广泛范围变化的数据,以使其有代表性。你还应当从实验设计的要求来考察所取样数据的代表性。唯此,才能通过此后的分析研究得出反映本质规律性的结果。利用它支持你进行决策才是真正有效的,并能使企业进一步获得技术、经济效益。
Explore──数据特征探索、分析和予处理
前面所叙述的数据取样,多少是带着人们对如何达到数据挖掘目的的先验的认识进行操作的。当我们拿到了一个样本数据集后,它是否达到我们原来设想的要求;其中有没有什么明显的规律和趋势;有没有出现你所从未设想过的数据状态;因素之间有什么相关性;它们可区分成怎样一些类别……这都是要首先探索的内容。
进行数据特征的探索、分析,最好是能进行可视化的操作。SAS有:SAS/INSIGHT和SAS/SPECTRAVIEW两个产品给你提供了可视化数据操作的最强有力的工具、方法和图形。它们不仅能做各种不同类型统计分析显示,而且可做多维、动态、甚至旋转的显示。
这里的数据探索,就是我们通常所进行的深入调查的过程。你最终要达到的目的可能是要搞清多因素相互影响的,十分复杂的关系。但是,这种复杂的关系不可能一下子建立起来。一开始,可以先观察众多因素之间的相关性;再按其相关的程度,以了解它们之间相互作用的情况。这些探索、分析,并没有一成不变操作规律性;相反,是要有耐心的反复的试探,仔细的观察。在此过程中,你原来的专业技术知识是非常有用的,它会帮助你进行有效的观察。但是,你也要注意,不要让你的专业知识束缚了你对数据特征观察的敏锐性。可能实际存在着你的先验知识认为不存在的关系。假如你的数据是真实可靠的话,那末你绝对不要轻易地否定数据呈现给你的新关系。很可能这里就是发现的新知识!有了它,也许会导引你在此后的分析中,得出比你原有的认识更加符合实际的规律性知识。假如在你的操作中出现了这种情况,应当说,你的数据挖掘已挖到了有效的矿脉。
在这里要提醒你的是要有耐心,做几种分析,就发现重大成果是不大可能的。所幸的是SAS向你提供了强有力的工具,它可跟随你的思维,可视化、快速的作出反应。免除了数学的复杂运算过程和编制结果展现程序的烦恼和对你思维的干扰。这就使你数据分析过程集聚于你业务领域的问题,并使你的思维保持了一个集中的较高级的活动状态,从而加速了你的思维过程,提高了你的思维能力。
Modify──问题明确化、数据调整和技术选择
通过上述两个步骤的操作,你对数据的状态和趋势可能有了进一步的了解。对你原来要解决的问题可能会有了进一步的明确;这时要尽可能对问题解决的要求能进一步的量化。问题越明确,越能进一步量化,问题就向它的解决更前进了一步。这是十分重要的。因为原来的问题很可能是诸如质量不好、生产率低等模糊的问题,没有问题的进一步明确,你简直就无法进行有效的数据挖掘操作。
在问题进一步明确化的基础上,你就可以按照问题的具体要求来审视你的数据集了,看它是否适应你的问题的需要。Gartner
group在评论当前一些数据挖掘产品时特别强调指出:在数据挖掘的各个阶段中,数据挖掘的产品都要使所使用的数据和所将建立模型处于十分易于调整、修改和变动的状态,这才能保证数据挖掘有效的进行。
针对问题的需要可能要对数据进行增删;也可能按照你对整个数据挖掘过程的新认识,要组合或者生成一些新的变量,以体现对状态的有效的描述。SAS对数据强有力的存取、管理和操作的能力保证了对数据的调整、修改和变动的可能性。若使用了SAS的数据仓库产品技术时就更进一步保证了有效、方便的进行这些操作。
在问题进一步明确;数据结构和内容进一步调整的基础上,下一步数据挖掘应采用的技术手段就更加清晰、明确了。
Model──模型的研发、知识的发现
这一步是数据挖掘工作的核心环节。虽然数据挖掘模型化工作涉及了非常广阔的技术领域,但对SAS研究所来说并不是一件新鲜事。自从SAS问世以来,就一直是统计模型市场领域的领头羊,而且年年提供新产品,并以这些产品体现业界技术的最新发展。
按照SAS提出的SEMMA方法论走到这一步时,你对应采用的技术已有了较明确的方向;你的数据结构和内容也有了充分的适应性。SAS在这时也向你提供了充分的可选择的技术手段:广泛的数理统计方法;人工神经元网络;决策树……等。
正如Gartner
group评论中所指出的:数理统计方法还是数据挖掘工作中最常用的主流技术手段。在SAS的SAS/STAT软件包中就覆盖了所有的实用数理统计方法,并成为国际上统计分析领域的标准软件。SAS/STAT提供了十多个过程可进行各种不同类型模型、不同特点数据的回归分析,如正交回归、响应面回归、Logistic回归、非线性回归等,且有多种形式模型化的方法选择。可处理的数据有实型数据、有序数据和属性数据,并能产生各种有用的统计量和诊断信息。在方差分析方面,SAS/STAT为多种试验设计模型提供了方差分析工具。更一般的,它还有处理一般线性模型和广义线性模型的专用过程。在多变量统计分析方面,SAS/STAT为主成分分析、典型相关分析、判别分析和因子分析提供了许多专用过程。SAS/STAT含有多种聚类准则的聚类分析方法。利用SAS/STAT可进行生存分析(这对客户保有程度分析等特别有用)。SAS/ETS提供了丰富的计量经济学和时间序列分析方法,是研究复杂系统和进行预测的有力工具。它提供方便的模型设定手段、多样的参数估计方法。实际上SAS的数理统计工具不仅能揭示企业已有数据间的新关系、隐藏着的规律性;而且能反过来预测它的发展趋势,或是在一定条件下将会出现什么结果。
SAS以GUI式的友好界面提供了人工神经元网络的应用环境。一般的情况下人工神经元网络对数据处理的要求比较多,在处理上资源的消耗也比较大。但在SAS的集成环境下,有规范的数据维护、管理机制;可在诸如Client/Server等综合调度环境中运行,这就保证了你的人工神经元网络应用更顺畅的实现。
人工神经元网络和决策树的方法结合起来可用于从相关性不强的多变量中选出重要的变量。SAS还支持
平方自动交互检验(CHAID)。分类和回归树的软件包(CART)也已交付使用。
在你的数据挖掘中使用哪一种方法,用SAS软件包中什么方法来实现,这主要取决于你的数据集的特征和你要实现的目标。实际上这种选择也不一定是唯一的。好在SAS软件运行效率十分高,你不妨多试几种方法,从实践中选出最适合于你的方法和软件。
随着业界方法研究的进展,SAS会不断地向你提供实现它们的软件包,这将支持你数据挖掘工作可持续的发展。
Assess──模型和知识的综合解释和评价
从上述过程中将会得出一系列的分析结果、模式或模型。若能得出一个直接的结论当然很好。但更多的时候会得出对目标问题多侧面的描述。这时就要能很好的综合它们的影响规律性提供合理的决策支持信息。所谓合理,实际上往往是要你在所付出的代价和达到预期目标的可靠性的平衡上作出选择。假如在你的数据挖掘过程中,就预见到最后要进行这样的选择的话,那末你最好把这些平衡的指标尽可能的量化,以利你综合抉择。
你提供的决策支持信息适用性如何,这显然是十分重要的问题。除了在数据处理过程中SAS软件提供给你的许多检验参数外,评价的办法之一是直接使用你原来建立模型的样板数据来进行检验。假如这一关就通不过的话,那末你的决策支持信息的价值就不太大了。一般来说,在这一步应得到较好的评价。这说明你确实从这批数据样本中挖掘出了符合实际的规律性。
另一种办法是另外找一批数据,已知这些数据是反映客观实际的规律性的。这次的检验效果可能会比前一种差。差多少是要注意的。若是差到你所不能容忍程度,那就要考虑第一次构建的样本数据是否具有充分的代表性;或是模型本身不够完善。这时候可能要对前面的工作进行反思了。若这一步也得到了肯定的结果时,那你的数据挖掘应得到很好的评价了。
再一种办法是在实际运行的环境中取出新鲜数据进行检验。如在一个应用实例中,就进行了一个月的现场实际检验。
以上叙述的是数据挖掘的基本流程。如图所示这一过程可能是要反复进行的。在反复过程中,不断的趋近事物的本质,不断的优化你的问题的解决方案。在各个行业SAS大量的成功实践证明了这一方法的强大威力。SAS的SEMMA方法论也一定能帮助你在数据挖掘中取得成功。
SAS数据挖掘的集成软件工具-SAS/EM(Enterprise
Miner)
利用SAS软件技术进行数据挖掘可以有三种方式:
使用SAS软件模块组合进行数据挖掘
将若干SAS软件模块联结成一个适合你的需要的综合应用软件
使用SAS数据挖掘的集成软件工具SAS/EM
在SAS数据挖掘的方法论──SEMMA的介绍中已经说明了可利用哪些SAS软件模块组合进行数据挖掘。这里将向你介绍SAS数据挖掘的集成软件工具SAS/EM。
SAS/EM是一个图形化界面,菜单驱动的,对用户非常友好且功能强大的数据挖掘集成软件。其中集成了:
数据获取工具 数据取样工具 数据筛选工具
数据变量转换工具 数据挖掘数据库 数据挖掘过程
多种形式的回归工具 为建立决策树的数据剖分工具
决策树浏览工具 人工神经元网络
数据挖掘的评价工具
可利用SAS/EM中具有明确代表意义的图形化的模块将这些数据挖掘的工具单元组成一个处理流程图,并依此来组织你的数据挖掘的过程。这一过程在任何时候均可根据具体情况的需要进行修改、更新并将适合你需要的模式存储起来,以便此后重新调出来使用。SAS/EM图形化的界面,可视化的操作,可导引即使是数理统计经验不太多的使用者也能按照SEMMA的原则成功的进行数据挖掘。对于有经验的专家,SAS/EM也可让你一展身手精细的调整分析处理过程。
这一强大的数据挖掘工具组合阵容,保证了可以支持企业级的数据挖掘的各个方面工作。
数据获取工具
在SAS/EM的这个数据获取工具中,你可以通过对话框指定要使用的数据集的名称,并指定要在数据挖掘中使用的数据变量。变量分为两类:区间变量(Interval
Variable)和分类变量(Class
Variable)。区间变量是指那些要进行统计处理的变量。对于这样一些变量,在数据输入阶段你就可以指定它们是否要作最大值、最小值、平均值、标准差等的处理。还可给出该变量是否有值的缺漏,缺漏的百分比是多少等。利用这些指定可对输入数据在获取伊始就进行了一次检查,并把结果告诉你,你可初步审视其质量如何。
区间变量以外的变量称之为分类变量。在数据输入阶段将会提供给你每个分类变量共有多少种值可供分类之用。
数据取样工具
对获取的数据,可再从中作取样操作。取样的方式是多种多样的,有:随机取样、等距取样、分层取样、从起始顺序取样和分类取样等方式。
随机取样
在采用随机取样方式时,数据集中的每一组观测值都有相同的被取样的概率。如按10%的比例对一个数据集进行随机取样,则每一组观测值都有10%的机会被取到。
等距取样
如按5%的比例对一个有100组观测值的数据集进行等距取样,则有:100
/ 5 =
20,等距取样方式是取第20、40、60、80和第100等五组观测值。
分层取样在这种取样操作时,首先将样本总体分成若干层次(或者说分成若干个子集)。在每个层次中的观测值都具有相同的被选用的概率,但对不同的层次你可设定不同的概率。这样的取样结果可能具有更好的代表性,进而使模型具有更好的拟合精度。
从起始顺序取样
这种取样方式是从输入数据集的起始处开始取样。取样的数量可以给定一个百分比,或者就直接给定选取观测值的组数。
分类取样
在前述几种取样方式中,取样的单位都是一组观测值。分类取样的单位是一类观测值。这里的分类是按观测值的某种属性进行区分。如按客户名称分类、按地址区域分类等。显然在同一类中可能会有多组观测值。分类取样的选取方式就是前面所述的几种方式,只是取样以类为单位。
设置多种形式的取样方式不仅给了你取样的灵活性,更重要的是从取样阶段你就能主动的考虑数据挖掘的目的性,强化了最后结论的效果。
数据筛选工具
通过数据筛选工具你可从观测值样本中筛选掉你不希望包括进来的观测值。对于分类变量可给定某一类的类值说明此类观测值是要排除于取样范围之外的。对于区间变量可指定其值大于或小于某值时的这些组观测值是要排除于取样范围之外的。
通过数据筛选使样本数据更适合你要数据挖掘的目标。
数据变量转换工具
利用此工具可将某一个数据进行某种转换操作,然后将转换后的值作为新的变量存放在样本数据中。转换的目的是为了使你的数据和将来要建立的模型拟合的更好。例如,原来的非线性模型线性化、加强变量的稳定性等。可进行取幂、对数、开方…等转换。当然,你亦可给定一个公式进行转换。
建立数据挖掘用的数据库
在进行数据挖掘分析模型的操作之前,要建立一个数据挖掘的数据库(DMDB),其中就放置此次要进行操作的数据。因为此后可能要进行许多复杂的数学运算,在这里建立一个专门的数据集将使你的工作更加有效率。在处理之前,可对你选进数据挖掘数据库的各个变量预先进行诸如最大、最小、平均、标准差…等处理。对一些要按其分类的变量的等级也先放入Meta
Data之中,以利接下来的操作。总之在这个数据库中为数据挖掘建立一个良好的工作环境。
数据挖掘过程
在数据挖掘的过程中可以使用SAS广泛的数学方法,以及实现最新数学方法的环境。这给你提供了几乎无所不能的数据挖掘天地。限于篇幅这里主要介绍几种常用的工具。
多种形式的回归工具
在图形化工具中提供的回归操作中主要有线性回归和Logistic回归。在线性回归中有若干不同方法供你选择,诸如向前、向后的逐步回归等,还有多种回归运算结束的准则给你指定。
在Logistic回归过程中可拟合逻辑型的模型,其中响应变量可以是双值的或者是多值的。亦可使用逐步法选择模型,还可以进行回归诊断及计算预测值和残差值。
回归处理结束后,将会给你提供一份供讨论的详细的结果。内容包括:对回归参数的评价;对于模型拟合的统计结果;回归结果的标准输出:F-检验、均方差、自由度…等;回归运行的LOG;全部回归处理程序的代码;以及对此次回归记录文档资料。
为建立决策树的数据剖分工具
对数据集进行聚类、剖分建立决策树,是近来数据处理,进行决策支持常用的方法。在SAS/EM中亦支持这一功能。在建立决策树的过程中可有多种数据聚类、剖分的方法供你选择。
图形化界面的交互式操作,可分成六个层次:
对你在数据挖掘数据库中选定的数据集的操作
对数据集中的变量的处理
聚类、剖分时的基本选择项
聚类、剖分时的进一步操作选择项 模型的初步确定
结果的评价
聚类、剖分可以多种不同的方法进行,不能说哪种方法更"准确",这要看是否满足了你决策问题的需要。也许你应当试试不同方法所产生的结果。恰好SAS/EM不仅具有多种多样的处理方式的选择,而且具有相当高的"自动化"程度,使你能以极快的速度尝试多种方法,尽快得出你的最佳选择。
决策树浏览工具
你最后作出来满意的决策树可能是个"枝繁叶茂"的架构。SAS/EM给你提供了可视化的浏览工具。这一点很重要,一个复杂的决策树若难以观察,则会影响你实施决策时的效率,甚至是有效性。决策树浏览工具包括有:
决策树基本内容和统计值的汇总表
决策树的导航浏览器 决策树的图形显示
决策树的评价图表 人工神经元网络
人工神经元网络是近来使用越来越广的模型化方法,特别是对回归中难以处理的非线性关系问题,它往往能以更真实反映世界的能力使之得到更灵活的处理。在SAS/EM中有强有力的实现人工神经元网络模型的各种工具,使你免除了繁杂的数据处理,集中精力于模型本身的考虑。
在SAS/EM中的人工神经元网络应用功能可以处理线性模型;多层感知模型(MLP-Multilayer
perceptron这是采用较多的缺省方式)和放射型功能(RBF-Radial
basis
function)。在交互式图形化界面上,在一个在线的关于SAS人工神经元网络问答的支持下,使你能高效的通过以下四个步骤建立人工神经元网络的模型:
数据准备 神经网络的定义
人工神经元网络的训练 生成预报模型
数据挖掘的评价工具
在SAS/EM的评价工具中,向你提供了一个通用的数据挖掘评价的架构,可以比较不同的模型效果;预报各种不同类型分析工具的结果。
在进行了各种比较和预报的评价之后,将给出一系列标准的图表,供你进行定量评价。可能你会有自己独特的评价准则,在SAS/EM的评价工具中,你还可以进行客户化的工作,对那些标准的评价图表按你的具体要求进行更改。这样一来,评价工作可能就会更有意义。
SAS/EM让你以可操作的规范性实现了前面所讲的SEMMA数据挖掘方法学。它所涵盖的技术深度和广度你是可以想见的。这对于各种不同类型的计算机用户来说都是非常适合的。如果让你自己规划这样一个系统,可能你很难想象得这样完整,更不要说你是否有这么多的时间和精力象SAS的数据挖掘专家这样去开发这样的工具。