|
|
|
| http://edu.533.com 资源频道 |
|
较活跃,特别是SPSS公司,它目前拥有Clementine和net.Analysis两种网络信息挖掘软件产品。
3 评价指标与方法
通过对数据挖掘系统评价方法的调查,了解到目前还没有针对网络信息挖掘系统评价报告公布出来。因此,本文在借鉴多种数据挖掘系统评价方法的基础上,提出从商业能力、算法能力、网络信息挖掘过程能力、电子商务应用能力这4个角度来评价网络信息挖掘系统的综合能力,以期为网络信息挖掘系统的选择提供一定的参考。
3.1 商业能力
这个指标又具体通过下面3个子指标体现:
1)产品的成熟度和提供商的实力。这个指标可以体现网络信息挖掘软件产品是否成熟及它的提供商具备的实力的大小。通常可以从产品推出时间、更新频率、公司创立时间、拥有客户数量、客户涉及领域等多个方面综合考虑。
2)易用性。这个指标主要从用户端角度来考虑的,又可以分为如下4个子指标:①挖掘过程的清晰度;②无技术术语;③熟悉的环境;④可视化的报告。
3)投资回报率(Return on Investment,ROI)。这个指标通常被认为是一个主观性很强、不易衡量的指标,因为对它的评价很大程度上依赖于开展的个别项目以及挖掘专家的专业知识和技能。然而它仍不失为衡量网络信息挖掘系统商业能力的重要指标之一。在电子商务环境下,网络可以使投资回报率的评测较易实现,结果更为客观。这个指标的评价,一方面可以通过各个网络信息挖掘软件的新闻报道进行分析,另一方面如果可以获得网络信息挖掘软件提供商或领域专家的客观评价则更好。
3.2 算法能力
算法能力指标用于评价在系统挖掘网络信息过程中某种算法的有效性。该指标下目前仅列出了8个子指标,即8种算法:①决策树;②神经网络;③回归;④Radial Basis Functions;⑤最近邻;⑥Nearest Mean Kohonen和自组织图(Self-organizing Maps);⑦聚类;⑧关联规则。
由于新的挖掘算法不断出现,可能这里列出的算法不完整,在具体评价时可添加。
3.3 网络信息挖掘过程能力
这个角度的评价是以往的数据挖掘系统评价所缺乏的,因此本文所提出的网络信息挖掘系统的评价体系中特别加入这个指标。它主要被用来评价网络信息挖掘系统在网络信息挖掘过程的各个阶段所表现的能力。具体分为如下5个子指标:①商业问题理解;②数据准备:数据选择,数据预处理,数据转换;③网络信息挖掘模型;④模型评价;⑤模型应用。
一般的网络信息挖掘系统都遵循这样的5个基本阶段。当然有些系统可能也有略微的差别,如WUM6.0的挖掘过程重点就是在前3个阶段。
3.4 电子商务应用能力
应用能力角度的评价也是数据挖掘系统评价中所忽视的,同时由于网络信息挖掘在电子商务方面的应用点在不断增多,本文特别设置从电子商务应用能力角度评价的指标。根据目前掌握的应用情况,又具体分为如下5个子指标:①站点布局/设计;②交叉销售;③促销(Up-sells);④个性化/推荐;⑤早期预警。
如果新的应用层面出现,可以考虑添入新的子指标。
4 初步评价分析
目前,笔者仅根据在网上可获取的信息来对各种系统的相应属性进行评价。目前可以得到的结果如下。
1)网络信息挖掘软件与数据挖掘软件的关联。本文调查的网络信息挖掘软件的提供商中一些是比较熟知的提供数据挖掘软件的公司,如Clementine网络信息挖掘应用模板(Clementine Web Mining)的提供者就是SPSS公司,该模板是该公司Clementine的应用模板之一。又如Web-hound的提供者是SAS公司。可见,越来越多的数据挖掘软件公司将目光投入到网络信息挖掘及其应用中。当然这个充满前景的领域
| 加载中...
|
|
| | | |
|
|
|
|
|
|
|
|
|
|
|
| 有意见请联系:edu533##126.com(将##换为@) |
|
加载中... |
|