电子商务是现代商业的主流趋势,如何充分利用网络技术和数据库技术发挥企业优势,成为企业制胜的法宝。本文介绍了常用的数据挖掘方法,以及在电子商务领域的应用,分析了利用数据挖掘技术建设动态、高效电子商务的可行性。
一、引言
电子商务是指以Internet网络为载体、利用数字化电子方式开展的商务活动。随着网络技术和数据库技术的飞速发展,电子商务正显示越来越强大的生命力。电子商务的发展促使公司内部收集了大量的数据,并且迫切需要将这些数据转换成有用的信息和知识,为公司创造更多潜在的利润。利用数据挖掘技术可以有效地帮助企业分析从网上获取的大量数据,发现隐藏在其后的规律性,提取出有效信息,进而指导企业调整营销策略,给客户提供动态的个性化的高效率服务。
二、数据挖掘技术
1.数据挖掘
数据挖掘(DataMining),又称数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD),是从大量的、不完全的、有噪声的、模糊的和随机的数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。数据挖掘是一门广义的交叉学科,它汇聚了不同领域尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的知识。数据挖掘技术从一开始就是面向应用领域,它不仅是面向特定数据库的简单检索查询调用,而且,要对数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指定实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。数据挖掘技术在金融、保险、电信、大型超市等积累有大量数据的电子商务行业有着广泛的应用,如信用分析、风险分析、欺诈检验、用户聚类分析、消费者习惯分析等。
2.数据挖掘过程
挖掘数据过程可以分为3个步骤:数据预处理、模式发现、模式分析。
(1)数据预处理。实际系统中的数据一般都具有不完全性、冗余性和模糊性。因此,数据挖掘一般不对原始数据进行挖掘,要通过预处理提供准确、简洁的数据。预处理主要完成以下工作:包括合并数据,将多个文件或多个数据库中的数据进行合并处理;选择数据,提取出适合分析的数据集合;数据清洗、过滤,剔除一些无关记录,将文件、图形、图像及多媒体等文件转换成可便于数据挖掘的格式等。
(2)模式发现。模式发现阶段就是利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的以及最终可以理解的信息和知识。可用于Web的挖掘技术有路径选择、关联分析、分类规则、聚类分析、序列分析、依赖性建模等等。
(3)模式分析。模式分析是从模式发现阶段获得的模式、规则中过滤掉不感兴趣的规则和模式。通过技术手段,对得到的模式进行数据分析,得出有意义的结论。常用的技术手段有:关联规则、分类、聚类、序列模式等。
三、电子商务中几种常用的数据挖掘方法
1.关联规则
关联规则是数据挖掘研究的主要模式之一,侧重于确定数据中不同领域之间的关系,找出满足给定条件下的多个域间的依赖关系。关联规则挖掘对象一般是大型数据库,该规则一般表示式为:A1∧A2∧…Am=>B1∧B2∧…Bm,其中,Ak(k=1,2,…,m),Bj(j=1,2,…,n)是数据库中的数据项。有Support(A=>B)=P(A∪B),Confidence(A=>B)=P(A|B)。数据项之间的关联,即根据一个事务中某些数据项的出现可以导出另一些数据项在同一事务中的出现。关联分析的目的是挖掘出隐藏在数据间的相互关系。关联规则用于寻找在同一个事件中出现的不同项的相关性,比如在一次购买活动中所买不同商品的相关性。关联分析的典型例子是购物篮分析,描述顾客的购买行为,可以帮助零售商决定商品的摆放和捆绑销售策略。如著名的(面包+黄油→牛奶)例子就属于关联分析:在超市中,90%的顾客在购买面包和黄油的同时,也会购买牛奶。直观的意义是:顾客在购买某种商品时有多大的倾向会购买另外一些商品。找出所有类似的关联规则,对于企业确定生产销售、产品分类设计、市场分析等多方面是有价值的。
2.聚类分析方法
类聚分析就是直接比较样本中各事物之间的性质,将性质相近的归为一类,而将性质差别较大的分在不同的类。对变量聚类计算变量之间的距离,对样本聚类则计算样本之间的距离。它的目的是使得属于同一类别的个体之间的距离尽可能小,而不同类别上的个体间的距离尽可能大。
聚类分析用于把有相似特性的客户、数据项集合到一起。在电子商务中,聚类分析常用于市场细分。根据已有客户的数据,利用聚类技术将市场按客户消费模式的相似性分为若干细分市场,以进行有针对性的市场营销,提供更适合、更满意的服务。如自动给一个特定的客户聚类发送销售邮件,为一个客户聚类动态地改变一个特殊的站点等。通过对聚类的客户特征的提取,电子商务网站还可以为客户提供个性化的服务。
3.分类分析
分类系统是基于遗传算法的机器学习中的一类,它包括一个简单的基于串规则的并行生成子系统、规则评价子系统和遗传算法子系统。分类系统正在被人们越来越多地应用于科学、工程和经济领域中,是目前遗传算法研究领域中一个非常活跃的领域。
分类分析是数据挖掘中应用最多的方法。分类要解决的问题是为一个事件或对象归类,既可以用于分析已有的数据,也可以用来预测未来的数据。分类通过分析已知分类信息的历史数据,总结出一个预测模型,预测哪些人可能会对邮寄广告、产品目录等有反应,可以针对这一类客户的特点展开商务活动,提供个性化的信息服务。
4.序列模式
序列模式挖掘就是要挖掘出交易集之间有时间序列关系的模式。它挖掘的侧重点在于分析数据间的前后或因果关系,找到那些“一些项跟随另一些项”,以预测未来的访问模式。序列模式分析和关联分析类似,其目的也是为了挖掘数据之间的联系,但序列模式分析的侧重点在于分析数据间的前后序列关系。它能发现数据库中形如“在某一段时间内,顾客购买商品A,接着购买商品B,而后购买商品C,即序列A-B-C出现的频率较高”之类的知识。序列模式分析描述的问题是:在给定交易序列数据库中,每个序列是按照交易时间排列的一组交易集,挖掘序列函数作用在这个交易序列数据库上,返回该数据库中出现的高频序列。在进行序列模式分析时,同样也需要有用户输入最小置信度C和最小支持度S。
序列模式便于进行电子商务的组织,预测客户的访问模式,对客户开展有针对性的广告服务或者主动推荐客户感兴趣的页面,以满足访问者的特定要求。
四、结束语
电子商务是现代信息技术发展的必然结果,也是未来商业运作模式的必然选择。利用数据挖掘技术来分析大量的数据,可以挖掘出商品的消费规律与客户的访问模式,帮助企业制定有效的营销策略,充分发挥企业的独特优势,促进管理创新和技术创新,提高企业竞争力。
随着电子商务发展的势头越来越强劲,面向电子商务的数据挖掘将是一个非常有前景的领域。它能自动预测客户的消费趋势、市场走向,指导企业建设个性化智能网站,带来巨大的商业利润,可以为企业创建新的商业增长点。但是在面向电子商务的数据挖掘中也存在很多问题急需解决,比如怎样将服务器的日志数据转化成适合某种数据挖掘技术的数据格式,怎样解决分布性、异构性数据源的挖掘,如何控制整个Web上知识发现过程等。随着硬件环境、挖掘算法的深入研究及应用经验的积累,数据挖掘技术及在电子商务中的应用必将取得长足的进展。