SAS聚类分析介绍_代码007(未授权)

本文介绍: 在电子商务上，聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面，通过分组聚类出具有相似浏览行为的客户，并分析客户的共同特征，可以更好的帮助电子商务的用户了解自己的客户，向客户提供更合适的服务。当然，这种聚类技术就失去了实际意义，因为聚类的目的是寻找数据集中的有意义的模式，方便用户理解，而任何聚类的数目和数据对象一样多的聚类算法都不能帮助用户更好地理解数据，挖掘数据隐藏的真实含义。因此，聚类就是一些数据实例的集合，这个集合中的元素彼此相似，但是它们都与其他聚类中的元素不同。

1.1基本概念

聚类就是一种寻找数据之间一种内在结构的技术。聚类把全体数据实例组织成一些相似组，而这些相似组被称作聚类。处于相同聚类中的数据实例彼此相同，处于不同聚类中的实例彼此不同。聚类技术通常又被称为无监督学习，因为与监督学习不同，在聚类中那些表示数据类别的分类或者分组信息是没有的。

通过上述表述，我们可以把聚类定义为将数据集中在某些方面具有相似性的数据成员进行分类组织的过程。因此，聚类就是一些数据实例的集合，这个集合中的元素彼此相似，但是它们都与其他聚类中的元素不同。在聚类的相关文献中，一个数据实例有时又被称为对象，因为现实世界中的一个对象可以用数据实例来描述。同时，它有时也被称作数据点（Da t a Po int），因为我们可以用维空间的一个点来表示数据实例，其中表示数据的属性个数。

下图显示了一个二维数据集聚类过程，从该图中可以清楚地看到数据聚类过程。虽然通过目测可以十分清晰地发现隐藏在二维或者三维的数据集中的聚类，但是随着数据集维数的不断增加，就很难通过目测来观察甚至是不可能。

  
  proc import datafile=“E:SAScars.txt” out=carsdbms=dlm replace;
delimiter=‘09’x;
getnames=yes;
run;
proc print data=cars;
run;
proc standard data=cars out=stdcars mean=0 std=1;
var Mpg Weight Drive_Ratio Horsepower Displacement;
run;
proc fastclus data=stdcars summary maxc=5 maxiter=99
outseed=clusterseed out=clusterresult cluster=clusterleast=2;
id Car;
var Mpg Weight Drive_Ratio Horsepower Displacement;
run;

  
  options nocenter nodate pageno=1 linesize=132;
title h = 1 j = l ‘File:cluster.mammalsteeth.sas’;
title2 h = 1 j = l ‘Cluster Analysis of Mammals’’ teethdata’;
data teeth;
input mammal $ 1-16
@21 (v1-v8) (1.);
label v1=‘Top incisors’
v2=‘Bottom incisors’
v3=‘Top canines’
v4=‘Bottom canines’
v5=‘Top premolars’
v6=‘Bottom premolars’
v7=‘Top molars’
v8=‘Bottom molars’;
cards;
BROWNBAT 23113333
MOLE 32103333
SILVER HAIR BAT 23112333
PIGMYBAT 23112233
HOUSEBAT 23111233
REDBAT 13112233
PIKA 21002233
RABBIT 21003233
BEAVER 11002133
GROUNDHOG 11002133
GRAYSQUIRREL 11001133
HOUSEMOUSE 11000033
PORCUPINE 11001133
WOLF 33114423
BEAR 33114423
RACCOON 33114432
MARTEN 33114412
WEASEL 33113312
WOLVERINE 33114412
BADGER 33113312
RIVEROTTER 33114312
SEAOTTER 32113312
JAGUAR 33113211
COUGAR 33113211
FURSEAL 32114411
SEALION 32114411
GREYSEAL 32113322
ELEPHANTSEAL 21114411
REINDEER 04103333
ELK 04103333
DEER 04003333
MOOSE 04003333
;
proc princomp data=teeth out=teeth2;
var v1-v8;
run;
proc cluster data=teeth2 method=average outtree=ttree
ccc pseudorsquare;
var v1-v8;
id mammal;
run;
proc tree data=ttree out=ttree2 nclusters=4;
id mammal;
run;
proc sort data=teeth2;
by mammal;
run;
proc sort data=ttree2;
by mammal;
run;
data teeth3;
merge teeth2ttree2;
by mammal;
run;
symbol1 c=black f=, v=‘1’;
symbol2 c=black f=, v=‘2’;
symbol3 c=black f=, v=‘3’;
symbol4 c=black f=, v=‘4’;
proc gplot;
plotprin2*prin1=cluster;
run;
proc sort;
by cluster;
run;
proc print;
by cluster;
var mammal prin1prin2;
run;