聚类——GAKFCM的matlab程序

作者：凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/

在聚类——GAKFCM文章中已介绍了GAKFCM算法的理论知识，现在用matlab进行实现,下面这个例子是用GA初始化聚类中心。

1.matlab程序

GAKFCM_main.m

function [ave_acc_GAKFCM,max_acc_GAKFCM,min_acc_GAKFCM,ave_iter_GA,ave_iter_KFCM,ave_run_time]=GAKFCM_main(X,real_label,K)

%输入K:聚的类，max_iter是最大迭代次数,T:遗传算法最大迭代次数，n:种群个数, X：没有进行归一化

%输出ave_acc_KFCM：迭代max_iter次之后的平均准确度,iter:实际KFCM迭代次数

t0=cputime;

max_iter=20;

s=0;

s_1=0;

s_2=0;

iter_GA=zeros(max_iter,1);

iter_KFCM=zeros(max_iter,1);

accuracy=zeros(max_iter,1);

for i=1:max_iter

    [label, iter_KFCM(i), ~,iter_GA(i)]=My_GAKFCM(X,K);

    accuracy(i)=succeed(real_label,K,label);

    s=s+accuracy(i);

    s_1=s_1+iter_GA(i);

    s_2=s_2+iter_KFCM(i);

    fprintf('第 %2d 次，GA的迭代次数为：%2d，KFCM的迭代次数为：%2d，准确度为：%.8f\t\n', i, iter_GA(i), iter_KFCM(i), accuracy(i));

end

ave_acc_GAKFCM=s/max_iter;

max_acc_GAKFCM=max(accuracy);

min_acc_GAKFCM=min(accuracy);

ave_iter_GA=s_1/max_iter;

ave_iter_KFCM=s_2/max_iter;

run_time=cputime-t0;

ave_run_time=run_time/max_iter;

My_GAKFCM.m

function  [label, iter_KFCM, para_miu,iter_GA]=My_GAKFCM(X,K)

%用GA初始聚类中心

%输入K：聚类数，X：数据集

%输出：label:聚的类, para_miu:模糊聚类中心μ，iter_KFCM：KFCM迭代次数

format long

eps=1e-4;  %定义迭代终止条件的eps

alpha=2;  %模糊加权指数，[1,+无穷)

T=100;  %最大迭代次数

%sigma_2=2^(-4);  %高斯核函数的参数2*sigma^2

sigma_2=150;  %高斯核函数的参数sigma^2

[X_num,X_dim]=size(X);

fitness=zeros(X_num,1);  %目标函数

responsivity=zeros(X_num,K);  %隶属函数

R_up=zeros(X_num,K);  %隶属函数的分子部分

count=zeros(X_num,1);  %统计distant中每一行为0的个数

%随机初始化K个聚类中心

% [X_num,~]=size(X);

% rand_array=randperm(X_num);  %产生1~X_num之间整数的随机排列

% para_miu=X(rand_array(1:K),:);  %随机排列取前K个数，在X矩阵中取这K行作为初始聚类中心

%用GA初始聚类中心

[para_miu,iter_GA]=my_genetic(X,K);

% KFCM算法

for t=1:T

    %欧氏距离，计算（X-para_miu）^2=X^2+para_miu^2-2*para_miu*X'，矩阵大小为X_num*K

    distant=(sum(X.*X,2))*ones(1,K)+ones(X_num,1)*(sum(para_miu.*para_miu,2))'-2*X*para_miu';

    %高斯核函数，X_num*K的矩阵

    kernel_fun=exp((-distant)./(sigma_2));

    %更新隶属度矩阵X_num*K

    for i=1:X_num

        count(i)=sum(kernel_fun(i,:)==1);

        if count(i)>0

            for k=1:K

                if kernel_fun(i,k)==1

                    responsivity(i,k)=1./count(i);

                else

                    responsivity(i,k)=0;

                end

            end

        else

            R_up(i,:)=(1-kernel_fun(i,:)).^(-1/(alpha-1));  %隶属度矩阵的分子部分

            responsivity(i,:)= R_up(i,:)./sum( R_up(i,:),2);

        end

    end

    %目标函数值

    fitness(t)=2*sum(sum((ones(X_num,K)-kernel_fun).*(responsivity.^(alpha))));

     %更新聚类中心K*X_dim

    miu_up=(kernel_fun.*(responsivity.^(alpha)))'*X;  %μ的分子部分

    para_miu=miu_up./(sum(kernel_fun.*(responsivity.^(alpha)))'*ones(1,X_dim));

    if t>1

        if abs(fitness(t)-fitness(t-1))<eps

            break;

        end

    end

end

iter_KFCM=t;  %实际迭代次数

[~,label]=max(responsivity,[],2);

succeed.m

function accuracy=succeed(real_label,K,id)

%输入K：聚的类，id：训练后的聚类结果，N*1的矩阵

N=size(id,1);   %样本个数

p=perms(1:K);   %全排列矩阵

p_col=size(p,1);   %全排列的行数

new_label=zeros(N,p_col);   %聚类结果的所有可能取值，N*p_col

num=zeros(1,p_col);  %与真实聚类结果一样的个数

%将训练结果全排列为N*p_col的矩阵，每一列为一种可能性

for i=1:N

    for j=1:p_col

        for k=1:K

            if id(i)==k

                new_label(i,j)=p(j,k);  %iris数据库，1 2 3

            end

        end

    end

end

%与真实结果比对，计算精确度

for j=1:p_col

    for i=1:N

        if new_label(i,j)==real_label(i)

                num(j)=num(j)+1;

        end

    end

end

accuracy=max(num)/N;

my_genetic.m

function [para_miu_new,iter]=my_genetic(data,K)

%data:数据集，K:聚类数

pc_0=0.6;  %初始交叉概率

pm_0=0.1;  %初始变异概率

eps=1e-4;  %定义迭代终止条件的eps

n=50;  %n:n个初始个体，每个个体为K*X_dim

T=100;  %T:最大迭代次数

pc=zeros(T,1);  %交叉概率

pm=zeros(T,1);  %变异概率

fitness=zeros(n,1);

ave_fitness=zeros(T,1);

%实数编码

%对data做最大-最小归一化处理

[data_num,~]=size(data);

X=(data-ones(data_num,1)*min(data))./(ones(data_num,1)*(max(data)-min(data)));

%产生初始种群

population=init_population(X,K,n);

for t=1:T

    %更新适应度

    fitness=fit_vector(X,K,population,n);

    %非线性排序选择

    population=sort_select(population,fitness);

    %计算交叉概率，进行交叉操作

    pc(t)=pc_0*(1-(t-1)/T);

    population=crossover(population,pc(t));

    %计算变异概率，进行变异操作

    pm(t)=pm_0*(1-(t-1)/T);

    population=mutation(population,pm(t));

    ave_fitness(t)=sum(fitness)/n;

    if t>1

        if abs( ave_fitness(t)- ave_fitness(t-1))<eps

            break;

        end

    end

end

iter=t;  %实际迭代次数

%输出适应度最大的个体

[~,index_final]=max(fitness);

para_miu=population(:,:,index_final);

%解码para_miu

para_miu_new=para_miu.*(ones(K,1)*(max(data)-min(data)))+ones(K,1)*min(data);

init_population.m

function population=init_population(X,K,n)

%data:数据集，K:聚类数，n:n个初始个体，每个个体为K*X_dim，new_index为排序后的个体序号

rand_num=3;  %rand_num:随机取rand_num个样本作为一类

[X_num,X_dim]=size(X);

individual=zeros(K,X_dim);  %individual为聚类中心矩阵，K*X_dim的矩阵

population=zeros(K,X_dim,n);

for i=1:n

    %随机初始化K个聚类中心

    for k=1:K

        rand_array=randperm(X_num);  %产生1~X_num之间整数的随机排列

        temp=X(rand_array(1:rand_num),:);

        individual(k,:)=sum(temp)./rand_num;  %individual(k)为1*X_dim的矩阵，为一类的聚类中心，对rand_num取平均

    end

    population(:,:,i)=individual;

end

fit_vector.m

function fitness=fit_vector(X,K,population,n)

fitness=zeros(n,1);

for i=1:n

    %计算个体适应度

    fitness(i)=fitness_value(X,K,population(:,:,i));  %fitness为GAKFCM适应度函数  n*1的矩阵

end

fitness_value.m

function fitness=fitness_value(X,K,para_miu)

%X是数据，para_miu为每一个individual矩阵，K*X_dim，fitness为GAKFCM适应度函数

%sigma_2=2^(-4);  %高斯核函数的参数2*sigma^2

sigma_2=150;  %高斯核函数的参数sigma^2

alpha=2;  %模糊加权指数，[1,+无穷)

[X_num,~]=size(X);

responsivity=zeros(X_num,K);  %隶属函数

R_up=zeros(X_num,K);

count=zeros(X_num,1);  %统计distant中每一行为0的个数

%欧氏距离，计算（X-para_miu）^2=X^2+para_miu^2-2*para_miu*X'，矩阵大小为X_num*K

distant=(sum(X.*X,2))*ones(1,K)+ones(X_num,1)*(sum(para_miu.*para_miu,2))'-2*X*para_miu';

%高斯核函数，X_num*K的矩阵

kernel_fun=exp((-distant)./(sigma_2));

%更新隶属度矩阵X_num*K

for i=1:X_num

    count(i)=sum(kernel_fun(i,:)==1);

    if count(i)>0

        for k=1:K

            if kernel_fun(i,k)==1

                responsivity(i,k)=1./count(i);

            else

                responsivity(i,k)=0;

            end

        end

    else

        R_up(i,:)=(1-kernel_fun(i,:)).^(-1/(alpha-1));  %隶属度矩阵的分子部分

        responsivity(i,:)= R_up(i,:)./sum( R_up(i,:),2);

    end

end

%目标函数值

fitness_KFCM=2*sum(sum((ones(X_num,K)-kernel_fun).*(responsivity.^(alpha))));   %KFCM的目标函数

fitness=1/(1+fitness_KFCM);  %fitness为GAKFCM适应度函数

sort_select.m

function population=sort_select(population,fitness)

%q属于(0,1)为参数, i表示排序序号，本文取q=0.1

q=0.1;

[n,~]=size(fitness);

new_index=zeros(n,1);    %选择之后最优个体的序号

fun=zeros(n,1);  %非线性排序选择概率分布函数

add_pro=zeros(n,1);  %累积概率

[~,index_fit]=sort(fitness,'descend');  %将fitness按降序排序

%计算每个个体选择的概率

for i=1:n

    fun(i)=q*(1-q)^(i-1);

end

new_fun=fun/sum(fun);

%求累积概率

for i=1:n

    add_pro(i)=sum(new_fun(1:i));

end

%选择最优个体，求其在X中的顺序

for t=1:n

    rand_pro=rand();   %[0,1]之间的随机数

    if rand_pro<=add_pro(1)

        new_index(t)=index_fit(1);

    end

    for i=2:n

        if (rand_pro>add_pro(i-1))&&(rand_pro<=add_pro(i))

            new_index(t)=index_fit(i);

        end

    end

    population(:,:,t)=population(:,:,new_index(t));

end

crossover.m

function population=crossover(population,pc)

%个体之间进行交叉操作，交换两行

[K,~,n]=size(population);

num=floor(n/2);   %对n/2向下取整

for i=1:num

    rand_c=rand();   %[0,1]之间的随机数

    rand_pro=unidrnd(K);   %[1,K]之间的随机整数

    %交换两个矩阵中的第rand_pro行

    if pc>rand_c

        t=population(rand_pro,:,2*i-1);

        population(rand_pro,:,2*i-1)=population(rand_pro,:,2*i);

        population(rand_pro,:,2*i)=t;

    end

end

mutation.m

function population=mutation(population,pm)

%个体进行变异操作

[K,X_dim,n]=size(population);

for i=1:n

    rand_m=rand();   %[0,1]之间的随机数

    rand_pro=unidrnd(K);   %[1,K]之间的随机整数

    if pm>rand_m

        %对第rand_pro行进行变异操作

        population(rand_pro,:,i)=rand(1,X_dim);

    end

end

2.在UCI数据库的iris上的运行结果

>> data_load=dlmread('E:\My matlab\database\iris.data');data=data_load(:,1:4);real_label=data_load(:,5);

>> [ave_acc_GAKFCM,max_acc_GAKFCM,min_acc_GAKFCM,ave_iter_GA,ave_iter_KFCM,ave_run_time]=GAKFCM_main(data,real_label,3)

第  1 次，GA的迭代次数为：10，KFCM的迭代次数为： 6，准确度为：0.89333333

第  2 次，GA的迭代次数为： 3，KFCM的迭代次数为：13，准确度为：0.89333333

第  3 次，GA的迭代次数为：39，KFCM的迭代次数为： 8，准确度为：0.89333333

第  4 次，GA的迭代次数为：66，KFCM的迭代次数为：10，准确度为：0.89333333

第  5 次，GA的迭代次数为：18，KFCM的迭代次数为： 8，准确度为：0.89333333

第  6 次，GA的迭代次数为：26，KFCM的迭代次数为： 6，准确度为：0.89333333

第  7 次，GA的迭代次数为：93，KFCM的迭代次数为： 7，准确度为：0.89333333

第  8 次，GA的迭代次数为：70，KFCM的迭代次数为： 5，准确度为：0.89333333

第  9 次，GA的迭代次数为：11，KFCM的迭代次数为： 8，准确度为：0.89333333

第 10 次，GA的迭代次数为： 9，KFCM的迭代次数为： 9，准确度为：0.89333333

第 11 次，GA的迭代次数为：80，KFCM的迭代次数为： 7，准确度为：0.89333333

第 12 次，GA的迭代次数为：39，KFCM的迭代次数为： 7，准确度为：0.89333333

第 13 次，GA的迭代次数为：12，KFCM的迭代次数为： 6，准确度为：0.89333333

第 14 次，GA的迭代次数为：22，KFCM的迭代次数为： 6，准确度为：0.89333333

第 15 次，GA的迭代次数为： 7，KFCM的迭代次数为： 8，准确度为：0.89333333

第 16 次，GA的迭代次数为：13，KFCM的迭代次数为： 8，准确度为：0.89333333

第 17 次，GA的迭代次数为：19，KFCM的迭代次数为：15，准确度为：0.89333333

第 18 次，GA的迭代次数为：22，KFCM的迭代次数为：14，准确度为：0.89333333

第 19 次，GA的迭代次数为：30，KFCM的迭代次数为： 9，准确度为：0.89333333

第 20 次，GA的迭代次数为：13，KFCM的迭代次数为： 7，准确度为：0.89333333	

ave_acc_GAKFCM =

   0.893333333333333

max_acc_GAKFCM =

   0.893333333333333

min_acc_GAKFCM =

   0.893333333333333

ave_iter_GA =

  30.100000000000001

ave_iter_KFCM =

   8.350000000000000

ave_run_time =

   2.457812500000000

遗传算法中的具体实现细节有可能有误，望指正。

秒客网

聚类——GAKFCM的matlab程序

聚类——GAKFCM的matlab程序

1.matlab程序

GAKFCM_main.m

My_GAKFCM.m

succeed.m

my_genetic.m

init_population.m

fit_vector.m

fitness_value.m

sort_select.m

crossover.m

mutation.m

2.在UCI数据库的iris上的运行结果

相关文章