lda模型的python实现

LDA（Latent Dirichlet Allocation）是一种文档主题生成模型，最近看了点资料，准备使用python实现一下。至于数学模型相关知识，某度一大堆，这里也给出之前参考过的一个挺详细的文档lda算法漫游指南
这篇博文只讲算法的sampling方法python实现。
完整实现项目开源python-LDA

lda模型变量申请及初始化

#

#伪代码

#

输入：文章集合（分词处理后），K（类的个数）

输出：已经随机分派了一次的lda模型

begin

    申请几个统计量：

        p 概率向量 维度:K

        nw 词在类上的分布 维度：M*K 其中M为文章集合的词的总个数

        nwsum 每个类上的词的总数 维度:K

        nd 每篇文章中，各个类的词个数分布 维度：V*K 其中V为文章的总个数

        ndsum 每篇文章中的词的总个数 维度：V

        Z 每个词分派一个类 维度：V*每篇文章词的个数

        theta 文章->类的概率分布 维度：V*K

        phi 类->词的概率分布 维度：K*M

    #初始化随机分配类

    for x in 文章数：

        统计ndsum[文章id][词的个数]

        for y in 每篇文章的词个数：

            给所有词随机分派一个类

            词在此类上的分布数目+1

            此文章中此类的词的个数+1

            此类的总词数 +1

end

#

#实现代码片段，更详细看github项目

#

class LDAModel(object):

    def __init__(self,dpre):

        self.dpre = dpre #获取预处理参数

        #

        #模型参数

        #聚类个数K，迭代次数iter_times,每个类特征词个数top_words_num,超参数α（alpha） β(beta)

        #

        self.K = K

        self.beta = beta

        self.alpha = alpha

        self.iter_times = iter_times

        self.top_words_num = top_words_num

        #

        #文件变量

        #分好词的文件trainfile

        #词对应id文件wordidmapfile

        #文章-主题分布文件thetafile

        #词-主题分布文件phifile

        #每个主题topN词文件topNfile

        #最后分派结果文件tassginfile

        #模型训练选择的参数文件paramfile

        #

        self.wordidmapfile = wordidmapfile

        self.trainfile = trainfile

        self.thetafile = thetafile

        self.phifile = phifile

        self.topNfile = topNfile

        self.tassginfile = tassginfile

        self.paramfile = paramfile

        # p,概率向量 double类型，存储采样的临时变量

        # nw,词word在主题topic上的分布

        # nwsum,每各topic的词的总数

        # nd,每个doc中各个topic的词的总数

        # ndsum,每各doc中词的总数

        self.p = np.zeros(self.K)

        self.nw = np.zeros((self.dpre.words_count,self.K),dtype="int")

        self.nwsum = np.zeros(self.K,dtype="int")

        self.nd = np.zeros((self.dpre.docs_count,self.K),dtype="int")

        self.ndsum = np.zeros(dpre.docs_count,dtype="int")

        self.Z = np.array([ [0 for y in xrange(dpre.docs[x].length)] for x in xrange(dpre.docs_count)])        # M*doc.size()，文档中词的主题分布

        #随机先分配类型

        for x in xrange(len(self.Z)):

            self.ndsum[x] = self.dpre.docs[x].length

            for y in xrange(self.dpre.docs[x].length):

                topic = random.randint(0,self.K-1)

                self.Z[x][y] = topic

                self.nw[self.dpre.docs[x].words[y]][topic] += 1

                self.nd[x][topic] += 1

                self.nwsum[topic] += 1

        self.theta = np.array([ [0.0 for y in xrange(self.K)] for x in xrange(self.dpre.docs_count) ])

        self.phi = np.array([ [ 0.0 for y in xrange(self.dpre.words_count) ] for x in xrange(self.K)])

sampling抽样过程

#

#伪代码

#

输入：初始化后的lda_model,迭代次数iter_times，超参数α、β，聚类个数K

输出：theta(文章对应类的分布概率)，phi（类对应词的分布概率），tassgin（文章中每个词的分派类结果）,twords(每个类topN个高频词)

begin

    for i in 迭代次数:

        for m in 文章个数：

            for v in 文章中词：

                取topic = Z[m][v]

                令nw[v][topic]、nwsum[topic]、nd[m][topic]的统计量均-1

                计算概率p[] #p[]为此词属于每个topic的概率

                for k in (1,类的个数-1):

                    p[k] += p[k-1]

                再随机分派一次，记录被分派的新的topic

                令nw[v][new_topic]、nwsum[new_topic]、nd[m][new_topic]的统计量均+1

    #迭代完成后

    输出模型

end

#代码片段

    def sampling(self,i,j):

        topic = self.Z[i][j]

        word = self.dpre.docs[i].words[j]

        self.nw[word][topic] -= 1

        self.nd[i][topic] -= 1

        self.nwsum[topic] -= 1

        self.ndsum[i] -= 1

        Vbeta = self.dpre.words_count * self.beta

        Kalpha = self.K * self.alpha

        self.p = (self.nw[word] + self.beta)/(self.nwsum + Vbeta) * \

                 (self.nd[i] + self.alpha) / (self.ndsum[i] + Kalpha)

        for k in xrange(1,self.K):

            self.p[k] += self.p[k-1]

        u = random.uniform(0,self.p[self.K-1])

        for topic in xrange(self.K):

            if self.p[topic]>u:

                break

        self.nw[word][topic] +=1

        self.nwsum[topic] +=1

        self.nd[i][topic] +=1

        self.ndsum[i] +=1

        return topic

此实现为最基础的LDA模型实现，聚类个数K，和超参数的设置要靠人工输入，自动计算的版本会在以后研究。

lda模型的python实现的更多相关文章

大佬整理出来的干货：LDA模型实现—Python文本挖掘
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取htt ...
LDA模型了解及相关知识
什么是LDA? LDA是基于贝叶斯模型的,涉及到贝叶斯模型离不开“先验分布”,“数据(似然)”和"后验分布"三块.贝叶斯相关知识:先验分布 + 数据(似然)= 后验分布. 贝叶斯模 ...
转：关于Latent Dirichlet Allocation及Hierarchical LDA模型的必读文章和相关代码
关于Latent Dirichlet Allocation及Hierarchical LDA模型的必读文章和相关代码转: http://andyliuxs.iteye.com/blog/105174 ...
文本主题抽取：用gensim训练LDA模型
得知李航老师的<统计学习方法>出了第二版,我第一时间就买了.看了这本书的目录,非常高兴,好家伙,居然把主题模型都写了,还有pagerank.一路看到了马尔科夫蒙特卡罗方法和LDA主题模型这 ...
LDA模型笔记
“LDA(Latent Dirichlet Allocation)模型,模型主要解决文档处理领域的问题,比如文章主题分类.文章检测.相似度分析.文本分段和文档检索等问题.LDA主题模型是一个三层贝叶斯 ...
计算LDA模型困惑度
http://www.52nlp.cn/lda-math-lda-%E6%96%87%E6%9C%AC%E5%BB%BA%E6%A8%A1 LDA主题模型评估方法--Perplexity http:/ ...
LDA模型数据的可视化
""" 执行lda2vec.ipnb中的代码模型LDA 功能:训练好后模型数据的可视化 """ from lda2vec import p ...
LDA模型应用实践-希拉里邮件主题分类
#coding=utf8 import numpy as np import pandas as pd import re from gensim import corpora, models, si ...
通过ORM模型看python对象创建过程
简易django ORM模型如下所示: #!/usr/bin/env python # encoding: utf-8 """ @version: 1.0 @author ...

随机推荐

MySQL插入数据返回id
按照应用需要,常常要取得刚刚插入数据库表里的记录的ID值,在MYSQL中可以使用LAST_INSERT_ID()函数,在MSSQL中使用 @@IDENTITY.挺方便的一个函数.但是,这里需要注意的是 ...
vs快捷键大全
前言作为一个.net开发员,你还在用鼠标去点击相应的操作么?如果你回答是,那么你太low了! 一个很厉害的程序员不会是那种这鼠标到处狂点的人,他们肯定会很多快捷键,所以为了离他们更近一步,我们必须学 ...
CodeForces 219D 树形DP
D. Choosing Capital for Treeland time limit per test 3 seconds memory limit per test 256 megabytes i ...
Mysql varchar大小长度问题介绍
如果被 varchar 超过上述的 b 规则,被强转成 text 类型,则每个字段占用定义长度为 11 字节,当然这已经不是 varchar 了4.0版本以下,varchar(20),指的是20字节, ...
MySQL全世界最流行的开源数据库软件
誉天全国首推全球市场占有率第二的数据库——MySQL培训课程,阿里巴巴.新浪等知名企业正在使用MySQL数据库系统,而这方面的人才需求也是供不应求,誉天作为国内2014年首批ORACLE官方授权MyS ...
Could not find class &amp&semi;&num;39&semi;&ast;&ast;&ast;&ast;&amp&semi;&num;39&semi;, referenced from method &num;&num;&num;&num;&num;
找不到类,多半也是和第三方的jar包有关. 将找不到的类.在下图中的地方勾选出来.假设jar太多.有的类有冲突的话,须要明白其先后顺序. 请外一篇和第三方jar有关的异常的文章. Conversion ...
Android 编译时出现r cannot be resolved to a variable
问题:编译出现r cannot be resolved to a variable 原因:SDK的Tools没有安装解决:在Android SDK Manager中安装Tools部分,包括如下4项, ...
小随笔：利用Shader实现模型爆炸和沙粒化的效果
0x00 前言上一篇小随笔<小随笔:利用Shader给斯坦福兔子长毛和实现雪地效果>中,我和大家聊了聊著名的斯坦福兔子和利用geometry shader实现的一些效果.这篇文章继续沿用 ...
Mybatis代码自动生成插件使用
1.配置pom.xml 添加mybatis-generator-maven-plugin到pom.xml. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 1 ...
JavaScript 计时
http://www.w3school.com.cn/js/js_timing.asp JavaScript 计时事件通过使用 JavaScript,我们有能力作到在一个设定的时间间隔之后来执行代码 ...

lda模型的python实现

lda模型变量申请及初始化

sampling抽样过程

lda模型的python实现的更多相关文章

随机推荐

相关文章