FaceBook开源的词向量计算框架

时间:2022-04-02 12:39:48

  fasttext是个好东西,是由facebook在2016年推出的一个训练词向量的模型。相比于之前Google的word2vec,fasttext可以解决out of vocabulary的问题。fasttext还能够用于有监督的文本分类。更赞的是,facebook提供了200多种语言的预训练模型和词向量。
  具体操作可以使用pyfasttext模块实现。

  代码如下:

 from pyfasttext import FastText
# 加载出现的模型
model = FastText('./ch_data.bin')
#词表示学习
model.skipgram(input='data.txt', output='model', epoch=100, lr=0.7)
# model.cbow(input='data.txt', output='model', epoch=100, lr=0.7)
# 词向量
model['dog']

输出:

array('f', [-1.308749794960022, -1.8326224088668823, ...])

之后根据你的需要,将词向量用在什么地方由自己决定。

注意:pyfasttext,运行在linux和mac系统上
   fasttext,运行在windows上