【文件属性】:
文件名称:zhwiki-gensim-word2vec:使用gensim在zhwikidata上训练Word2Vec,并通过TSNE显示结果
文件大小:1.02MB
文件格式:ZIP
更新时间:2021-05-16 08:23:46
JupyterNotebook
zhwiki-gensim-word2vec
The goal of this assignment is to train a Word2Vec using gensim over zhwiki() data and show the result by TSNE.
用Wikipedia的中文数据训练Word2Vec
1 下载数据()
2 解压数据 WikiExtractor
3 数据准备
a. jieba切词
b. 数据清洗、去停用词
c. 繁体化简体 OpenCC
4 用gensim 训练 Word2Vec
5 结果显示 TSNE
【文件预览】:
zhwiki-gensim-word2vec-master
----word2vec_train.py(425B)
----WikiExtractor.py(114KB)
----wiki_to_txt.py(2KB)
----README.md(467B)
----zhwiki_gensim_word2vec.ipynb(1.57MB)
----result.py(1KB)