开源啦!60维维基百科词向量免费放送
使用说明
在本次开源数据中共包含4个文件,分别如下:
wiki.zh.text.model
wiki.zh.text.model.syn1neg.npy
wiki.zh.text.model.wv.syn0.npy
wiki.zh.text.vector
其中我们需要使用的仅有wiki.zh.text.model、wiki.zh.text.vector其余两个是numpy自动生成的数据。如果你的需求是计算词之间的距离,可以使用gensim包具体用法如下:
import gensim #导入gensim包
model = gensim.models.Word2Vec.load("wiki.zh.text.model") #加载词向量模型
result = model.most_similar(u'足球')
for each in result:
print each[0] , each[1]
输出结果为:
国际足球 0.556692957878
足球运动 0.530436098576
篮球 0.518306851387
国家足球队 0.516140639782
足球队 0.513238489628
足球联赛 0.500901579857
football 0.500162124634
体育 0.499264538288
足球比赛 0.488131582737
冰球 0.48725092411
说明:前面的是和“足球”最相近的词,后面是相似度
更多gensim和词向量的用法请参考相关博客
下面是连接地址:60维词向量