Gensim 是用于主题模型、文档索引和海量文本的相似检索的 Python 库,目标受众是自然语言处理(NLP)和信息检索(IR)社区。
Gensim 3.4.0 已发布,主要更新如下:
新增 cython 版 gensim.models.LdaModel ,带来大幅优化,训练速度更快。
新增 Cython 版 MmReader,给 corpus I/O 带来大幅提速。
gensim.models.FastText 性能和内存优化
开始使用 Soft Cosine Measure ,这是一个评估文件相似性的新方法,是 WMD 的一个很好的替代方法
此外,该版本还包含大量改进和 bug 修复。
软件详情:https://github.com/RaRe-Technologies/gensim/releases/tag/3.4.0
来自:开源中国社区