精品为您呈现,快乐和您分享!

移动端

收藏本站

17软件园

当前位置: 首页 > 软件下载 > 编程开发

Friso(高性能中文分词器)v1.6.4免费版

Friso(高性能中文分词器)v1.6.4免费版

类型:编程开发 语言:简体

大小:1.7M 更新时间:2020-11-11

推荐指数:

应用简介


Friso是一款使用C语言开发的开源高性能中文分词器。它是使用流行的mmseg 算法实现的。它完全基于模块化设计和实现。它可以很容易地植入到其他程序中。源代码无需修改即可用于各种应用程序。平台下编译使用。









Friso是一款使用C语言开发的开源高性能中文分词器。它是使用流行的mmseg 算法实现的。它完全基于模块化设计和实现。它可以很容易地植入到其他程序中。源代码无需修改即可用于各种应用程序。平台下编译使用!



Friso(高性能中文分词器)



特征



美素佳肴核心特点:



中文分词:mmseg算法+Friso独创优化算法,四种分词模式。



关键词提取:基于textRank算法。



关键词提取:基于textRank算法。



关键句提取:基于textRank算法。



美素中文分词:



四种分段模式:



简单模式:FMM算法,适合对速度要求较高的场合。



复合模式——MMSEG四种过滤算法,歧义去除率高,分词准确率达到98.41%。



检测模式:仅返回词汇表中已有的条目,非常适合某些应用。 (从1.6.1版本开始)。



大多数模式:细粒度分割,专为检索而设计。除中文处理(不具备中文姓名、数字识别等智能功能)外,其他模式与复杂模式一致(英文、组合词等)。



分词特点:



它还支持UTF-8/GBK编码的分段,支持php5和php7扩展以及sphinx token插件。



支持自定义词典。 dict文件夹下可以随意添加/删除/更改词库和词库条目,词库是分类的。



简体/繁体/简体混合支持,您可以轻松分割简体、繁体或简体-繁体。同时还可以用来实现简繁体中文的相互检索。



支持汉英/英汉混合词识别(维护词库可识别任意组合)。例如:卡拉OK、漂亮mm、c语言、IC卡、哆啦A梦。



非常好的英文支持,英文标点组合词识别,如c++、c#、email、website、decimal、percentage。



自定义保留标点符号:可以自定义分词结果中保留的标点符号,以便可以识别一些复杂的组合,例如:c++、kr、code.google.com。



复杂英文分词的二次分词:默认情况下,Friso 会保留原来的数字和字母组合。如果开启该功能,可以进行二次切分,提高检索的命中率。例如:qq2013就会分为:qq/2013/qq2013。



支持阿拉伯数字/十进制基本单词单位的识别,如2012、1.75米、5吨、120磅、38.6。



自动英文圆角/半角、大写/小写转换。



同义词匹配:自动中/英文同义词添加。 (您需要在friso.ini 中启用friso.add_syn 选项)。



自动中英文停用词过滤。 (您需要在friso.ini 中启用friso.clr_stw 选项)。



多种配置支持,多进程/多线程环境下安全应用。