精品为您呈现,快乐和您分享!
收藏本站
类型:编程开发 语言:简体
大小:1.7M 更新时间:2020-11-11
推荐指数:
应用简介
Friso是一款使用C语言开发的开源高性能中文分词器。它是使用流行的mmseg 算法实现的。它完全基于模块化设计和实现。它可以很容易地植入到其他程序中。源代码无需修改即可用于各种应用程序。平台下编译使用。
Friso是一款使用C语言开发的开源高性能中文分词器。它是使用流行的mmseg 算法实现的。它完全基于模块化设计和实现。它可以很容易地植入到其他程序中。源代码无需修改即可用于各种应用程序。平台下编译使用!
特征
美素佳肴核心特点:
中文分词:mmseg算法+Friso独创优化算法,四种分词模式。
关键词提取:基于textRank算法。
关键词提取:基于textRank算法。
关键句提取:基于textRank算法。
美素中文分词:
四种分段模式:
简单模式:FMM算法,适合对速度要求较高的场合。
复合模式——MMSEG四种过滤算法,歧义去除率高,分词准确率达到98.41%。
检测模式:仅返回词汇表中已有的条目,非常适合某些应用。 (从1.6.1版本开始)。
大多数模式:细粒度分割,专为检索而设计。除中文处理(不具备中文姓名、数字识别等智能功能)外,其他模式与复杂模式一致(英文、组合词等)。
分词特点:
它还支持UTF-8/GBK编码的分段,支持php5和php7扩展以及sphinx token插件。
支持自定义词典。 dict文件夹下可以随意添加/删除/更改词库和词库条目,词库是分类的。
简体/繁体/简体混合支持,您可以轻松分割简体、繁体或简体-繁体。同时还可以用来实现简繁体中文的相互检索。
支持汉英/英汉混合词识别(维护词库可识别任意组合)。例如:卡拉OK、漂亮mm、c语言、IC卡、哆啦A梦。
非常好的英文支持,英文标点组合词识别,如c++、c#、email、website、decimal、percentage。
自定义保留标点符号:可以自定义分词结果中保留的标点符号,以便可以识别一些复杂的组合,例如:c++、kr、code.google.com。
复杂英文分词的二次分词:默认情况下,Friso 会保留原来的数字和字母组合。如果开启该功能,可以进行二次切分,提高检索的命中率。例如:qq2013就会分为:qq/2013/qq2013。
支持阿拉伯数字/十进制基本单词单位的识别,如2012、1.75米、5吨、120磅、38.6。
自动英文圆角/半角、大写/小写转换。
同义词匹配:自动中/英文同义词添加。 (您需要在friso.ini 中启用friso.add_syn 选项)。
自动中英文停用词过滤。 (您需要在friso.ini 中启用friso.clr_stw 选项)。
多种配置支持,多进程/多线程环境下安全应用。
热门攻略
热门资讯