事实上要自己写的代码很少。我写了四个类。都在org,phyeas包内,其他代码没有改过。目前测试的结果是:
速度:104k/s
f-score:0.938
----------------------
测试平台:
系统:Ubuntu9.10
CPU:P43.06
内存:1G+512M
Eclipse:3.4
在Windows下可能会有错误原因可能是字符集不一样,我Ubuntu下默认字符集是UTF-8,所以我在读取文件时有些是指定了字符集,在windows下应该不用,发现有这个问题的朋友可以与我联系。
用法:先构建预处理语料,使用我的ConvertToMEDict2类,文件路径写在源码里。需要输入一个语料文件(pku_training.txt),会生成一个预处理语料(pku_training.dat(100多M))文件。再对这个预处理语料生成模型。执行CreateModel操作,需要在参数中指定文件路径(如java CreateModel pku_training.dat)。大约需要15-30分钟。然后生成一个模型文件(pku_trainingModel.txt),然后运行org.phyeas.Analyzer,改变main函数中的文件路径。Analyzer的构造函数需要一个模型文件路径,然后就是测试文件和输出文件路径了。
maxent.zip:源码
pku.zip:北京大学语料,未包含标准切分结果,如有需要的同学可以跟我说
分享到:
相关推荐
多个版本ik分词器源码
IK分词器源码,可以研究IK分词器原理,也可以修改源码达到自己的业务需求。
solr5的ik中文分词器源码,解压后需要自己打包成jar包
Ik分词器的源码,jar包,导入即可使用,常用到与持久层对句子进行分词处理
IK 分词器源码 此版本IK Analyzer 2012FF版,支持4Lucene.0以上 , 适合大家学习,开发自己的分词器,或参与该项目开发
分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上目前实现了.中文分词. 中文姓名识别 . 用户自定义词典,关键字提取,自动摘要,关键字标记等功能
很好用的自动分词。。。。。。里面有源码和demo,很适于你的学习
支持停止词,扩展词热更新,将分析器自定义为ik_smart_custom和ik_max_word_custom了,使用idea导入项目,mvn clear complile package 打包完成,使用release中的zip文件部署,记得修改db.properties中的数据库连接...
支持中文的分词源码,效果还不错,准确率、速度都合适
易语言源码易语言应用中文分词源码.rar 易语言源码易语言应用中文分词源码.rar 易语言源码易语言应用中文分词源码.rar 易语言源码易语言应用中文分词源码.rar 易语言源码易语言应用中文分词源码.rar 易语言源码...
0.常用热词词库的配置方式0.1 采用IK 内置词库优点:部署方便,不用额外指定其他词库位置缺点:分词单一化,不能指定想分词的词条0.2 IK 外置静态词库优点
哈工大ITP Java 实现的自然语言 中文分词 程序源码
ik分词器源码,可方便自行进行修改以方便自己业务的扩张
海天智能分词系统源码,可以根据需要设置分词的粒度,另外提供了词性标注,关键字提取等功能,相信对学习智能分词的朋友有莫大帮助
基于LDA模型对豆瓣长评论进行主题分词python源码+数据(输出词云、主题热力图和主题-词表).zip 基于LDA模型对豆瓣长评论进行主题分词python源码+数据(输出词云、主题热力图和主题-词表).zip 基于LDA模型对豆瓣长...
基于python实现词典的分词方法源码+实验报告+数据集+详细注释(NLP大作业).zip 基于python实现词典的分词方法源码+实验报告+数据集+详细注释(NLP大作业).zip 基于python实现词典的分词方法源码+实验报告+数据集+详细...
ik分词器,支持elastcisearch6.4.2的源码,如果要使用其他6.X版本的,可以在源码内修改pom.xml中的es版本号。 该源码格式也可为想自己写一个analyzer插件的朋友也可当demo参考