分词器源码……M1 - Phy Eas - ITeye博客

`

phyeas

浏览: 161493 次
性别:
来自: 珠海

最近访客更多访客>>

phoenixpj

ynsluhan

黑人红花侠

david_way

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

rockone： start_response()中的status和header ...
初试Python3.0 wsgiref遇到好些问题..
zhangdp_neu： 1.文本比较如何处理多关键字搜索？难道也文本比较。如果文本过多 ...
基于文本比较的搜索是否可行？
sdh5724：分词是很大的目的是为了减少内存使用。如果按字符倒排，也能出 ...
基于文本比较的搜索是否可行？
Heart.X.Raid：对于海量数据而言，可行性不大。查询关键字需要对每篇文档进行比较 ...
基于文本比较的搜索是否可行？
marcolu.1987：那个，能不能传一份标准切分结果给我，我在学习中文分词，希望得到 ...
分词器源码……M1

分词器源码……M1

博客分类：

算法

Ubuntu Eclipse Windows Gmail F#

阅读更多

事实上要自己写的代码很少。我写了四个类。都在org,phyeas包内，其他代码没有改过。目前测试的结果是：

速度：104k/s

f-score：0.938

----------------------

测试平台:

系统：Ubuntu9.10

CPU：P43.06

内存：1G+512M

Eclipse：3.4

在Windows下可能会有错误原因可能是字符集不一样，我Ubuntu下默认字符集是UTF-8，所以我在读取文件时有些是指定了字符集，在windows下应该不用，发现有这个问题的朋友可以与我联系。

用法：先构建预处理语料，使用我的ConvertToMEDict2类，文件路径写在源码里。需要输入一个语料文件（pku_training.txt），会生成一个预处理语料（pku_training.dat(100多M)）文件。再对这个预处理语料生成模型。执行CreateModel操作，需要在参数中指定文件路径（如java CreateModel pku_training.dat）。大约需要15-30分钟。然后生成一个模型文件（pku_trainingModel.txt），然后运行org.phyeas.Analyzer，改变main函数中的文件路径。Analyzer的构造函数需要一个模型文件路径，然后就是测试文件和输出文件路径了。

maxent.zip：源码

pku.zip：北京大学语料，未包含标准切分结果，如有需要的同学可以跟我说

maxent.zip (1.3 MB)
下载次数: 41

pku.zip (2.6 MB)
下载次数: 61

分享到：

火星. | 分词器在北京大学的语料上f-score达到93.9 ...

2010-04-15 11:00
浏览 1833
评论(3)
分类:非技术
查看更多

评论

3 楼 marcolu.1987 2010-04-21

那个，能不能传一份标准切分结果给我，我在学习中文分词，希望得到更为详尽的学习内容，谢谢了，我的邮箱是marcolu.1987@gmail.com

2 楼 phyeas 2010-04-15

1 楼 elementstorm 2010-04-15

乖乖,屁眼V5啊

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

多个版本ik分词器源码: 多个版本ik分词器源码

IK分词器源码: IK分词器源码，可以研究IK分词器原理，也可以修改源码达到自己的业务需求。

solr5的ik中文分词器源码: solr5的ik中文分词器源码，解压后需要自己打包成jar包

Ik分词器源码jar包: Ik分词器的源码，jar包，导入即可使用，常用到与持久层对句子进行分词处理

IK Analyzer 2012FF 分词器源码: IK 分词器源码此版本IK Analyzer 2012FF版，支持4Lucene.0以上，适合大家学习，开发自己的分词器，或参与该项目开发

ansj中文分词器源码: 分词速度达到每秒钟大约200万字左右（mac air下测试），准确率能达到96%以上目前实现了.中文分词. 中文姓名识别 . 用户自定义词典,关键字提取，自动摘要，关键字标记等功能

盘古分词（源码+demo）.net源码: 很好用的自动分词。。。。。。里面有源码和demo，很适于你的学习

ElasticSearch7.17.5版本自定义ik分词器源码: 支持停止词，扩展词热更新，将分析器自定义为ik_smart_custom和ik_max_word_custom了，使用idea导入项目，mvn clear complile package 打包完成，使用release中的zip文件部署，记得修改db.properties中的数据库连接...

C#中文分词源码: 支持中文的分词源码，效果还不错，准确率、速度都合适

易语言源码易语言应用中文分词源码.rar: 易语言源码易语言应用中文分词源码.rar 易语言源码易语言应用中文分词源码.rar 易语言源码易语言应用中文分词源码.rar 易语言源码易语言应用中文分词源码.rar 易语言源码易语言应用中文分词源码.rar 易语言源码...

ElasticSearch 重写IK分词器源码设置mysql热词更新词库1: 0.常用热词词库的配置方式0.1 采用IK 内置词库优点：部署方便，不用额外指定其他词库位置缺点：分词单一化，不能指定想分词的词条0.2 IK 外置静态词库优点

自然语言分词程序源码: 哈工大ITP Java 实现的自然语言中文分词程序源码

IK_Analyzer_source分词器源码2012ff.rar: ik分词器源码，可方便自行进行修改以方便自己业务的扩张

海天智能分词系统源码: 海天智能分词系统源码,可以根据需要设置分词的粒度,另外提供了词性标注,关键字提取等功能，相信对学习智能分词的朋友有莫大帮助

基于LDA模型对豆瓣长评论进行主题分词python源码+数据（输出词云、主题热力图和主题-词表）.zip: 基于LDA模型对豆瓣长评论进行主题分词python源码+数据（输出词云、主题热力图和主题-词表）.zip 基于LDA模型对豆瓣长评论进行主题分词python源码+数据（输出词云、主题热力图和主题-词表）.zip 基于LDA模型对豆瓣长...

基于python实现词典的分词方法源码+实验报告+数据集+详细注释(NLP大作业).zip: 基于python实现词典的分词方法源码+实验报告+数据集+详细注释(NLP大作业).zip 基于python实现词典的分词方法源码+实验报告+数据集+详细注释(NLP大作业).zip 基于python实现词典的分词方法源码+实验报告+数据集+详细...

ik分词器elastcisearch6.4.2插件源码: ik分词器，支持elastcisearch6.4.2的源码，如果要使用其他6.X版本的，可以在源码内修改pom.xml中的es版本号。该源码格式也可为想自己写一个analyzer插件的朋友也可当demo参考

Global site tag (gtag.js) - Google Analytics