分词器在北京大学的语料上f-score达到93.9%了 - Phy Eas - ITeye博客

`

phyeas

浏览: 161620 次
性别:
来自: 珠海

最近访客更多访客>>

phoenixpj

ynsluhan

黑人红花侠

david_way

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

rockone： start_response()中的status和header ...
初试Python3.0 wsgiref遇到好些问题..
zhangdp_neu： 1.文本比较如何处理多关键字搜索？难道也文本比较。如果文本过多 ...
基于文本比较的搜索是否可行？
sdh5724：分词是很大的目的是为了减少内存使用。如果按字符倒排，也能出 ...
基于文本比较的搜索是否可行？
Heart.X.Raid：对于海量数据而言，可行性不大。查询关键字需要对每篇文档进行比较 ...
基于文本比较的搜索是否可行？
marcolu.1987：那个，能不能传一份标准切分结果给我，我在学习中文分词，希望得到 ...
分词器源码……M1

分词器在北京大学的语料上f-score达到93.9%了

博客分类：

日常杂记

F#算法 C C++C#

阅读更多

连续几天的努力终于把f-score从0.856一直提升到0.939。特征也从原来的5中增加到了8种，分类从原来的4种加到了6种，170多W的事件，训练出50多M的模型文件。想起原本只有区区0.856的f-score也觉得真不容易，呵呵。越到后面越觉得再提升就很困难了，基本上特征都提取完了……目前没有想到新的特征。

在这里也简要说下我的特征系列（当前字用C表示，C-1既是前一个字）：C pC-1 nC+1 pcC-1C cnCC+1 pnC-1C+1 ppC-2C-1 nnC+1C+2 (num | pnum | nnum) (symbol | nSymbol)

再加上读取11个字位内的最佳概率链（多了需要太多的运算空间和时间，没增加1则在原来的基础上*2,11个字位圆满算下来是2的11次方次运算。）

我会不断改进这个分词器的，过一段时间可能放出代码来给有兴趣的朋友下载，有什么写得不对的地方大家尽量指教。先谢谢了。最大熵的核心算法是从网上下的开源项目。

分享到：

分词器源码……M1 | 监听文件变化、python和GIL

2010-04-14 22:25
浏览 2579
评论(0)
分类:非技术
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

谭松波-酒店评论语料-UTF-8,10000条: 现在网上大部分谭松波老师的评论语料资源的编码方式都是gb2312，本资源除了原始编码格式，还具有UTF-8编码格式。本资源还包含将所有语料分成pos.txt和neg.txt两个文件，每个文件中的一行代表原始数据的一个txt文件...

北京大学28288句分词语料: 非常权威的北京大学分词语料可用于大规模的中文文本分词

icwb2-data等分词语料: 分词相关训练语料数据icwb2-data icwb2-data icwb2-data

微软亚洲研究院中文分词语料_icwb2-data: 微软亚洲研究院中文分词语料库_自然语言处理_科研数据集

汉语分词语料库: CTB6汉语分词语料库，可以拿来做分词任务。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

微软亚洲研究院中文分词语料库: 微软亚洲研究院中文分词语料库,研究中文分词,研究中文分词

自然语言处理-条件随机场工具集: 可以使用的中文语料资源是SIGHAN提供的backoff 2005语料，目前封闭测试最好的结果是4-tag+CFR标注分词，在北大语料库上可以在准确率，召回率以及F值上达到92%以上的效果，在微软语料库上可以到达96%以上的效果。

pku98-人民日报分词语料1998年1月份: 人民日报分词语料1998年1月份，包含训练和两份语料和汇总语料，可以自行训练和验证模型使用。

微软亚洲研究院中文分词语料___icwb2-data: 微软亚洲研究院中文分词语料_icwb2-data_自然语言处理_科研数据集

中文分词及词性标注语料: 中文分词及词性标注语料，包含微软亚研院、搜狗、北京大学等的语料库

酒店评论语料-UTF-8,10000条: 现在网上大部分谭老师的评论语料资源的编码方式都是gb2312，本资源除了原始编码格式，还具有UTF-8编码格式。本资源还包含将所有语料分成pos.txt和neg.txt两个文件，每个文件中的一行代表原始数据的一个txt文件，即...

crf分词标注训练语料: 用与crf分词，标注训练语料。 nlpcc2015任务一的数据

语料库软件-AntConc: A freeware corpus analysis toolkit for concordancing and text analysis. Provided by Laurence Anthony. 语料库相关牛人Laurence Anthony所做的语料库工具软件AntConc,绿色版，无需安装，直接运行。

BOTSALLY® 赛莉®中文语料自动标注-细切-词性标注语料样例: 赛莉®中文语料自动标注 https://www.botsally.tech 更多的语料资源，请到标注语料下载页面下载，语料的下载仅用于科研实验，商业应用请购买版权。

谭松波--酒店评论语料（utf-8+gb2312）: 谭松波老师的评论语料资源 gb2312，除了原始编码格式，还有UTF-8编码格式的，在这里一起分享给大家，还将所有语料分成pos.txt和neg.txt两个文件，每个文件中的一行代表原始数据的一个txt文件，即一篇评论，更加的...

搜狗语料库-应用于文本分类: 搜狗语料库-应用于文本分类搜狗语料库-应用于文本分类搜狗语料库-应用于文本分类搜狗语料库-应用于文本分类搜狗语料库-应用于文本分类搜狗语料库-应用于文本分类搜狗语料库-应用于文本分类搜狗语料库-应用于文本分类

分词词性标记语料: 分词词性标记语料

基于特定语料库的TF-IDF的中文关键词提取: Keyword extraction based on TF-IDF of specific corpus. 基于特定语料库的TF-IDF的中文关键词提取

Global site tag (gtag.js) - Google Analytics