- 浏览: 161620 次
- 性别:
- 来自: 珠海
最新评论
-
rockone:
start_response()中的status和header ...
初试Python3.0 wsgiref遇到好些问题.. -
zhangdp_neu:
1.文本比较如何处理多关键字搜索?难道也文本比较。如果文本过多 ...
基于文本比较的搜索是否可行? -
sdh5724:
分词是很大的目的是为了减少内存使用。 如果按字符倒排, 也能出 ...
基于文本比较的搜索是否可行? -
Heart.X.Raid:
对于海量数据而言,可行性不大。查询关键字需要对每篇文档进行比较 ...
基于文本比较的搜索是否可行? -
marcolu.1987:
那个,能不能传一份标准切分结果给我,我在学习中文分词,希望得到 ...
分词器源码……M1
相关推荐
现在网上大部分谭松波老师的评论语料资源的编码方式都是gb2312,本资源除了原始编码格式,还具有UTF-8编码格式。 本资源还包含将所有语料分成pos.txt和neg.txt两个文件,每个文件中的一行代表原始数据的一个txt文件...
非常权威的北京大学分词语料 可用于大规模的中文文本分词
分词相关训练语料数据icwb2-data icwb2-data icwb2-data
微软亚洲研究院中文分词语料库_自然语言处理_科研数据集
CTB6汉语分词语料库,可以拿来做分词任务。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
微软亚洲研究院中文分词语料库,研究中文分词,研究中文分词
可以使用的中文语料资源是SIGHAN提供的backoff 2005语料,目前封闭测试最好的结果是4-tag+CFR标注分词,在北大语料库上可以在准确率,召回率以及F值上达到92%以上的效果,在微软语料库上可以到达96%以上的效果。
人民日报分词语料1998年1月份,包含训练和两份语料和汇总语料,可以自行训练和验证模型使用。
微软亚洲研究院中文分词语料_icwb2-data_自然语言处理_科研数据集
中文分词及词性标注语料,包含微软亚研院、搜狗、北京大学等的语料库
现在网上大部分谭老师的评论语料资源的编码方式都是gb2312,本资源除了原始编码格式,还具有UTF-8编码格式。 本资源还包含将所有语料分成pos.txt和neg.txt两个文件,每个文件中的一行代表原始数据的一个txt文件,即...
用与crf分词,标注训练语料。 nlpcc2015任务一的数据
A freeware corpus analysis toolkit for concordancing and text analysis. Provided by Laurence Anthony. 语料库相关牛人Laurence Anthony所做的语料库工具软件AntConc,绿色版,无需安装,直接运行。
赛莉®中文语料自动标注 https://www.botsally.tech 更多的语料资源,请到标注语料下载页面下载,语料的下载仅用于科研实验,商业应用请购买版权。
谭松波老师的评论语料资源 gb2312,除了原始编码格式,还有UTF-8编码格式的,在这里一起分享给大家, 还将所有语料分成pos.txt和neg.txt两个文件,每个文件中的一行代表原始数据的一个txt文件,即一篇评论,更加的...
搜狗语料库-应用于文本分类搜狗语料库-应用于文本分类搜狗语料库-应用于文本分类搜狗语料库-应用于文本分类搜狗语料库-应用于文本分类搜狗语料库-应用于文本分类搜狗语料库-应用于文本分类搜狗语料库-应用于文本分类
分词词性标记语料
Keyword extraction based on TF-IDF of specific corpus. 基于特定语料库的TF-IDF的中文关键词提取