`
phyeas
  • 浏览: 161498 次
  • 性别: Icon_minigender_1
  • 来自: 珠海
社区版块
存档分类
最新评论

基于文本比较的搜索是否可行?

阅读更多

基于文本比较是相对于现在基于分词索引的搜索而说的,使用文本比较算法对要搜索的内容和关键字进行比较,找出最大匹配率,根据最大匹配进行排序。返回一个结果列表。中间避免了分词的过程。可能的问题:

1、性能问题。在内容数量非常庞大的时候,文本比较算法消耗的时间可能比较多。我所想到的解决方案是利用分布式计算,将内容分布在不同的地方同时进行计算。所以剩下的就是比较算法瓶颈的问题,就是内容有多大的时候才需要分布。相对于分词索引的搜索算法的性能,我认为这个是差不多的。分词索引在索引非常庞大的时候也需要分布吧,具体本人没有处理过非常大的数据量。只使用比较算法处理过10W的级别的词库,每个词为3-50个字左右。关键字为2-6个字,此时比较起来大约只花费了15-40毫秒。

2、准确率的问题。准确率取决于最大匹配率的算法十分正确,如果正确则与此相关的应该都能找出来,而分词索引则取决于分词算法的准确率。我认为比较算法的准确率还是比分词的准确率高的。

 

如还有其他问题希望大家补充。大家讨论下这个算法的可行性,欢迎拍砖。

分享到:
评论
9 楼 zhangdp_neu 2010-05-11  
1.文本比较如何处理多关键字搜索?难道也文本比较。如果文本过多,效率恐怕会有问题。如果只是玩玩到没什么。
2.准确率 这个问题,如果是搜索引擎 我个人觉得不十分准确要好于十分准确。

所以如果这个算法 如果是做一个家庭作业感觉还过得去。
一般应用可能行不通。
8 楼 sdh5724 2010-05-11  
分词是很大的目的是为了减少内存使用。 如果按字符倒排, 也能出不错的结果的。 可是难以对付庞大的内存, 全文比较, 基本不科学。
7 楼 Heart.X.Raid 2010-05-10  
对于海量数据而言,可行性不大。查询关键字需要对每篇文档进行比较,这就需要把所有文档常驻内存,这需要多大的内存资源呀。相比之下,倒排索引表就小的多了。
6 楼 lonelybug 2009-09-14  
LZ做这个最高级别是研究一下Suffix Tree的东西。

我之前在学校时帮老师做这个研究的,基本上很多搜索引擎都是引入这个东西。
5 楼 mikeandmore 2009-08-21  
phyeas 写道
mikeandmore 写道
好像可以,
据说是叫hash一派?

哦?可以提供资料看下吗?谢谢

我只听过一个讲座这么说的。
说会给一些文本做hash,hash成图像,然后利用图像算法的相似度来表明文章的相似度。
当然这种hashfunc很难找。

可以看看www阿。。。这种东西应该都在www上的。。。
4 楼 phyeas 2009-08-19  
mikeandmore 写道
好像可以,
据说是叫hash一派?

哦?可以提供资料看下吗?谢谢
3 楼 mikeandmore 2009-08-19  
好像可以,
据说是叫hash一派?
2 楼 lw223 2009-08-19  
三年前毕设题目是中文搜索引擎,纯粹理论派,程序和算法太烂没法实践。

1 楼 lw223 2009-08-19  
拍一板儿砖,闪人

相关推荐

    论文研究-基于GA优化QPSO算法的文本聚类.pdf

    针对量子行为粒子群优化算法中粒子搜索的...通过在Reuter-21578真实的文本数据集上实验,该算法在Fmeasure评价标准上获得了较高的查准率和查全率,从而验证了该聚类算法的有效性和可行性,可以在文本聚类领域推广应用。

    一种基于BloomFilter的改进型加密文本模糊搜索机制研究

    为此,提出一种改进的密文数据多关键字检索机制,一方面,基于BloomFilter数据结构设计一种新的关键字转换方法,能够在保持模糊搜索功能及识别率的同时,有效降低数据索引规模;另一方面,基于动态混淆参数调节的思路改进...

    论文研究-基于统计机器学习的互联网暗链检测方法.pdf

    为了维护公平的搜索引擎排名机制,保证搜索结果质量,针对暗链这种作弊手段,提出了一种基于机器学习的互联网暗链检测方法,该方法结合网页源码锚文本的特征检测暗链。给出了相关性能分析,在真实的网络环境下的实验...

    可行点标记求最佳匹配算法

    在给定的文本中,我们可以插入一些额外的内容来扩展文本长度,同时保留原始的关键思想。 以下是一些关于可行点标记求最佳匹配算法的matlab程序代码的详细说明: 该算法是用于解决最佳匹配问题的一种方法。它的目标...

    论文研究-基于数据挖掘的新词发现.pdf

    利用文本挖掘技术提出了一种用于主题式搜索引擎的专业词典库发现新专业词汇的方法,详述了如何通过关联规则挖掘来实现专业词典库的扩展,并在此基础上进行了小样本实验,实验结果显示该方法有效可行。

    基于统计机器学习的互联网暗链检测方法 (2015年)

    为了维护公平的搜索引擎排名机制,保证搜索结果质量,针对暗链这种作弊手段,提出了一种基于机器学习的互联网暗链检测方法,该方法结合网页源码锚文本的特征检测暗链。给出了相关性能分析,在真实的网络环境下的实验...

    mern-social-media:[全栈React项目 MERN 栈项目] 一个基于 MERN 栈的社交媒体应用项目,带有管理面板。 这是完全可行的项目。 它是完全响应式的应用程序

    演示网站: : 人人社交媒体完整项目基于社交媒体应用程序的 MERN 堆栈项目。 这是完全可行的项目。 它的完全响应式应用程序。 MongoDB Express React Redux NodeJs 是这个项目的用户。本项目包含的功能: 用户特点:...

    文档自动分类技术及其在搜索引擎中应用的研究_北京大学硕士论文

    在介绍了传统的Spider式搜索引擎和基于人工分类的目录式搜索引擎的特点并对它们作了比较之后,指出支持分类目录是Spider式搜索引擎发展的趋势,而应用文档自动分类领域的研究对收集的网页自动分类,实现对分类目录的...

    metaphonebr:pt-BR 的元音实现

    在传统数据库中搜索变体的成本急剧下降,因此由于要分析的记录数量较少,用于有效排序的第二个邻近算法(...levenshtein,类似文本)变得可行。 基本上就是把一个词转换成语音形式,这样就可以找到语音相似的词,...

    asp.net知识库

    asp.net的网址重定向方法的比较:面向搜索引擎友好 也谈 ASP.NET 1.1 中 QueryString 的安全获取写法 ASP.NET运行模式:PageHandlerFactory 利用搜索引擎引用来高亮页面关键字 网站首页的自动语言切换 应用系统的多...

    e语言-公交查询系统(易语言2005年大赛特等奖)

    公交查询系统(易语言2005年大赛特等奖)曾劲松 2005/6/5《武汉人·公交查询系统》是一款基于武汉市电子地图的公交线路查询系统,它允许你非常方便地搜寻武汉市从甲地到乙地的行车线路并将行车线路在地图上绘制出来,...

    公交查询系统[易语言编写,源代码]

    《武汉人·公交查询系统》是一款基于武汉市电子地图的公交线路查询系统,它允许你非常方便地搜寻武汉市从甲地到乙地的行车线路并将行车线路在地图上绘制出来,快速准确地查找离某地最近的公交站,查找某公交站的位置...

    metacurate-lexicon:一种Web服务,通​​过Web GUI和RESTful API公开语义相似性搜索

    Metacurate词典以及随附的API是对将Web服务部署到平台即服务Heroku的可行性的调查结果,该Web服务使用大量合理的单词嵌入。 详细 可以在上找到metacurate词典(它在免费的dyno上运行,因此需要30秒左右的时间才能...

    antlr4权威指南

    ANTLR是一款强大的语法分析器生成工具,可用于读取、处理、执行和翻译结构化的文本或二进制文件。它被广泛应用于学术领域和工业生产实践,是众多语言、工具和框架的基石。Twitter搜索使用ANTLR进行语法分析,每天...

    real-time-speech-recognition-with-websockets:使用Symbl.ai的Streaming API通过本地Javascript WebSocket创建实时语音识别

    摘要UI具有完全可定制和可编辑的参考体验,可索引可搜索的笔录并显示生成的可行见解,主题,时间码和演讲者信息。 集成指南的目的 启用S​​ymbl进行实时语音识别。 设置 获取此代码并在浏览器的开发控制台中运行它...

    易语言-公交查询系统(易语言2005年大赛特等奖)

    《武汉人·公交查询系统》是一款基于武汉市电子地图的公交线路查询系统,它允许你非常方便地搜寻武汉市从甲地到乙地的行车线路并将行车线路在地图上绘制出来,快速准确地查找离某地最近的公交站,查找某公交站的位置...

    电子商务网站首页设计.doc

    首页设计 1、 引言 电子商务通常是指是在全球各地广泛的商业贸易活动中,在因特网开放的网络环境下, 基于浏览器/服务器应用方式,买卖双方不谋面地进行各种商贸活动,实现消费者的网上 购物、商户之间的网上交易和...

    2009计算机 毕业设计 诚信体育用品

    SQL Server200是现今比较流行的数据库,他具有数据结构化,数据共享性高,数据独立性高以及数据由DBMS(数据库信息管理系统)统一管理和控制的优点。 2.2 数据流图 数据流图描述:用户初次在本网站购买商品需先注册为...

    数据结构(C++)有关练习题

    e. 如有可能,请建立一个存储商品名称和数量的文本文件,并为二叉搜索树建立一个成员函数SetupInventory(),用于从该文本文件中读取库存商品的数据, 实验报告要求: 1、 按要求记录下二叉搜索树的完整实验...

Global site tag (gtag.js) - Google Analytics