基于文本比较的搜索是否可行？

博客分类：

日常杂记

基于文本比较是相对于现在基于分词索引的搜索而说的，使用文本比较算法对要搜索的内容和关键字进行比较，找出最大匹配率，根据最大匹配进行排序。返回一个结果列表。中间避免了分词的过程。可能的问题： 1、性能问题。在内容数量非常庞大的时候，文本比较算法消耗的时间可能比较多。我所想到的解决方案是利用分布式计算，将内容分布在不同的地方同时进行计算。所以剩下的就是比较算法瓶颈的问题，就是内容有多大的时候才需要分布。相对于分词索引的搜索算法的性能，我认为这个是差不多的。分词索引在索引非常庞大的时候也需要分布吧，具体本人没有处理过非常大的数据量。只使用比较算法处理过10W的级别的词库，每个词为3－50个字左右。关 ...

2009-08-19 13:00
浏览 1618
评论(9)
论坛回复 / 浏览 (8 / 2702)
分类:编程语言

文件版本管理-文件合并

博客分类：

Python

SVN CVS 工作

用过svn或者cvs的人都知道，文件版本冲突的时候应该将两个冲突的版本进行比较，然后进行合并，如果不能合并则抛出异常。这个在程序里怎么实现呢，这个是否可以合并不是很好判断啊。分析一下，这里有三个文件，一个是版本一（最老的版本），版本2（现在正在库中的版本），版本3（引发冲突的版本），现在要将版本2的内容合并到版本3中而不破坏版本3的修改。那么我们就需要一个修改记录清单。用版本1分别和版本2、版本3进行比较，得出两个"修改记录清单"，清单类似这样： ["修改了2到5的字符为xxxx"]，那么将其中的2和5替换为变量，类似["修改了a到b的字符为x ...

2009-07-15 12:46
浏览 1252
评论(4)
论坛回复 / 浏览 (4 / 3776)

在Python3.0中处理web请求-继续封装wsgi

博客分类：

Python

Web FP 多线程 CGI HTML

接上篇在Python3.0中处理web请求-继续封装wsgi ：这次加入了Cookies封装，session支持，从线程作用域获取request,response等。目前session还不能被持久化 # -*- coding: utf-8 -*- import socketserver, re, cgi, io, urllib.parse from wsgiref.simple_server import WSGIServer import threading, time, urllib, guid from http.cookies import SimpleCoo ...

2009-05-27 17:19
浏览 2810
评论(0)
论坛回复 / 浏览 (0 / 3965)

在Python3.0中处理web请求-封装wsgi

博客分类：

Python

Web FP Servlet CGI 多线程

闲来无聊，写了一些python3000的wsgi封装的代码，包括封装url匹配，客户请求参数，跳转，响应流的封装等，少说废话。上代码： # -*- coding: utf-8 -*- import socketserver, re, cgi, io, urllib.parse from wsgiref.simple_server import WSGIServer class AppException(Exception): pass class Request(object): """保存客户端请求信息"&quo ...

2009-05-26 13:23
浏览 2533
评论(2)
论坛回复 / 浏览 (2 / 3527)

制作自己的Search Suggest 1-拼音切分

博客分类：

Java

Ajax 工作

什么是Search Suggest(搜索建议)，上一个截图大家就知道：对，就是一个输入提示，问了很多人，都以为我是说前台ajax的实现问题。因为很多人都觉得后台数据只要一个select就可以得到……但真的是一个select就可以得到吗？我想了好久都没想到这条select怎么写，于是开始自己琢磨。我所想到的首先要做的是将输入的东西拆分。比如sg要拆分为[s,g]，sog要拆分为[so,g]，soug=>[sou,g]，sougou => [sou,gou]等等……，当然了，有一些拼音很难拆，比如xian这样的，我的做法是对于这种拼音在拆分环节不进行拆分，即：xian =&g ...

2009-05-13 11:08
浏览 1983
评论(2)
论坛回复 / 浏览 (2 / 2433)
分类:非技术

Spring版本冲突问题

博客分类：

Java

Spring Java junit Eclipse Apache

一下错误是因为在MyEclipse中导入xfire会自动导入spring1.2.6，然后自己又导入spring2.0引起的版本冲突(仅在使用ClassPathXmlApplicationContext,FileSystemXmlApplicationContext的情况下)，导致程序无法做单元测试。 java.lang.IllegalStateException: Could not find valid implementation for: 2.0 at org.apache.xbean.spring.context.impl.XBeanHelper.createBeanDefi ...

2009-05-11 15:03
浏览 6167
评论(0)

SQLAlchemy-查询

博客分类：

Python

Python SQL ORM C C++

似乎ORM最难设计的部分是查询。特别是面向对象的查询，今天学习SQLAlchemy，发现SQLAlchemy的查询语法竟如此灵活，惊叹其如此强大的表达能力的同时也对Python也有了更深的认识。下面看一下我写的一些查询语句： #简单查询 print(session.query(User).all()) print(session.query(User.name, User.fullname).all()) print(session.query(User, User.name).all()) #带条件查询 print(ses ...

2009-04-27 21:15
浏览 8651
评论(0)
论坛回复 / 浏览 (0 / 4638)

SQLAlchemy与Python3.0

博客分类：

Python

SVN Python ORM 框架 Web

今天开始学习SQLAlchemy，我用的是python3，所以，首先得让他能在python3上运行。看了下官方网站的介绍，SQLAlchemy准备从0.6版开始支持python3(http://www.sqlalchemy.org/download.html)，但现在的0.6还在开发阶段，能正式下载到的只有0.5.3，要下0 ...

2009-04-26 22:47
浏览 1772
评论(2)
论坛回复 / 浏览 (2 / 4780)

想设计一个Python的持久层框架

博客分类：

Python

框架 Python ActiveRecord iBATIS XML

框架定义在持久层，除提供ORMapping功能外加点权限控制。ORMapping的代码学习iBatis和ActiveRecord的做法，可使用任意一种，想象中xml应该这样子定义 <sqlmap name="queryTable"> select c1,c2 from table where c1=:name </sqlmap> 调 ...

2009-04-24 23:24
浏览 1719
评论(8)
论坛回复 / 浏览 (8 / 2515)

设计Python数据库连接池1-对象的循环引用问题

博客分类：

Python

Python Django F#

在Python中如果对象定义了__del__方法的话，在对象的引用记数为0时会自动调用__del__方法（很象c++中的析构函数），但如果A对象引用B对象，B对象又引用A对象，就形成循环引用，此时A，B对象引用次数都为1。python就无法正常调用__d ...

2009-04-17 23:25
浏览 2316
评论(5)
论坛回复 / 浏览 (5 / 5899)

在Python3.0中处理web请求7-文件上传(使用cgi.FieldStorage)

博客分类：

Python

CGI Web FP

winput=env["wsgi.input"] params=cgi.FieldStorage(fp=io.StringIO(winput.read(int(env.get("CONTENT_LENGTH","0"))).decode("ISO-8859-1")),environ=env,keep_blank_values=1) print(params["file"].name) print(params["file"].file ...

2009-04-12 14:53
浏览 4858
评论(0)
论坛回复 / 浏览 (0 / 3793)

在Python3.0中处理web请求6-简单的模板引擎

博客分类：

Python

Web Python OS Django F#

今天放假在家，外面又在下雨，闲来无事，写了个简单的模板引擎，其实也不算什么模板，只是把嵌在html里的python代码解释成嵌入在python里的html代码，仅此而已，代码也很简陋，纯粹个人娱乐以下是示例代码： from web.render import SimpleHTMLRender from socketserver import ThreadingMixIn from wsgiref.simple_server import WSGIServer render = SimpleHTMLRender("F:/test/") class ThreadingWSGI ...

2009-04-06 21:14
浏览 1343
评论(2)
论坛回复 / 浏览 (2 / 2546)

在Python3.0中处理web请求5-处理cookie

博客分类：

Python

Web Python HTML

在处理web请求时，处理Cookie是非常重要的一个环节，要处理用户session首先就要处理用户提交的cookie。在python(wsgi)中并没有直接获取cookie值的方法，以下是我今天参照类库帮助写的一个获取用户发送来的cookie的demo：首先先从服务器发送cookie数据到客户端： def application(env,start_response): cookie = SimpleCookie() cookie["name"] = urllib.parse.quote("phyeas") cookie[&quo ...

2009-04-06 01:39
浏览 1757
评论(0)
论坛回复 / 浏览 (0 / 2513)

在Python3.0中处理web请求4-回归WSGI

博客分类：

Python

Web 多线程

前面一直使用HTTPServer对web请求进行处理，今天突然想能不能改下，用python3提供的wsgiref进行处理，原来的程序： from wsgiref.simple_server import make_server def hello_world_app(env,start_response): start_response("200 OK",[("Content-type","text/plain;charset=utf-8")]) return ["Hello World!!"] ...

2009-03-31 16:04
浏览 1232
评论(0)
论坛回复 / 浏览 (0 / 1749)

在Python3.0中处理web请求3-多线程

博客分类：

Python

多线程 Web Python F#浏览器

继续研究Python3进行处理web请求。在第一篇文章的Hello World程序中，是没有进行多线程处理的，导致的情况是当第一个人执行了一个操作，如果这个操作所需要的时间比较长，那么其他人就需要等他执行完后才能访问，这是非常不符合逻辑的，我看了下源码，HTTPServer确实没有进行任何线程处理，若运行以下代码： #!coding=UTF-8 from http.server import HTTPServer,BaseHTTPRequestHandler import io,shutil,time class MyHttpHandler(BaseHTTPRequestHandler): ...

2009-03-30 14:06
浏览 3357
评论(0)
论坛回复 / 浏览 (0 / 3152)

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

基于文本比较的搜索是否可行？

文件版本管理-文件合并

在Python3.0中处理web请求-继续封装wsgi

在Python3.0中处理web请求-封装wsgi

制作自己的Search Suggest 1-拼音切分

Spring版本冲突问题

SQLAlchemy-查询

SQLAlchemy与Python3.0

想设计一个Python的持久层框架

设计Python数据库连接池1-对象的循环引用问题

在Python3.0中处理web请求7-文件上传(使用cgi.FieldStorage)

在Python3.0中处理web请求6-简单的模板引擎

在Python3.0中处理web请求5-处理cookie

在Python3.0中处理web请求4-回归WSGI

在Python3.0中处理web请求3-多线程

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>