`
phyeas
  • 浏览: 161617 次
  • 性别: Icon_minigender_1
  • 来自: 珠海
社区版块
存档分类
最新评论
文章列表
基于文本比较是相对于现在基于分词索引的搜索而说的,使用文本比较算法对要搜索的内容和关键字进行比较,找出最大匹配率,根据最大匹配进行排序。返回一个结果列表。中间避免了分词的过程。可能的问题: 1、性能问题。在内容数量非常庞大的时候,文本比较算法消耗的时间可能比较多。我所想到的解决方案是利用分布式计算,将内容分布在不同的地方同时进行计算。所以剩下的就是比较算法瓶颈的问题,就是内容有多大的时候才需要分布。相对于分词索引的搜索算法的性能,我认为这个是差不多的。分词索引在索引非常庞大的时候也需要分布吧,具体本人没有处理过非常大的数据量。只使用比较算法处理过10W的级别的词库,每个词为3-50个字左右。关 ...
用过svn或者cvs的人都知道,文件版本冲突的时候应该将两个冲突的版本进行比较,然后进行合并,如果不能合并则抛出异常。这个在程序里怎么实现呢,这个是否可以合并不是很好判断啊。分析一下,这里有三个文件,一个是版本一(最老的版本),版本2(现在正在库中的版本),版本3(引发冲突的版本),现在要将版本2的内容合并到版本3中而不破坏版本3的修改。那么我们就需要一个修改记录清单。用版本1分别和版本2、版本3进行比较,得出两个"修改记录清单",清单类似这样: ["修改了2到5的字符为xxxx"],那么将其中的2和5替换为变量,类似["修改了a到b的字符为x ...
接上篇 在Python3.0中处理web请求-继续封装wsgi : 这次加入了Cookies封装,session支持,从线程作用域获取request,response等。目前session还不能被持久化   # -*- coding: utf-8 -*- import socketserver, re, cgi, io, urllib.parse from wsgiref.simple_server import WSGIServer import threading, time, urllib, guid from http.cookies import SimpleCoo ...
闲来无聊,写了一些python3000的wsgi封装的代码,包括封装url匹配,客户请求参数,跳转,响应流的封装等,少说废话。上代码: # -*- coding: utf-8 -*- import socketserver, re, cgi, io, urllib.parse from wsgiref.simple_server import WSGIServer class AppException(Exception): pass class Request(object): """保存客户端请求信息"&quo ...
什么是Search Suggest(搜索建议),上一个截图大家就知道: 对,就是一个输入提示,问了很多人,都以为我是说前台ajax的实现问题。因为很多人都觉得后台数据只要一个select就可以得到……但真的是一个select就可以得到吗?我想了好久都没想到这条select怎么写,于是开始自己琢磨。 我所想到的首先要做的是将输入的东西拆分。比如sg要拆分为[s,g],sog要拆分为[so,g],soug=>[sou,g],sougou => [sou,gou]等等……,当然了,有一些拼音很难拆,比如xian这样的,我的做法是对于这种拼音在拆分环节不进行拆分,即:xian =&g ...
一下错误是因为在MyEclipse中导入xfire会自动导入spring1.2.6,然后自己又导入spring2.0引起的版本冲突(仅在使用ClassPathXmlApplicationContext,FileSystemXmlApplicationContext的情况下),导致程序无法做单元测试。 java.lang.IllegalStateException: Could not find valid implementation for: 2.0     at org.apache.xbean.spring.context.impl.XBeanHelper.createBeanDefi ...
似乎ORM最难设计的部分是查询。特别是面向对象的查询,今天学习SQLAlchemy,发现SQLAlchemy的查询语法竟如此灵活,惊叹其如此强大的表达能力的同时也对Python也有了更深的认识。下面看一下我写的一些查询语句: #简单查询 print(session.query(User).all()) print(session.query(User.name, User.fullname).all()) print(session.query(User, User.name).all()) #带条件查询 print(ses ...
今天开始学习SQLAlchemy,我用的是python3,所以,首先得让他能在python3上运行。看了下官方网站的介绍,SQLAlchemy准备从0.6版开始支持python3(http://www.sqlalchemy.org/download.html),但现在的0.6还在开发阶段,能正式下载到的只有0.5.3,要下0 ...
框架定义在持久层,除提供ORMapping功能外加点权限控制。ORMapping的代码学习iBatis和ActiveRecord的做法,可使用任意一种,想象中xml应该这样子定义 <sqlmap name="queryTable"> select c1,c2 from table where c1=:name </sqlmap>  调 ...
在Python中如果对象定义了__del__方法的话,在对象的引用记数为0时会自动调用__del__方法(很象c++中的析构函数),但如果A对象引用B对象,B对象又引用A对象,就形成循环引用,此时A,B对象引用次数都为1。python就无法正常调用__d ...
  winput=env["wsgi.input"] params=cgi.FieldStorage(fp=io.StringIO(winput.read(int(env.get("CONTENT_LENGTH","0"))).decode("ISO-8859-1")),environ=env,keep_blank_values=1) print(params["file"].name) print(params["file"].file ...
今天放假在家,外面又在下雨,闲来无事,写了个简单的模板引擎,其实也不算什么模板,只是把嵌在html里的python代码解释成嵌入在python里的html代码,仅此而已,代码也很简陋,纯粹个人娱乐 以下是示例代码: from web.render import SimpleHTMLRender from socketserver import ThreadingMixIn from wsgiref.simple_server import WSGIServer render = SimpleHTMLRender("F:/test/") class ThreadingWSGI ...
在处理web请求时,处理Cookie是非常重要的一个环节,要处理用户session首先就要处理用户提交的cookie。在python(wsgi)中并没有直接获取cookie值的方法,以下是我今天参照类库帮助写的一个获取用户发送来的cookie的demo: 首先先从服务器发送cookie数据到客户端: def application(env,start_response): cookie = SimpleCookie() cookie["name"] = urllib.parse.quote("phyeas") cookie[&quo ...
前面一直使用HTTPServer对web请求进行处理,今天突然想能不能改下,用python3提供的wsgiref进行处理,原来的程序: from wsgiref.simple_server import make_server def hello_world_app(env,start_response): start_response("200 OK",[("Content-type","text/plain;charset=utf-8")]) return ["Hello World!!"] ...
继续研究Python3进行处理web请求。在第一篇文章的Hello World程序中,是没有进行多线程处理的,导致的情况是当第一个人执行了一个操作,如果这个操作所需要的时间比较长,那么其他人就需要等他执行完后才能访问,这是非常不符合逻辑的,我看了下源码,HTTPServer确实没有进行任何线程处理,若运行以下代码: #!coding=UTF-8 from http.server import HTTPServer,BaseHTTPRequestHandler import io,shutil,time class MyHttpHandler(BaseHTTPRequestHandler): ...
Global site tag (gtag.js) - Google Analytics