`
edwardpro
  • 浏览: 301233 次
  • 性别: Icon_minigender_1
社区版块
存档分类
最新评论

<![CDATA[lucene分词算法概论以及中文分词的猜想]]>

阅读更多
趁着清明放假的大好岁月,花了点洗衣服的时间看了点lucene的源码,主要想看看分词那部分。
luncene分词的大概过程是这样的:
1 截断单词
2 过滤干扰信息
3 写入结果

截断,对于英文来书很简单就是用空格和标点符号以及一些特殊用词,这些在系统里已经定义好,当然你也可以适时地改变一下。
过滤,在它的标准算法中会对如下的符号进行过滤:'s 'S  . 这样几种。
写入,这个顾名思义啦

下面谈谈我对中文分词的猜想,之前也用过je分词这样所谓成功作品,但无论性能还是效果都无法达到我的要求,而且它又不公开源码,令人非常失望,所以目前我使用的依然是luncene中的标准分词,也就是单字分词,但单字分词的问题也很明显消耗了极大的存储空间,目前在非压缩状态下,索引是原始文档的1.2~1.3倍之多,这是随着数据积累挺令我担心的问题。所以不得不思考中文的算法过程,我设想的算法应该是这样:
1 截断,利用分词库和常用介词表进行,其中分词库采用首字单词长度逆向排序法匹配,过程:
首先将词库按首字放入hash,然后将同首字的按照长度逆序排列
然后分词的时候先按单字分开,然后依据分词表,匹配 n次 (n是首字列表里的元素个数)并且允许重复匹配,比如中国 中国人 需要重复匹配。
之后同样去除标点符号等干扰因素。
那么我们现在来是想一下它的算法复杂度:
应该是: len(str)×n(str【i】)
试验更高级的算法在多词匹配时利用递归,将后一个字的算法也同时写入,或将减少其算法复杂度。
下周刊有时间的时候尝试写一个分词来看看,是否合理。

Tags - 分词 , 算法
分享到:
评论

相关推荐

    微信开发文档

    [CDATA[toUser]]&gt;&lt;/ToUserName&gt; &lt;FromUserName&gt;&lt;![CDATA[fromUser]]&gt;&lt;/FromUserName&gt; &lt;CreateTime&gt;1348831860&lt;/CreateTime&gt; &lt;MsgType&gt;&lt;![CDATA[text]]&gt;&lt;/MsgType&gt; &lt;Content&gt;&lt;![CDATA[this is a test]]&gt;&lt;/...

    微信时间开发源码

    [CDATA[%s]]&gt;&lt;/ToUserName&gt; &lt;FromUserName&gt;&lt;![CDATA[%s]]&gt;&lt;/FromUserName&gt; &lt;CreateTime&gt;%s&lt;/CreateTime&gt; &lt;MsgType&gt;&lt;![CDATA[%s]]&gt;&lt;/MsgType&gt; &lt;Content&gt;&lt;![CDATA[%s]]&gt;&lt;/Content&gt; &lt;FuncFlag&gt;0&lt;/FuncFlag&gt; &lt;/xml...

    一个简单的xml文件

    ATTLIST 电话 类别 CDATA "移动电话"&gt; ]&gt; &lt;联系人列表&gt; &lt;说明&gt;&content;&lt;/说明&gt; &lt;联系人&gt; &lt;姓名&gt;刘保文&lt;/姓名&gt; &lt;ID&gt;201003101115&lt;/ID&gt; &lt;公司&gt;腾飞汇通有限公司&lt;/公司&gt; &lt;电话 类别="移动电话"&gt;18993380967&lt;/...

    asp微信开发者回复代码

    "&lt;Description&gt;为企业提供专业的、全面的、量身定制的企业业管理咨询、员工培训、企业品牌营销策划、竞争性行业分析、IT信息咨询、酒店以及职工餐饮托管等服务。" &_ "&lt;/Description&gt;" &_ "&lt;PicUrl&gt;&lt;![CDATA...

    上传xml文档

    &lt;preconditions&gt;&lt;![CDATA[1.使用udp_bi用户在PLSQL正常登陆UAT数据库&lt;br&gt; (UAT数据库IP: 10.0.13.178)&lt;br&gt; 2.数据库脚本已下载至本地环境]]&gt;&lt;/preconditions&gt;&lt;importance&gt;&lt;![CDATA[2]]&gt;&lt;/importance&gt;&lt;steps&gt; &lt;step&gt;

    省市区表,xml省市区

    自己将数据导入到xml中的,希望有需要的朋友可以自己下载,格式为&lt;!DOCTYPE PCAroot[ &lt;!ELEMENT PCAroot (Province*)&gt; &lt;!ELEMENT Province (City*)&gt; &lt;!ELEMENT City (Area*)&gt; &lt;!ELEMENT Area (#PCDATA)&gt; &lt;!...

    JAVA对象转换成XML(CDATA)

    XML 元素中,"&lt;" 和 "&" 是非法的。"&lt;" 会产生错误,因为解析器会把该字符解释为新元素的开始。"&" 也会产生错误,因为解析器会把该...[CDATA[文本内容]]&gt;CDATA的文本内容中不能出现字符串“]]&gt;”,另外,CDATA不能嵌套。

    Mybatis 中的&amp;lt;![CDATA[ ]]&amp;gt;浅析

    本文给大家解析使用&lt;![CDATA[ ]]&gt;解决xml文件不被转义的问题, 对mybatis 中的&lt;![CDATA[ ]]&gt;相关知识感兴趣的朋友一起看看吧

    C#读取XML的CDATA节点内容实例详解

    &lt;srvver&gt;1.0&lt;/srvver&gt; &lt;srvcode&gt;000&lt;/srvcode&gt; &lt;payload&gt; &lt;param type=XML key=data&gt; &lt;![CDATA[ &lt;Response&gt; &lt;Execution&gt; &lt;Status code=0 sql_code=0 description=执行成功!/&gt; &lt;/Execution&gt; &lt;ResponseContent...

    Mobile Atlas Creator.exe

    [CDATA[http://t{$serverpart}.tianditu.cn/DataServer?T=cia_w&X={$x}&Y={$y}&L={$z}]]&gt;&lt;/url&gt; &lt;serverParts&gt;0 1 2 3 5 6 7&lt;/serverParts&gt; &lt;backgroundColor&gt;#00000000&lt;/backgroundColor&gt; &lt;/customMapSource&gt; &lt;/...

    微信接口ASP版

    [CDATA[gh_33bb5907f91e]]&gt;&lt;/ToUserName&gt; &lt;FromUserName&gt;&lt;![CDATA[ojLh3jkYtiszyEY-_sM_8yrNxSc4]]&gt;&lt;/FromUserName&gt; &lt;CreateTime&gt;1363231643&lt;/CreateTime&gt; &lt;MsgType&gt;&lt;![CDATA[text]]&gt;&lt;/MsgType&gt; &lt;Content&gt;&lt;...

    Delphi 2010 Live Code templates Syntax

    &lt;description&gt;Description goes here&lt;/description&gt; &lt;author&gt;Author OfTheTemplate&lt;/author&gt; &lt;point name="NameOfPoint"&gt; &lt;text&gt;default text here&lt;/text&gt; &lt;hint&gt;hint for the user&lt;/hint&gt; &lt;/point&gt; &lt;code ...

    异构系统xml交互程序

    [CDATA[10]]&gt;&lt;/LoginTimeOut&gt; &lt;QueryTimeOut&gt;&lt;![CDATA[3600]]&gt;&lt;/QueryTimeOut&gt; 原始set.xml数据库连接节点缺少以上两个节点请添加,LoginTimeOut为数据库连接超时时间,单位秒,QueryTimeOut为SQL语句执行超时时间...

    微信小程序支付(已调试通过).rar

    微信小程序支付JSAPI交易类型 已通过测试 返回例子如下: &lt;xml&gt;&lt;return_code&gt;&lt;![CDATA[SUCCESS]]&gt;&lt;/return_code&gt; &lt;return_msg&gt;&lt;![CDATA[OK]]&gt;&lt;/return_msg&gt; &lt;result_code&gt;&lt;![CDATA[SUCCESS]]&gt;&lt;/result_code&gt;

    xml入门教程/xml入门教程

    &lt;sex&gt;girl&lt;/sex&gt;&lt;!--这个sex和teacher根元素中的sex发生命名冲突--&gt; &lt;/student&gt; &lt;/teacher&gt; 2、名域的声明 (1)直接定义 xmlns:名域前缀="名域的URI"(唯一性) 类比:名字与身份证 名域的使用,名域...

    snoics-reptile 网页爬虫2.0

    &lt;&gt;]*\shref\s*=\s*["']?[^&lt;&gt;]*["'\s][^&lt;&gt;]*&gt;]]&gt;&lt;/value&gt; &lt;/property&gt; &lt;property name="replaceRegexUrl"&gt; &lt;!-- 替换可能包含URL的字符串 --&gt; &lt;value&gt;&lt;![CDATA[&lt;[^!&lt;&gt;]*\shref\s*=\s*["']?reptile-...

    JS动态可控制左右滚动的图片

    [CDATA[//&gt;&lt;!-- var scrollPic_02 = new ScrollPic(); scrollPic_02.scrollContId = "ISL_Cont_1"; //内容容器ID scrollPic_02.arrLeftId = "LeftArr";//左箭头ID scrollPic_02.arrRightId = "RightArr"; //...

    图书管理系radder.aspx

    &lt;%@ Page Language="C#" AutoEventWireup="true" CodeFile="主页面.aspx.cs" Inherits="主页面" %&gt; &lt;!DOCTYPE ...

    快捷输入代码段mysnippet2

    &lt;Author&gt;Microsoft Corporation&lt;/Author&gt; &lt;SnippetTypes&gt; &lt;SnippetType&gt;Expansion&lt;/SnippetType&gt; &lt;/SnippetTypes&gt; &lt;/Header&gt; &lt;Snippet&gt; &lt;Declarations&gt; &lt;Literal&gt; &lt;ID&gt;type&lt;/ID&gt; &lt;ToolTip&gt;属性类型...

    [示例][PHP]HTML5解析和序列化的PHP库.zip

    [CDATA[Because we can.]]&gt; &copy; &lt;/body&gt;&lt;/html&gt; HERE; $html5 = new HTML5(); $dom = $html5-&gt;loadHTML($html); print "Converting to HTML 5\n"; $html5-&gt;save($dom, fopen("php://stdin", 'w'));

Global site tag (gtag.js) - Google Analytics