<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0" xmlns:wfw="http://wellformedweb.org/CommentAPI/">
  <channel>
    <title><![CDATA[King's blog for Search Engine]]></title> 
    <link>http://blog.likeshow.net/</link> 
    <description><![CDATA[Lucene DotLucene .NET C#  JAVA 搜索引擎开发 NLP 自然语言理解]]></description> 
    <language>zh-cn</language> 
    <copyright><![CDATA[Copyright 2008, King's blog for Search Engine]]></copyright> 
    <webMaster><![CDATA[yy8354@tom.com (King)]]></webMaster> 
    <generator>LBS v2.0.313</generator> 
    <pubDate>Thu, 20 Nov 2008 15:49:12 +0800</pubDate> 
    <ttl>60</ttl>
  
    <item>
      <title><![CDATA[转贴: 《雷神之锤III》里求平方根倒数的函数]]></title> 
      <link><![CDATA[http://blog.likeshow.net/article.asp?id=94]]></link> 
      <category><![CDATA[开源项目及算法]]></category> 
      <author><![CDATA[King <null@null.com>]]></author> 
      <pubDate>Wed, 09 Jul 2008 14:40:17 +0800</pubDate> 
      <description><![CDATA[更新：有人问这个算法的原理。其实原理很简单。就是牛顿迭代求根。卡马克算法牛X的地方就是他选了一个常数作为起始值。而这个起始值让他只用一次迭代就够了。<br /><br />从这里看来的。QuakeIII自然就是传奇高手卡马克的杰作之一了。在有的CPU上，这个函数比普通的(float)(1.0/sqrt(x)快4倍！快的原因之一是用了一个神秘常数，0x5f3759df。普渡大学的Chris Lomont在这篇论文里讨论了这个常数的意义，尝试用严格的方法推导出这个常数（他还提到有人认为这个函数是在NVidia工作过的Gary Tarolli写的）。Chris推出的常数是0x5f37642f)，和Q_rsqrt里的稍有不同，而且实际表现也稍有不如。卡马克到底怎么推出这个常数的就是谜了。这种高手不写书，实在可惜。<br />float Q_rsqrt( float number )<br />{<br />  long i;<br />]]></description>
      <wfw:commentRss><![CDATA[http://blog.likeshow.net/feed.asp?q=comment&id=94]]></wfw:commentRss>
    </item>
      
    <item>
      <title><![CDATA[鄙视一切打着所谓开源精神的勒索者]]></title> 
      <link><![CDATA[http://blog.likeshow.net/article.asp?id=93]]></link> 
      <category><![CDATA[杂谈]]></category> 
      <author><![CDATA[King <null@null.com>]]></author> 
      <pubDate>Sat, 24 May 2008 19:02:47 +0800</pubDate> 
      <description><![CDATA[今天把1年前做的东西整理之后拿了出来,一是考虑可以提供大家收集语料方便,二是看看这方面商业价值大不大,值得不值得我个人进行商业开发.没想到索要代码的人马上上门,还一大通所谓开源精神的借口.<br />      第一我写的玩意BLOG上已经对其原理 和主要使用的正则已经写出来了,剩下工作就是简单的IF 调用对应的正则进行组合判断 我不明白这样就不算开源了?难道非要把给大家一个项目工程能编译能去掉我的版权,能直接欠入自己的系统里使用我的代码,就是你们的开源精神?看看开源协议吧 国内有多少公司和个人不是违反了开源协议 只开别人不开自己 甚至连个版权信息都给人改了拿来卖钱?<br />     第二当我努力研究这些,并编写代码的时候我花费的时间和精力,你们很可能正在打游戏和泡妞,当你们回头来项目需要这些东西的时候,你们就想拿起开源来应付事情了,那凭什么要我付出你收获呢?谁又欠了谁的?<br />     剩下的我都不想多说了]]></description>
      <wfw:commentRss><![CDATA[http://blog.likeshow.net/feed.asp?q=comment&id=93]]></wfw:commentRss>
    </item>
      
    <item>
      <title><![CDATA[网页正文抽取演示(新增组件下载地址)]]></title> 
      <link><![CDATA[http://blog.likeshow.net/article.asp?id=92]]></link> 
      <category><![CDATA[.NET技术]]></category> 
      <author><![CDATA[King <null@null.com>]]></author> 
      <pubDate>Sat, 24 May 2008 11:37:41 +0800</pubDate> 
      <description><![CDATA[演示地址如下：<a href="http://202.110.133.114/tsegment/webanalyer.aspx" title="http://202.110.133.114/tsegment/webanalyer.aspx" target="_blank">http://202.110.133.114/tsegment/webanalyer.aspx</a><br /><br />属于早期作品，采用规则方法提出非正文内容，则认为留下的内容为正文。仅作简单技术演示之用，感谢TT同学提供的空间并帮我写的演示程序。<br /><br />该功能已封装成.NET组件，可提供程序直接调用，近期提供下载。<br /><br />可用于大家收集语料时候网页内容提取之用。<br /><br />如对此组件有兴趣，请直接邮件至我MSN信箱，我正考虑采用新算法完善并编写多个语言版本，在这里先统计下人数<br />看看有没开发商业版本的必要,对于商业版本将采用块识别标记的方式只对一段标签或一个DOM节点进行标识,而不负责提取正文,由用户自行控制过滤或提取哪些类型数据.<br />目前能想到可能会用到的标识类型:导航条 广告 正文 正文标题 相关文章 版权信息 评论 如大家还有其他想到的类型,请告之<br /><br />无法处理导航页，提取正文时也不考虑图片类文章及文章中的配图。<br />]]></description>
      <wfw:commentRss><![CDATA[http://blog.likeshow.net/feed.asp?q=comment&id=92]]></wfw:commentRss>
    </item>
      
    <item>
      <title><![CDATA[网页内容抽取组件]]></title> 
      <link><![CDATA[http://blog.likeshow.net/article.asp?id=91]]></link> 
      <category><![CDATA[.NET技术]]></category> 
      <author><![CDATA[King <null@null.com>]]></author> 
      <pubDate>Sat, 24 May 2008 10:49:05 +0800</pubDate> 
      <description><![CDATA[<span style="font-size:12pt"><br />      该组件主要基于规则的方式来处理网页正文的抽取，采用过滤的方式，一步步剔除不可能为正文的内容，则剩下的就成为了正文，标题提取较为简单，采用提取&lt;title&gt;标签内内容，与正文比对方是确认标题。<br />    目前此组件为仅提供个人用于自然语言理解相关的语料收集中的网页内容提取和个人测试之用，版本也属于简陋的技术演示版本，不能处理表格和并删除了网页正文的配图，只保留文字部分。<br /></span><br /><a href="http://blog.likeshow.net/uploads/200805/24_105924_contentanalyzer.rar" title="http://blog.likeshow.net/uploads/200805/24_105924_contentanalyzer.rar" target="_blank"><img src="http://blog.likeshow.net/styles/default/images/icon_file.gif" border="0" /> Click Here To Download</a>]]></description>
      <wfw:commentRss><![CDATA[http://blog.likeshow.net/feed.asp?q=comment&id=91]]></wfw:commentRss>
    </item>
      
    <item>
      <title><![CDATA[.NET OpenFileDialog 控件 一个莫名其妙的BUG]]></title> 
      <link><![CDATA[http://blog.likeshow.net/article.asp?id=90]]></link> 
      <category><![CDATA[.NET技术]]></category> 
      <author><![CDATA[King <null@null.com>]]></author> 
      <pubDate>Wed, 21 May 2008 18:17:45 +0800</pubDate> 
      <description><![CDATA[凡是使用了该控件，openFileDialog.ShowDialog();之后使用StreamWrite创建文件时 如不使用绝对路径 则默认当前路径为openFileDialog.FileName同一路径 在使用StreamWrite类的函数运行中测试AppDomain.CurrentDomain.BaseDirectory.ToString();为正确的运行路径 不知道这是为什么 反正大家如果遇到莫名其妙的这个问题后 在StreamWrite时候记得使用绝对路径就OK<br />VS2005 .NET 3.0 FRAMEWORK]]></description>
      <wfw:commentRss><![CDATA[http://blog.likeshow.net/feed.asp?q=comment&id=90]]></wfw:commentRss>
    </item>
      
    <item>
      <title><![CDATA[jexplorer1.91 licenses文件下载]]></title> 
      <link><![CDATA[http://blog.likeshow.net/article.asp?id=89]]></link> 
      <category><![CDATA[JAVA技术]]></category> 
      <author><![CDATA[King <null@null.com>]]></author> 
      <pubDate>Thu, 08 May 2008 18:26:29 +0800</pubDate> 
      <description><![CDATA[jexplorer1.91是一个JAVA下调用IE控件的包，提供了所有跟webbrowser完全一样的类 方法 属性，让我们可以在JAVA中使用IE的所有功能。由于是商业软件包，这里提供的licenses仅为测试所用，如商业使用还请到官方网站购买正版。<br /><a href="http://www.jniwrapper.com/jniwrapper_downloads/jexplorer-1.9.zip " title="http://www.jniwrapper.com/jniwrapper_downloads/jexplorer-1.9.zip " target="_blank">http://www.jniwrapper.com/jniwrapper_downloads/jexplorer-1.9.zip </a>是该包的官方下载地址<br /><br /><a href="http://blog.likeshow.net/uploads/200805/08_183237_licenses.rar" title="http://blog.likeshow.net/uploads/200805/08_183237_licenses.rar" target="_blank"><img src="http://blog.likeshow.net/styles/default/images/icon_file.gif" border="0" /> licenses文件</a>]]></description>
      <wfw:commentRss><![CDATA[http://blog.likeshow.net/feed.asp?q=comment&id=89]]></wfw:commentRss>
    </item>
      
    <item>
      <title><![CDATA[LCS 最长公共子串算法实现 C#]]></title> 
      <link><![CDATA[http://blog.likeshow.net/article.asp?id=88]]></link> 
      <category><![CDATA[开源项目及算法]]></category> 
      <author><![CDATA[King <null@null.com>]]></author> 
      <pubDate>Thu, 08 May 2008 14:12:46 +0800</pubDate> 
      <description><![CDATA[<div class="code">&nbsp;private string LCS(string str1, string str2)<br />&nbsp;{<br />&nbsp;int[] maxtix = new int[str1.Length];<br />&nbsp;int maxLength=0;<br />&nbsp;int startNum=0;<br />&nbsp;int str1Num=str1.Length;<br />&nbsp;int str2Num=str2.Length;<br />&nbsp;if((String.IsNullOrEmpty(str1))||(String.IsNullOrEmpty(str2)))<br />&nbsp;{<br />&nbsp;return String.Empty;<br />&nbsp;}</div>]]></description>
      <wfw:commentRss><![CDATA[http://blog.likeshow.net/feed.asp?q=comment&id=88]]></wfw:commentRss>
    </item>
      
    <item>
      <title><![CDATA[我服了大公司的效率！]]></title> 
      <link><![CDATA[http://blog.likeshow.net/article.asp?id=87]]></link> 
      <category><![CDATA[杂谈]]></category> 
      <author><![CDATA[King <null@null.com>]]></author> 
      <pubDate>Fri, 11 Apr 2008 19:10:33 +0800</pubDate> 
      <description><![CDATA[<span style="font-size:12pt">今天收到YAHOO电话 问我是否有兴趣换工作 SHIT我2个月前投的他们简历 服了才换工作2周，之前工作也只干了3月不到 再换以后简历可就不好看了 再说目前公司环境还不错 虽然很小 有好几个博士 硕士的 ：）<br />唉 弄得我简直郁闷 只好直接拒绝了 开始我还以为YAHOO这种公司会自动过滤非计算机专业的简历。。。。。。。。。。。。。。。。。。 真伤心啊 不管能不能进 最少也能去面试的时候见识见识<br />大家得注意 投大公司以后记得多等几月吧<br />特别在此伤感一下 又一次错过了去大公司镀金的机会<br /></span>]]></description>
      <wfw:commentRss><![CDATA[http://blog.likeshow.net/feed.asp?q=comment&id=87]]></wfw:commentRss>
    </item>
      
    <item>
      <title><![CDATA[大规模网页快速消重中网页特征的提取]]></title> 
      <link><![CDATA[http://blog.likeshow.net/article.asp?id=86]]></link> 
      <category><![CDATA[聚类分类消重]]></category> 
      <author><![CDATA[King <null@null.com>]]></author> 
      <pubDate>Wed, 02 Apr 2008 16:53:18 +0800</pubDate> 
      <description><![CDATA[<span style="font-size:12pt">刚在群里有人突然提起这个，也就顺便写写大家暂且看之，所以算法都需要考虑应用场景，而我自己设计的算法也仅满足我当时的业务应用而已，不可直接照抄，否则后果自负。<br />1、一般处理的方法<br />（1）最原始的使用文本相似度判别，相当准确，但是计算速度慢，提高的方法无非是先索引进行预处理，或者用SVD来降维减少矩阵运算时间<br />（2）文本摘要为文本特征，进行特征重复判别<br />（3）抽取文本关键词，构成比较小的文本向量做为特征进行判别<br />大家考虑过以上3中算法的共性没？那就是要分词，中文分词博大精深，效果越好速度越慢这是铁律，但具体还要看分词算法的设计。所以这部分时间的消耗以上3中方法是无可避免的必须进行的步骤。<br />而我所考虑的是从句子的角度，但如果单个句子的特征，特征未免单一，而不具有代表性，句子多了又可能，造成特征过于复杂和容错性能的下降，毕竟我们通过自动抽取的网页正文不能保证100%无任何噪音和抽</span>]]></description>
      <wfw:commentRss><![CDATA[http://blog.likeshow.net/feed.asp?q=comment&id=86]]></wfw:commentRss>
    </item>
      
    <item>
      <title><![CDATA[Gecko(jrex)研究记录 JS AJAX页面内容抓取处理（2）]]></title> 
      <link><![CDATA[http://blog.likeshow.net/article.asp?id=85]]></link> 
      <category><![CDATA[spider蜘蛛]]></category> 
      <author><![CDATA[King <null@null.com>]]></author> 
      <pubDate>Wed, 02 Apr 2008 09:09:29 +0800</pubDate> 
      <description><![CDATA[HTMLDocument doc=(HTMLDocument)navigation.getDocument();<br />          HTMLFormElement form=(HTMLFormElement)doc.getForms().item(0);<br />          form.submit();<br /><br />接上回的问题 关于元素事件的调用 以上为主要代码 与IE的webbrowser不同，它必须强转成对应的HTMLFormElement  HTMLInputElement HTMLLinkElement……的类型才能调用相对应的事件，至于JS函数的直接调用期待下回分解吧]]></description>
      <wfw:commentRss><![CDATA[http://blog.likeshow.net/feed.asp?q=comment&id=85]]></wfw:commentRss>
    </item>
      
  </channel>
</rss>
