King's blog for Search Engine
Lucene DotLucene .NET C# JAVA 搜索引擎开发 NLP 自然语言理解
Index
Selected Content
Comments |
1
King
:
整理过的MI互信息量实验程序
[ 2007-04-18 09:31:50 ]
c#
smilelxm*
:
整理过的MI互信息量实验程序
[ 2007-04-08 23:03:52 ]
朋友,你这是什么语言编的呢?谢谢
King
:
BloomFilter算法的C#简化版,主要应用于URL消重
[ 2007-03-16 22:31:43 ]
谢谢指正,确实是打错
nsharp*
:
BloomFilter算法的C#简化版,主要应用于URL消重
[ 2007-03-08 09:18:07 ]
在IsUrl函数中的 if ((Result1 == false) && (Result1 == false)) 不对吧,其用一个应该是Result12
King
:
BloomFilter算法的C#简化版,主要应用于URL消重
[ 2007-01-26 20:33:32 ]
之前因为对C#类库不熟悉以为没的BIT容器,结果发现原来2.0的范性命名空间里有个BitArray 完全可以象C++ STL库里的BIT容器一样用了 直接把之前代码稍微改下 INT数组改成BitArray 就只用1M内存OK了 又免的自己写位运算 哈哈
King
:
信息论中的MI(互信息公式)
[ 2007-01-08 10:19:29 ]
这个公式主要用于对词与词间关系的考察,可以把集合C内所有文档看成C1,C2,C3......如(C1(X)!=0) && (C1(Y)!=0)成立则结果C1(X,Y)=1,如结果不成立则反之C1(X,Y)=0,就最后C1(X,Y)+C2(X,Y)+C3(X,Y)+.....=C(X,Y)
P(X)的公式至今有点疑问,没专业书籍参考,只好找简化公式了目前简化公式:
1.假设一个文章集合 {C},总文章数目为N,其中含有单词X的文章总数为Nx,含有单词Y的文章总数是Ny,含有{X+Y}的文章总数是 Nxy,那么相关性这么计算
Corr(X,Y)= Math.log10(N/Nx)*Math.log10(N/Ny)*Nxy/(Nx+Ny-Nxy)
来自大鱼的BLOG:
http://www.cnblogs.com/polugen/archive/2006/11/29/576213.html
2.MI=log(f(x,y)/N)-log((f(x)/N)*(f(y)/N))
其中:f(x,y)--在当前查找范围内共现的次数
f(x)----关键词在整个语料库中的出现次数
f(y)----上下文中的该词在整个语料库中的出现次数
N-------语料库大小
[Last Modified By King, at 2007-01-08 14:55:03]
King
:
(转贴)数学之美 系列九 -- 如何确定网页和查询的相关性
[ 2006-12-19 12:00:31 ]
没有象GOOGLE那么庞大的数据库之前,IDF的计算几乎是不可能的,不过SOGOU的搜索实验室提供了一份词库,该词库对SOGOU索引中词汇出现的词频进行了统计,我们可以以最大的词频数作为D的数值,从而任意一个词的逆词频 IDF=log(SOGOU词库中词汇中最大词频数/任意词的词频) 郁闷的是SOGOU的词库,似乎有格式问题,我导入EXECL表格都会出现问题,至今还没发现修复,只有人工谁好心修复了才好直接在程序中使用
Comments |
1
User Panel
Username:
Password:
Security Code:
Register Now
Categories
Index
杂谈
[2]
JAVA技术
[1]
人工智能及机器学习
[6]
开源项目及算法
[17]
搜索引擎杂文
[30]
.NET技术
[10]
系统架构设计
[2]
index索引
[4]
spider蜘蛛
[3]
聚类分类消重
[8]
中文分词
[7]
Calendar
«
2009
»
«
January
»
Su
Mo
Tu
We
Th
Fr
Sa
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
Recent Articles
转贴: 《雷神之锤III》里求平...
鄙视一切打着所谓开源精神的...
网页正文抽取演示(新增组件下...
网页内容抽取组件
.NET OpenFileDialog 控件 一...
jexplorer1.91 licenses文件...
LCS 最长公共子串算法实现 C#
我服了大公司的效率!
大规模网页快速消重中网页特...
Gecko(jrex)研究记录 JS AJAX...
Recent Comments
c#
朋友,你这是什么语言编...
[redface] 谢谢指正,确实...
在IsUrl函数中的 if ((Re...
[sweat] 之前因为对C#类...
这个公式主要用于对词与...
没有象GOOGLE那么庞大的...
Search
Articles
Comments
Guestbook
Trackbacks
Statistics
Articles: 90
Comments: 7
Trackbacks: 39
Registered Users: 1
Visitors: 609160
Online User: 1
Links
CSDN上的BLOG
SINA上的BLOG
我老大雨痕的BLOG
P(X)的公式至今有点疑问,没专业书籍参考,只好找简化公式了目前简化公式:
1.假设一个文章集合 {C},总文章数目为N,其中含有单词X的文章总数为Nx,含有单词Y的文章总数是Ny,含有{X+Y}的文章总数是 Nxy,那么相关性这么计算
Corr(X,Y)= Math.log10(N/Nx)*Math.log10(N/Ny)*Nxy/(Nx+Ny-Nxy)
来自大鱼的BLOG:http://www.cnblogs.com/polugen/archive/2006/11/29/576213.html
2.MI=log(f(x,y)/N)-log((f(x)/N)*(f(y)/N))
其中:f(x,y)--在当前查找范围内共现的次数
f(x)----关键词在整个语料库中的出现次数
f(y)----上下文中的该词在整个语料库中的出现次数
N-------语料库大小