115_基于C#搜索引擎（Ajax+Lucene）

来源：Think58.com 资料编号：TH13856 文件类型：资料等级： %E8%B5%84%E6%96%99%E7%BC%96%E5%8F%B7%EF%BC%9ATH13856

以下是资料介绍,如需要完整的请充值下载.
1.无需注册登录,支付后按照提示操作即可获取该资料.
2.资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用.
密惠保

资料介绍：

系统实现
5.1 开发环境
开发平台的选择：本系统的开发平台选择微软公司的.NET，开发工具采用ASP.NET。.NET是Microsoft面向Web服务的平台，由框架、Web服务、.NET企业服务器等几部分组成，提供涉及面较广、功能较全面的解决方案。数据库选择：根据需求分析选择了MSSQL Server 2000。
5.2 关键代码详解
5.2.1 代码结构
如图6：

写入读取 think58

生成 think58

[来源：http://www.think58.com]

引用
检索内容来自think58 [资料来源：http://THINK58.com]

copyright think58 [资料来源：THINK58.com]

图6 代码结构
在网页爬虫Console端应用程序里输入一个有效的URL后这部份就开始从第一个URL开始遍历相关的链接并把相关的信息写入到网页数据存储数据库里，然后就由索引生成程序读取网页数据存储数据库，对每条记录生成索引记录，存放于生成的索引库文件里。生成索引需要调用Lucene.Net类。索引生成后在查询部分就能够在网页上输入关键字，对刚才抓取的信息的查询。并可以定位到信息的出处。下面对各部分关键代码进行详解。
5.2.2 爬虫部分
这部份的功能就是从输入的URL开始遍历各个相关的网页，它包括三个功能模块：网页抓取模块、网页减肥模块、爬虫维持模块。
首先定义一些变量用于保存抓取到的网页信息，urlList用于保存当前页面上的URL集合。然后根据全局变量url抓取此URL的网页信息到字节流变量里，经过转码后读取到变量PageString里，下步通过函数GetHttpUrl(PageString)对PageString中的URL标记进行提取并返回到urlList变量里，函数GetTitle(PageString)、parseScript(PageString)、parseHtml(PageString)、parseChar(Content)分别对网页信息变量获取标题、去除脚本块、去除HTML标记、去除特殊字符操作。再下步就是对获取到的标题、网页内容、链接等信息调用数据库操作通用类DAI保存到数据库里，这就实现了一个网页的抓取。再下步就是循环的对获取到的URL列表创建线程，针对每个URL来循环的执行上面的网页信息的抓取操作。具体代码如下：

think58.com [资料来源：http://THINK58.com]

private static void UrlThread()
{
String title="";
String Content="";
String mata="";
string URL="";
string[] urlArr = null;
StringBuilder urlList = new StringBuilder();
System.Net.WebClient Client=new System.Net.WebClient();
try
{
Stream strm=null;
try
{//读取一个URL的信息到流变量里
Stream strm=Client.OpenRead(url);
}
catch
{
console.WriteLine("url无法找到！");
return;
}
StreamReader sr=new StreamReader(strm,Encoding.GetEncoding("gb2312"));
String PageString=sr.ReadToEnd();//从流中读取网页信息到字符串变量中
strm.Close();
urlList = GetHttpUrl(PageString);
title=GetTitle(PageString);
Content = parseScript(PageString); //去掉脚本的网页文本
Content=parseHtml(PageString); //得到去了HTML标签的网页文本
URL=url;
mata="";
Content = parseChar(Content);
if((title != "" || title != string.Empty) && URL != "") copyright think58

{
DAI.RunSqlNonQuery("insert into WebContent(url,content,title,mata) values('"+URL+"','"+Content+"','"+title+"','"+mata+"')");
Console.WriteLine("对url:"+URL+"相关信息写入数据库成功!");
}
else
{
Console.WriteLine("对url:"+URL+"相关信息写入数据库失败!");
}
urlArr=urlList.ToString().Split('|');
//对前面获取的URL列表循环的创建线程再执行本方法实现爬虫的维持
for(int i=0;i<urlArr.Length;i++)
{
url=urlArr[i];
if(url == "" || url == null || url == string.Empty)
continue;
Thread th = new Thread(new ThreadStart(UrlThread));
th.Start();
}
}
catch{}
}
5.2.3索引生成
这部分包含对文本的索引生成以及对数据库数据的索引生成，下面只对数据库索引生成的关键代码进行介绍：
下面这段代码实现对数据库里存储的记录创建索引。主要通过Lucene提供的方法来协助实现。
public Indexer(string indexDir) think58好，好think58 [版权所有：http://think58.com]
{
#region Lucene Code
首先通过标准分词定义了一个索引写入器
IndexWriter writer = new IndexWriter(indexDir, new StandardAnalyzer(), true);
在创建索引库时，会合并多个Segments文件。此方式有助于减少索引文件数量，减少同时打开的文件数量。
writer.SetUseCompoundFile(false);
//删除以前生成的索引文件。
System.IO.Directory.Delete(iDexDir,true);
#endregion
DateTime start = DateTime.Now;
DoIndexByDB(writer);//
DateTime end = DateTime.Now;
int docNum = writer.DocCount();
Console.WriteLine("Index Finished. {0} Documents takes {1} second.",
docNum, ((TimeSpan)(end - start)).TotalSeconds);
writer.Optimize();
writer.Close();
}
使用Lucene提供的方法对数据库中的每条记录建立索引实现如下：
Document doc = new Document();
Console.WriteLine("Indexing {0} ", row["title"].ToString());
doc.Add(Field.Text("contents", row["content"].ToString()));
doc.Add(Field.Keyword("title", row["title"].ToString()));

think58

doc.Add(Field.Keyword("mata",row["mata"].ToString()));
doc.Add(Field.Keyword("CreateDate",row["CreateDate"].ToString()));
doc.Add(Field.Keyword("Url",row["Url"].ToString()));
doc.Add(Field.Keyword("ID",row["ID"].ToString()));
writer.AddDocument(doc);
[来源：http://www.think58.com]

以上是资料介绍,如需要完整的请充值下载

上一篇：购物中心物流管理系统

下一篇：298_信息安全研究所设备管理系统（C#）

基于web的声音数据管理系统的设计(ASP.NET,SQLserver)	基于ASP.NET的线上在线考试系统的设计与开发(SQLserver)
基于Winform药品零售管理系统设计与实现(C#,C/S架构,SQLServer)(	基于Winform(C#)药品零售管理系统设计与实现(C/S架构,SQLServer)
基于激励机制的人力资源评价系统的设计(VisualStudio,SQLserver)	基于超高频RFID智能门禁系统设计(C#,CS,MySQL)
基于.NET的网上购物系统设计与实现(SQLServer)	基于web的电子邮件系统设计与实现(ASP.NET,SQL)
基于ASP.NET时装服装网站设计与实现(ACCESS,DTcms)	基于ERP的生产管理系统的设计(C#,C/S架构,SQL)

115_基于C#搜索引擎（Ajax+Lucene）

相关内容：