4网页抓取和统计系统的实现 17
4.1 总体设计 17
4.1.1 需求分析 17
4.1.2 系统功能模块 17
4.2 网页内容抓取模块详细设计 18
4.2.1 网页内容抓取概述 18
4.2.2 网页内容分析抓取模块流程 18
4.2.3 网页内容抓取部分变量 19
4.2.4 网页内容获取核心代码 19
4.3 分词统计与分析模块详细设计 20
4.3.1 分词系统概述 20
4.3.2 分词统计与分析系统模块流程 21
4.3.3 分词统计与分析系统变量定义 21
4.3.4 分词统计与分析系统核心代码 22
4.4 保存指定日期的文本模块 23
4.4.1 概述 23
4.4.2 保存文本的核心代码 23
4.5 程序界面设计 24
4.5.1 设计原则 24
4.5.2 窗口设计 24
5系统测试 26
5.1 系统测试的目的 26
5.2 测试与分析 26
5.2.1 测试 26
5.2.3 结果情况分析 28
6总结 29
6.1 小结 29
6.2 心得体会 29
致 谢 30
参考文献 31
1绪论
1.1 课题的目的和意义
网页上信息的爆炸性增长,人们无法直接而准确地定位感兴趣的资源,越来越多地依赖搜索引擎。而搜索引擎又分为通用搜索引擎(如Goolge、百度等)和垂直搜索引擎。相比于通用搜索广泛地采集各个互联网站点资源,垂直搜索是针对于某一个行业的专业搜索,是对网页中的某类专门数据进行处理后,再对信息进行整合,返回给用户。
本课题就是基于垂直搜索引擎,将一个特定的网站(如:新浪)作为搜索主页。区别于垂直搜索引擎是利用页面上的超文本链接遍历Web,本课题无需遍历,只提取主要上用户感兴趣的话题,返回文本,并进行分析统计,将搜索的结果按照一定的规则返回给用户,并保存在本地数据库中。这样做不仅节约了网络带宽和用户的时间,更能直接了当的查看一个特定网站所感兴趣的数据。
此次课题的完成,能够方便人们搜索自己感兴趣的内容。喜欢体育的可以在新浪体育的基础上搜索篮球等等,这样可以大大减少无用信息的干扰,并且通过统计,可以更加直观的了解想要的信息。
1.3 本文的安排
第1章. 绪论
第2章. 相关技术
第3章. 网页特定文本的抓取与统计的方法研究
第4章. 网页抓取和统计系统的实现
4.1系统总体设计
4.2网页内容获取模块详细设计
4.3 抓取系统模块详细设计
4.4 分析统计模块设计
4.5 程序界面设计
第5章. 系统测试
5.1系统测试的目的及意义
5.2测试与分析
第6章. 结论
2 技术说明
2.1 网页分析
2.1.1 简述
本设计所说的网页分析是通过对某网页内容的源代码分析,通过某些编程软件实现并获取指定网页内容的设计过程。首先我们必须知道网页的基本格式,熟悉HTML。
2.2.2 超文本标记语言HTML
HTML 是用来描述网页的一种语言。
HTML 指的是超文本标记语言 (Hyper Text Markup Language)
HTML 不是一种编程语言,而是一种标记语言 (markup language)
- 上一篇:ASP.net+sqlserver旅游信息网站设计+ER图
- 下一篇:ASP.net小型网上书店的设计与实现
-
-
-
-
-
-
-
十二层带中心支撑钢结构...
当代大学生慈善意识研究+文献综述
乳业同业并购式全产业链...
电站锅炉暖风器设计任务书
杂拟谷盗体内共生菌沃尔...
河岸冲刷和泥沙淤积的监测国内外研究现状
中考体育项目与体育教学合理结合的研究
酸性水汽提装置总汽提塔设计+CAD图纸
java+mysql车辆管理系统的设计+源代码
大众媒体对公共政策制定的影响