菜单
3.2 课题的整体设计
因此将整体设计分为若干个部分。
第一部分解决网页的解析,下载到本地。如网页中有很多的图片,流媒体,将有用的下载下来并保存在数据库。如果网页中存在超链接,需要采集的数据在网页的超链接中,则需要把超链接对应的网站也下载下来进行分析。
难点在于如何从网页源代码中分析出超链接并再次下载对应网页。
第二部分解决下载到本地的网页的内容的提取及存入数据库,根据HTML源文件的解析技术,将网页源文件中,用户所需要的信息提取出来。因为网页的数据结构不一样,所以要求本地的数据库要是可以由用户自行定义的,如图书信息需要存储书名,作者,出版社等等,天气信息需要存储地点,天气,温度等等,用户可以自行的定义数据库中的各个属性和它们的缺省值。并且选择哪些数据存入数据库,可以由用户人工干预,可以通过扫描网页源代码并设置过滤器,设置某个关键词,当它出现在title或者超链接的名字中时,将所需要的内容下载下来,或着将下载下来的网页文件显示为一个界面,用户可以手工搜索并选取所需要的数据,然后根据用户选择的内容进行入库。
难点在于信息的过滤,下载下来的数据还有可能因为网页编码的区别而有不同。
第三部分是数据库操作,包括数据录入,重复判断,数据库显示,删除。
3.3 课题预计使用的语言及平台
课题预计使用delphi进行编程,配合使用正则表达式及数据库操作语句。
共3页:
上一页
1
2
3
下一页
上一篇:
汽车虚拟中控平台的仿真与软件实现
下一篇:
WSN基于网络编码的无线传感器网络Qos传输机制研究
基于MATLAB的图像增强算法设计
jsp+sqlserver高校二手商品交...
基于Kinect的手势跟踪与识别算法设计
JAVA基于安卓平台的医疗护工管理系统设计
java+mysql设备监控记录的大...
基于核独立元分析的非线...
基于Hadoop的制造过程大数据存储平台构建
河岸冲刷和泥沙淤积的监测国内外研究现状
乳业同业并购式全产业链...
java+mysql车辆管理系统的设计+源代码
酸性水汽提装置总汽提塔设计+CAD图纸
大众媒体对公共政策制定的影响
当代大学生慈善意识研究+文献综述
电站锅炉暖风器设计任务书
十二层带中心支撑钢结构...
中考体育项目与体育教学合理结合的研究
杂拟谷盗体内共生菌沃尔...
主页
计算机
机械
自动化
关闭菜单
栏目
毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
日语论文
英语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
菜单
毕业论文
刷新
分享
收藏
关于
关闭
关闭
分享本页
返回
关闭
暂无收藏
全部清除
关闭菜单
About
751论文网手机版...
主页:
http://www.751com.cn
关闭
返回