菜单
  

    3.2 课题的整体设计
    因此将整体设计分为若干个部分。
    第一部分解决网页的解析,下载到本地。如网页中有很多的图片,流媒体,将有用的下载下来并保存在数据库。如果网页中存在超链接,需要采集的数据在网页的超链接中,则需要把超链接对应的网站也下载下来进行分析。
    难点在于如何从网页源代码中分析出超链接并再次下载对应网页。
    第二部分解决下载到本地的网页的内容的提取及存入数据库,根据HTML源文件的解析技术,将网页源文件中,用户所需要的信息提取出来。因为网页的数据结构不一样,所以要求本地的数据库要是可以由用户自行定义的,如图书信息需要存储书名,作者,出版社等等,天气信息需要存储地点,天气,温度等等,用户可以自行的定义数据库中的各个属性和它们的缺省值。并且选择哪些数据存入数据库,可以由用户人工干预,可以通过扫描网页源代码并设置过滤器,设置某个关键词,当它出现在title或者超链接的名字中时,将所需要的内容下载下来,或着将下载下来的网页文件显示为一个界面,用户可以手工搜索并选取所需要的数据,然后根据用户选择的内容进行入库。
           难点在于信息的过滤,下载下来的数据还有可能因为网页编码的区别而有不同。
           第三部分是数据库操作,包括数据录入,重复判断,数据库显示,删除。
    3.3 课题预计使用的语言及平台
         课题预计使用delphi进行编程,配合使用正则表达式及数据库操作语句。
  1. 上一篇:汽车虚拟中控平台的仿真与软件实现
  2. 下一篇:WSN基于网络编码的无线传感器网络Qos传输机制研究
  1. 基于MATLAB的图像增强算法设计

  2. jsp+sqlserver高校二手商品交...

  3. 基于Kinect的手势跟踪与识别算法设计

  4. JAVA基于安卓平台的医疗护工管理系统设计

  5. java+mysql设备监控记录的大...

  6. 基于核独立元分析的非线...

  7. 基于Hadoop的制造过程大数据存储平台构建

  8. 河岸冲刷和泥沙淤积的监测国内外研究现状

  9. 乳业同业并购式全产业链...

  10. java+mysql车辆管理系统的设计+源代码

  11. 酸性水汽提装置总汽提塔设计+CAD图纸

  12. 大众媒体对公共政策制定的影响

  13. 当代大学生慈善意识研究+文献综述

  14. 电站锅炉暖风器设计任务书

  15. 十二层带中心支撑钢结构...

  16. 中考体育项目与体育教学合理结合的研究

  17. 杂拟谷盗体内共生菌沃尔...

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回