菜单
  

    1.2 国内外研究现状与水平

    2 需求分析

    2.1 概述

    本系统旨在建立一个基于短时用户兴趣模型的信息搜索系统,信息来源使用网络爬虫技术从百度搜索引擎中获取。

    提取用户所输入内容的关键词,作为重要参考存储到用户兴趣网络图中,对这些关键词用一系列算法进行处理,作为用户下次搜索的参考。

    最后再把从百度搜索中获取的结果集逐一与用户输入的内容进行相似度计算,优先推送最符合用户输入的内容,并对相似的结果集进行去重。

    用户可以在搜索之前选择语义词典兴趣扩展或者多用户协同兴趣扩展,这两种不同的扩展方式都将以各自的方式扩展与用户输入内容相关的词条。

    2.2 系统功能需求

    2.2.1 构建短时兴趣网络

    功能描述:

    1) 能从用户输入的搜索内容中提取出关键信息。

    2) 将关键信息存入兴趣网络。

    3) 系统将依据这些关键信息构建出一个兴趣网络。

    4) 将形成后的网络图显示到界面中。

    2.2.2 短时兴趣网络优化

    功能描述:

    1) 在已有的用户兴趣网络中,对兴趣网络进行优化。

    2) 将优化后的网络同样显示到界面中,与未优化之前的图形成对比

    2.2.3 兴趣扩展

    功能描述:

    1) 系统可以依据用户输入的搜索内容结合兴趣网络,进行内部扩展。

    2) 用户也可自行选择从系统外部加载相关信息作为参考,进行外部兴趣扩展。

    3) 返回用户扩展的结果。

    2.2.4 短时用户兴趣查看

    功能描述:

    1) 对用户搜索过的内容进行分析,对用户兴趣进行分类归纳,获取用户的兴趣分布。

    2) 以图表的方式显示用户兴趣分布。

    2.2.5 搜索结果优化

    功能描述:

    1) 根据搜索内容,抓取百度搜索结果。

    2) 对抓取的结果进行过滤和优化。

    3) 返回用户优化后的结果。

    2.3 可行性分析

    2.3.1 技术可行性

    本课题旨在实现一个基于短时兴趣模型的信息搜索系统,是在现有的搜索引擎如百度的基础之上,对百度的搜索结果信息进行抓取,再结合用户短时兴趣模型进行分析,为用户提供最符合用户要求的搜索结果。文献综述

    伴随互联网信息采集技术的快速发展,通过网络爬虫抓取互联网相关的信息已经不再是很大技术难题。可以通过网络爬虫技术从百度搜索引擎中抓取符合用户搜索内容的相关信息作为搜索结果,然后采用文本相似度计算方法,对采集结果进行优化过滤。在数据挖掘领域中的常用的相似度计算方法有如下几种:1. 欧氏距离(Euclidean Metric);2. 曼哈顿距离(Manhattan Distance);3. 余弦相似度(Cosine Similarity) 等等。

  1. 上一篇:Android餐厅点餐系统的设计+源代码+ER图
  2. 下一篇:基于unity的城市建设发展类游戏设计
  1. 基于unity的城市建设发展类游戏设计

  2. 基于VB测量程序设计

  3. 基于安卓平台的二维码会议管理系统设计

  4. 基于安卓系统的科学计算器开发

  5. 基于html的响应式移动oa系统的开发+ER图

  6. 基于MATLAB的图像增强算法设计

  7. 基于Kinect的手势跟踪与识别算法设计

  8. 电子防盗报警系统文献综述和参考文献

  9. 起始弹道实验系统设计炮闩设计

  10. 复合型缓释肥的研制及缓释效果评价

  11. Schumpeter网络经济下市场结...

  12. 复杂级进模冲压件毛坯设...

  13. 基于光栅结构的热致变色...

  14. MQAM调制解调系统仿真及实现+程序

  15. 论英汉称谓语的差异分析

  16. ZigBee农作物生长环境监测系统的设计+源代码

  17. 徐州鹏宇服装公司供应链管理优化方案

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回