用户行为建模分析在桌面搜索系统中的应用 (Part 1)

2012/9/19   点击数:2481

[作者] 北武飘风

[单位] 北武飘风的博客

[摘要] 在搜索引擎中,如何理解用户的真实需求和目的从而提供更加相关的搜索结果一直是一个具有挑战性且亟待解决的问题。用户与系统交互过程中的行为活动(如用户访问日志和搜索日志)从某种程度上能够反映出用户的兴趣和偏好。本文试图在桌面搜索的应用场景下,介绍如何通过对用户行为进行建模和分析以理解用户的查询需求,来设计一个智能的桌面搜索引擎,提供更加个性化的搜索结果。

[关键词]  用户 桌面 文档



用户行为建模分析在桌面搜索系统中的应用 (Part 1)

标签:桌面搜索用户行为关联搜索上下文搜索大数据

EMC中国研究院大数据组研究经理 陈继东

引言

在搜索引擎中,如何理解用户的真实需求和目的从而提供更加相关的搜索结果一直是一个具有挑战性且亟待解决的问题。用户与系统交互过程中的行为活动(如用户访问日志和搜索日志)从某种程度上能够反映出用户的兴趣和偏好。本文试图在桌面搜索的应用场景下,介绍如何通过对用户行为进行建模和分析以理解用户的查询需求,来设计一个智能的桌面搜索引擎,提供更加个性化的搜索结果。

1. 桌面搜索概述

在信息搜索领域,个人桌面搜索一直是一个较少涉及的领域。随着个人信息的膨胀式增长,人们每天花费越来越多的时间在电脑或者网络硬盘上查找以前编辑的文档,看过的电子邮件,跟朋友的聊天信息,浏览过的网页,下载的音乐等资源。虽然微软,Google等搜索巨头都推出了自己的桌面搜索产品,但是这些产品仅仅使用了传统的基于内容的关键词搜索,需要对桌面的文档资源进行全文索引,通过关键词的精确匹配来找到所需的资源。大量的搜索结果仅仅通过与关键词的相关性来进行排序,人们很难从中找到真正需要的文档资源。这种基于关键词的桌面搜索远不如网页搜索比如Google搜索引擎那么有效。那么究竟是什么原因呢? 让我们先看看桌面搜索有哪些不同于网页搜索的特征。

1) 个人桌面搜索是重复查找已知项。网页搜索中,大部分时候用户并不知道具体要找的是哪个网页,而是根据关键词在大量未知的网页中查找相关的信息,即所谓的探索式的搜索。在个人电脑上的桌面搜索,用户通常查找某个特定的文档,而不是相关的信息,即已知项的重复查询(Re-finding known items),这些文档是用户过去自己创建,下载,浏览,缓存或拷贝到自己电脑上的某个目录里,由于文档过多或者时间很久忘记在哪里。

2) 桌面文档资源间自身没有结构化的链接关系。网页搜索中的高级的排序方法如PageRank算法主要基于网页的超链接关系,这是网页中固有的结构化信息,在网页的设计时已经有编辑者产生。因此搜索引擎提供的网页搜索结果排序不仅可以使用与关键词的相关性,而且引入了网页的重要性这个更有意义的标准来重排结果,重要性主要通过网页的链接关系计算得到。而在桌面文档之间并没有超链接关系这样的明显的结构化信息,这使得已有的桌面搜索引擎仅仅依赖于内容相关性的检索方法,用户很难从提供的查询结果找到想要的内容。

3) 用户的桌面行为更加丰富,由于没有隐私问题也更容易获得。网页搜索日志中主要包含搜索的关键词和对结果网页的点击流,对这些搜索日志的分析和使用一直存在着个人隐私问题。用户在个人电脑上有很多的活动行为,如对文件的打开,关闭,激活,另存为等。另外安装在用户电脑上的桌面搜索引擎记录下用户的行为活动并分析,只用于改进用户的桌面搜索体验并不会产生个人隐私问题。

根据上述对桌面搜索的特征的分析我们发现,一方面已有的桌面搜索系统仅仅通过提供基于关键词匹配的搜索技术,很难满足桌面用户的搜索需求,另一方面对用户的桌面行为进行建模来增强查询结果的相关性是一个可行的方案。针对不同的桌面搜索场景,运用不同的用户模型和分析方法,我们提出了两种新的桌面搜索技术,关联搜索(Associative Search)和上下文搜索(Context-aware Search)。关联搜索帮助用户查找过去很久前访问过的文档资源,由于忘记确切的关键词或者难以找到合适的关键词来描述,使用存在的桌面搜索系统难以找到。上下文搜索更关注用户对查询结果和当前工作的相关性的需求,能够标识出用户查询的隐含的语义以提供在当时最符合用户需求的查询结果。下面会详细介绍这两种新的搜索技术。

关联搜索和上下文搜索技术已经在我们开发的一个研究原型iMecho个人搜索系统中实现(图1为iMecho系统结构图)。iMecho研究原型系统作为EMC中国研究院的重要创新成果,已经在国际顶级的数据管理和信息检索会议ACM SIGMOD和SIGIR上做过演示并引起了广泛关注,也获得了给EMC CEO 乔图斯先生做演示的机会,并得到了他的高度认可。系统演示的视频录像已经发布在Youtube上(http://www.youtube.com/watch?v=XMh-SAvkcao),欢迎光顾。

陈继东:中国人民大学信息学院博士。现为EMC中国研究院大数据实验室研究经理,负责大规模数据管理及分析方面的研究和高级开发项目。研究兴趣包括大规模数据管理和分析,个人信息管理,信息检索和移动数据库等。

原文连接:http://blog.sina.com.cn/s/blog_67897ff801015lrw.html