导读: 本文首先从移动搜索的应用需求及技术特点出发,说明了垂直搜索的技术最适合移动搜索引擎的发展。并对水平搜索引擎和垂直搜索引擎的几项技术要点进行了比较。最后重点介绍了在移动平台中指点通公司的垂直搜索引擎技术解决方案。
一、移动搜索领域的技术需求特点
1、移动搜索概念的兴起
当您坐在电脑前,想今晚在国贸附近请朋友吃火锅的时候,您会毫不犹豫的打开谷歌或百度,输入“北京国贸附近哪里有火锅店”,之后您在成千上万的搜索结果中,找到心怡的一家。但当您乘坐出租车,面对同一个问题时,您只能拿起手机,拨通朋友的电话,或者直接拨通114进行询问。同样一个简单的问题,却浪费了您几毛钱的电话费,而且要强迫自己在很短的时间记住地址和电话。在日常生活中,类似的问题还很多。于是,您或许开始思考,有没有这样一个平台,可以通过手机随时随地免费享用互联网同样功能的搜索,并自动把相关信息存储到手机里面。一个原始需求的萌芽,注定了基于移动搜索概念的产生和兴起,当前越来越多的公司开始关注和参与到这个领域,纷纷开始了基于SMS、MMS、WAP的移动系统开发和应用,甚至让很多SP开始思考,移动搜索是不是搜索行业的下一个淘金时代。
2、移动搜索需要解决的问题
移动搜索决不是把搜索服务简单的从互联网平台移植到移动平台上那么简单,移动终端在网络速度、操作难易程度、流量、屏幕大小、资费、带电时间等诸多方面所存在的瓶颈,严重限制了基于互联网平台的搜索引擎技术在移动平台上的推广和使用。同样是上面的例子,在互联网上返回的结果里,不乏类似这样的信息:“。。。昨日,北京国贸附近一火锅店因故拆迁。。。”,或者是:“。。。昨日,上海世贸大厦附近一火锅店近期有优惠活动。。。”。庆幸的是,当前互联网的网络下载速度、电脑的高效便捷使用,似乎让人们忽略了这些结果所带来的不便,但同样的结果,如果应用在诸多方面受限的移动终端,势必无法接受。通常来讲,用户最希望看到的就是第一条答案就是自己最想要的回复。
在传统的互联网搜索服务中,虽然用户如上一次有针对性搜索,但得到多种答案是必然的。其主要原因是,当前互联网搜索引擎的信息收采集范围只占到实际存在信息量的1%-2%,而98%以上的信息是存储在企业或行业内部的,因为网络安全设置等原因,这些信息是无法被搜索引擎的自动信息收集技术轻易获取。
通过如今成功的几家搜索引擎服务供应商的成长经历可以得出,用户的体验才是决定搜索引擎生存和发展的唯一标准。面对移动终端诸多的局限性,需要移动搜索引擎具备搜索结果的准确性、实时性、专业性、搜索结果的多样性等特点,只有这样,才能较好的弥补移动终端的缺陷,带来更好地用户体验。
3、垂直搜索引擎的移动解决方案
庆幸的是,垂直搜索引擎技术概念的出现,以及在国内外各行业的兴起,使之逐渐成为开启解决移动搜索难题的敲门砖。甚至在业界,很多已经把“移动搜索技术”和“垂直搜索技术”相提并论,在一年一度的中国搜索年会上,已经把移动垂直搜索技术列为年会上重要的议题和内容。
垂直搜索的概念最早出现在美国的“购物比价”业务,用户通过输入商品名称,之后返回几个商场的价格对比信息以及相应的促销活动等。在国内,最早出现的垂直搜索概念是应用在互联网上的“车票搜索”业务,用户通过输入起点终点至城市信息,返回结果为车次信息以及车票转让信息。随着垂直搜索这个新生概念的出现,越来越多的技术和应用开始涉足面向行业的垂直搜索领域服务。
垂直搜索引擎之所以能够很好的解决移动搜索技术障碍,其最大的特点就是信息的采集来源和返回结果的“专、精、深”,而传统的搜索引擎面向移动搜索领域,其最大的劣势就是其信息的采集来源和返回结果的“宽、乱、浅”。
所谓“专”,是指信息是面向行业的专业性,与其相反的就是“宽”,面向的是所有行业,其结果就是不分行业。所谓“精”,是指搜索的结果,是站在用户体验的角度进行特定的排序来逐一返回,与其相反的就是“乱”,用户经常要在返回的几十个页面里面继续搜寻答案。所谓“深”,是指无论在信息采集还是返回结果方面,都是面向行业的深度采集和加工,其结果具有很高的行业相关度和准确性,与其相反的就是“浅”,信息采集只是无序的简单通过字面匹配方式去采集和返回结果。正如有人形象的把人类的信息比作海洋,传统的搜索引擎只关注海面的面积,而垂直搜索则是关注海洋的深度,针对某一特定海洋资源的深度挖掘和采集。
二、水平搜索和垂直搜索的技术对比
在本节将通过两种搜索引擎的关键技术对比,来进一步说明基于垂直搜索引擎技术的移动搜索,将具有更广阔的生存和发展空间。
1、垂直搜索引擎的定义
近些年来,随着垂直搜索引擎概念的诞生,不同领域对其定义各不相同。其实,垂直搜索引擎是一套综合系统的技术实现方式和特征表现,包括数据采集、数据加工和信息检索等各方面的技术实现特征。
垂直搜索引擎是相对传统搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求,提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,而与它相比的通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。我们由此把传统的互联网搜索引擎,诸如百度和谷歌等定义为水平搜索引擎。
2、两种搜索引擎关键技术的对比
表1是水平搜索引擎和垂直搜索引擎几项主要核心技术的对比:
表1
|
水平搜索引擎 |
垂直搜索引擎 |
信息采集 |
采集方式:被动方式为主
采集深度:要求不高
动态网页采集的优先级:低
结构化数据库信息采集:要求不高 |
采集方式:被动方式和主动方式相结合
采集深度:要求高
动态网页采集的优先级别:高
结构化数据库信息采集:要求高 |
信息加工 |
网页元数据提取:要求不高
结构化信息提取:要求不高
排重、分类:要求不高 |
网页元数据提取:要求高
结构化信息提取:要求高
排重、分类:要求高 |
信息检索 |
检索方式:非结构化信息为主
结果排序:PageRank算法 |
检索方式:结构化信息为主,同时结合非结构化信息相结合
结果排序:需求多样化 |
需要说明的是,虽然表1是针对网页的技术对比,但其实二者针对不同的信息源的技术处理都具有相同的共性,因此接下来将结合网页数据源,逐一介绍二者在几项关键技术的本质区别,由此判定两项搜索技术的返回结果不同是必然的。
1)信息采集技术的区别
从采集方式看,互联网的水平搜索以被动方式为主,搜索引擎和被采集的网页没有约定的、标准的格式。垂直搜索则采用被动和主动相结合的方式,通过主动方式,有效采集网页中标引的元数据,整合上下游网页资源或者商业数据库,提供更加准确的搜索服务。
从采集深度、动态网页采集的优先级、结构化数据库信息采集来看,水平搜索采用广度为先的策略,所以对采集深度要求不高,而垂直搜索引需要挖掘出行业内所有相关的网页信息,所以往往采用深度为先的策略,同时由于行业内的一些有商业价值的信息采用动态发布的方式,如:企业数据库、供求信息等,所以垂直搜索对动态网页的采集优先级别较高。在实际应用中,垂直搜索需要集成和采集关系数据库中的结构化信息,如结构化的房源信息、票务信息等。
2)信息加工技术的区别
垂直搜索引擎和水平搜索引擎的最大区别是对网页信息进行了结构化信息抽取加工,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,而垂直搜索是以结构化数据为最小单位。
垂直搜索的结构化信息提取和加工主要包括两种:网页元数据的提取,包括标题、作者、发表时间、版权所有等等;内容中结构化实体信息的提取,包括人名、地名、组织机构名、电话号码等等。这些数据存储到数据库中,进行进一步的加工处理,如:去重(unify)、分类(classify)等,最后分词、索引再以搜索的方式满足用户的需求。
目前,从垂直搜索的应用情况看,大部分垂直搜索的结构化信息提取都是依靠手工、半手工的方式来完成的,面对互联网的海量信息,很难保证信息的实时性和有效性,对智能化的结构化信息提取技术的需求非常迫切。但因目前国内非结构化信息的智能提取技术取得了重大进展,在一些领域得到了有效应用,因此智能化的信息采集和加工技术成为了垂直搜索引擎的发展趋势。当然,行业信息数据获取渠道往往不是通过网页来采集和加工,更多的是通过行业信息资源整合,直接使用,其准确度更高,针对性更强,这些都是水平搜索引擎无法效仿的。
3)信息检索技术的差别
从信息检索看, 垂直搜索不但能够对网页信息中的结构化信息进行检索,而且能够提供结构化和非结构化信息相结合的检索方式。比如我们找工作关注的职位信息: 软件工程师;公司名称:软件公司;地点:北京海淀。
从检索结果的排序方式看,互联网搜索主要通过PageRank算法来实现。而垂直搜索的排序需求更加多样化,如:按时间排序、按相关度排序、按某个结构化字段排序(如:购物搜索中的按价格排序等等)。
3、两种搜索引擎技术的前景
如下两张图片分别例举了当前典型的水平搜索和垂直搜索应用,可以看出,后者明确界定了搜索行业范围为招聘、住房、火车票等,而其精准度是前者所不能比及的。

正如在2006年年度搜索引擎大赛中,曾有记者采访指点通高级工程师郭先生时的疑惑一样:“象谷歌、百度会不会通过补课的方式挤掉这部分新生的垂直搜索市场呢?”郭先生的回答是:“谷歌、百度的多年技术注定了走的是大而全的粗犷路线,而专用的垂直搜索引擎则不同,需要做内容的深度挖掘,做精细的分类,构建专业领域的知识库体系等等,而这些都是谷歌、百度等无法做到的,他们目前手中的庞大信息库,要过渡到垂直搜索领域,是一种愚公移山的举措,他们根本就没有精力或兴趣做这些,也不可能针对每个行业领域都能做透,正所谓术业有专攻,就是这个道理。”
然而,拥有了成熟的水平搜索技术之后,作为应用拓宽,如何通过技术创新来逐步提供垂直搜索业务,正成为诸多传统的搜索引擎服务商新的目标之一。而如今国内新型的几家垂直搜索引擎供应商,也正在梦想自己成为垂直搜索引擎门户。虽然二者在最低层的核心技术理念基本相同,尤其是对异构的非结构化内容在基于人工智能技术作自动地采集和加工方面,二者几乎处于同一起跑线,但要达到各自的目标还需要漫长的过程,而且,把全世界数以万亿计行业的信息都能够实时准确的采集、加工,最后成为真正的垂直搜索引擎门户,的确是不现实的。更明智的选择是二者相互整合过去的技术经验,齐头并进,尽快地在细分的垂直搜索领域实施圈地运动。
三、指点通移动垂直搜索引擎技术解决方案
通过垂直搜索引擎技术解决了搜索结果的精准之后,要想把该技术成功的运用到移动搜索,还要在基于互联网的垂直搜索技术之上,在如下几个方面突破和创新:平台接入、智能解析、智能调度、个性化业务处理。指点通公司在这些方面进行了大量工作并提出了相关技术解决方案,现介绍如下。
1、移动垂直搜索引擎整体解决方案
本着平台接入、业务集中调度、业务分散处理的设计思想,移动垂直搜索引擎构架如图2所示:
图2 移动垂直搜索引擎系统构架
2、移动平台接入
平台接入层主要面向各种移动增值业务网关,如短信网关、彩信网关等。为了进行协议处理,对于不同的信息承载方式,最终把用户的上行搜索条件解包后,送到智能解析层,并对最终搜索结果和表示形式,通过相应的通信协议下行到用户。如果在运营商政策允许的情况下,我们可以实现跨平台的交互,例如:用户通过短信上行发起搜索,生成搜索结果后,可以通过彩信PUSH回到移动终端,确保了移动垂直搜索的平台的无关性和灵活性。
从图2中可以看出,移动垂直搜索引擎不仅仅可以面向移动数据业务,还同样适合基于互联网的垂直搜索技术应用。随着3G的到来,将会有更优质的承载方式和很多新的业务功能,这也将进一步丰富移动垂直搜索引擎的功能。例如:我们完全可以利用该平台以及3G的LCS功能,来提供基于用户当前位置的搜索业务。
3、上行智能拆词解析
水平搜索引擎拆词技术通常主要依赖于词频,智能化则主要依靠利用数据的采集和检索统计生成庞大的关联库,其准确性、实时性以及行业内相关性还有相当长的路去完善。
水平搜索技术的最大特点就是不区分行业,因此对于行业相关的搜索,例如:“大中国美哪个液晶电视更便宜”,水平搜索引擎通常会有更多的拆词结果,即所谓的二意性,这样将直接导致搜索的不准确性。
在指点通的移动垂直搜索引擎构架中,智能解析层采用的是基于行业关键词库的拆词技术,因为行业关键词的有限性和准确性,完全可以不考虑词频问题,通过行业专家的筛选,可以定义一个较为完整的行业关键词库和关联库,这样针对如上的用户搜索,对于一个专门提供电器比价行业的垂直搜索引擎,利用“液晶电视”、“便宜”等关键词的关联关系,很容易拆词得到“大中”、“国美”两个关键词,极大的减少了二意性的可能性,提高了信息的准度和精度,从而迎合了移动终端的局限性。通过后台的运营支撑系统,我们可以通过自动和人工方式,不断地面向行业去完善关键词库和关联词库。
通过如上面向行业的智能拆词,我们获取了一组行业调度关键词和行业相关关键词,之后进入智能业务调度层,届时行业调度关键词将作为主要的业务模块选择标准,而行业相关关键词,通常都是以类似参数的形式,由业务层访问和处理。例如上面的“液晶电视”和“便宜”将作为业务调度的主要依据,而“大中”和“国美”则作为业务层处理中比价的对象。
4、业务智能调度
在当前基于互联网的垂直搜索应用中,很少有类似百度和谷歌的通过一个文本框输入搜索条件,基本都是直接通过点击链接,进入相应的垂直业务页面,接下来就是专注于垂直业务的处理。
然而,针对移动垂直搜索引擎,尤其是基于短信的搜索应用,因为其终端界面是一维文本的,更没有办法去点击直接进入想要的垂直业务,为了避免让用户通过回复菜单序号方式来选择行业所带来的烦琐,进一步提高用户体验,就需要一个业务调度层,通过业务调度处理,进入相应的垂直业务处理模块。也就是说,垂直搜索在移动平台和互联网平台的技术实现上的最大区别就是,移动垂直搜索增加了一个业务智能调度层。图3说明了在移动垂直搜索领域里,智能业务调度所处的核心位置和作用。
图3 智能业务调度图
为实现精准的业务调度,避免“所问非所答”,指点通针对当前提供的十几个垂直业务,专门开发了行业调度关键词库。对于可能存在二意性的调度关键词,指点通同时开发了上下文相关词库,例如:“去哪里买电视”和“今晚电视预告”,都出现了“电视”关键词。通过上下文相关技术,就会分别调度到“衣食住行业务处理模块”和“电视预告业务处理模块”。
在解决当前提供的诸多移动垂直搜索业务调度的技术实现方面,指点通采用了逻辑矩阵的方式,根据逻辑计算结果,映射到相应的业务模块。逻辑矩阵主要根据各种行业调度关键词、上下文关联关键词的各种组合方式,以及通过预先的优先级设定来减少逻辑组合路径数量,从技术上解决了调度二意性问题。至于逻辑矩阵如何定义,这是一个关键点,通常要站在用户的角度,分析用户的搜索使用习惯,以此去设定逻辑矩阵。
5、个性化业务处理
业务处理层主要包括了各个移动垂直业务处理模块,以及相应的业务所需数据库。根据不同的业务处理需要,从业务调度层传上来的关键词中选择业务相关的关键词作为参数,按照业务流程进行相应的处理。之后根据业务处理返回结果的特性,把返回结果传送到智能表示层的相应表示模块。
个性化搜索是垂直搜索引擎区别于水平搜索引擎的主要特点之一,面向移动领域,为了克服移动终端的诸多限制,其个性化方面就必须考虑业务返回结果的排序问题。
其实这个目标不难实现,关键是要充分了解用户对于不同行业的搜索,倾向的是哪种排序方案才能最大限度的提高用户体验。在不同的垂直业务中,因为行业本身的不同,排序的规则和标准也各不相同。
举例说明,对于餐饮行业,如果用户上行“粤菜 国贸附近”,业务处理首先要以“粤菜”为主,其次要根据距离和“国贸”由近及远的方式返回“粤菜”相关信息。
指点通在当前提供的诸多移动垂直搜索业务中,始终立足于如何提高用户体验,为此也采用了很多相关的技术。例如对于上面的例子,指点通采用了区域类关键词的GPS定位技术,实现了按照距离排序的个性化和客户化返回结果。
结束语: 当前移动搜索应用在国内刚刚兴起,由于垂直搜索技术的自身特点和优势,必将成为移动搜索的主流技术。然而垂直搜索技术还需面向移动平台的优势及其局限性,今后还必需做更多的改进和创新,这样才能让移动垂直搜索引擎服务更快地发展和普及,从而为移动用户提供更多更好的服务,并为推进我国移动通信事业的更快发展作出新贡献。