搜索引擎的最終使命

當你向互聯網上(shàng)傳一(yī)個(gè)頁面，來自(zì)世界各地的無數“蜘蛛”便會(huì)蜂擁而至。它們抓取并複制你的網頁，跟蹤著(zhe)網頁中的鏈接，悄悄地爬上(shàng)更多(duō)的頁面，用觸角将它們納入索引數據庫。數據庫像轟鳴的機(jī)器(qì)，拆解網頁上(shàng)的文字内容、标記關鍵詞的位置、字體和顔色，并生(shēng)成龐大的表格。這時，你輸入一(yī)個(gè)單詞，點擊Google或百度上(shàng)的“搜索”按鈕，它會(huì)在0.2秒(miǎo)内得到(dào)響應，帶著(zhe)單詞奔向索引數據庫的每個(gè)神經末梢，檢索到(dào)所有包含搜索詞的網頁，依據它們的浏覽次數與關聯性等一(yī)系列算(suàn)法确定網頁級别、排列出順序，最終按你期望的格式呈現在網頁上(shàng)。

這就(jiù)是一(yī)個(gè)“關鍵詞”的雲端之旅。在過去的10多(duō)年(nián)裡(lǐ)，類似的旅程總共進行過數十萬億次。它催生(shēng)了搜索引擎的先驅Overture，成就(jiù)了本世紀最早期的創新明星Google，還(hái)有Yandex、Navar和百度等來自(zì)全球各地的Google效仿者。它讓搜索引擎成為(wèi)人們最依賴的互聯網工(gōng)具，以及推動人類信息自(zì)由流動的傳福音(yīn)者……

但現在，這一(yī)切可能(néng)都不再重要了。

設想一(yī)下(xià)，當你同時打開(kāi)RSS訂閱工(gōng)具、Twitter（新浪微博）和Facebook（開(kāi)心網）坐在電(diàn)腦(nǎo)前的時候，你更傾向于用哪種方式獲得信息？那些通(tōng)過社交工(gōng)具推送到(dào)你面前的内容，是不是通(tōng)常比你主動搜索的信息更有價值？你搜索“美洲豹最便宜的價格，”得到(dào)的結果是車還(hái)是棒球杆？如果你對騰訊與360的戰争完全沒興趣的話，在你搜索“周鴻祎”的時候，真的一(yī)定希望“馬化騰”跳出來嗎(ma)？

這就(jiù)是當下(xià)的搜索引擎在幾何級網頁數量爆炸時面臨的困境：即便搜索引擎優化（SEO）工(gōng)具越來越普遍地被網頁設計者們純熟地應用，但它仍然不能(néng)确保人們在第一(yī)時間搜索到(dào)他們需要的信息——甚至，成功幾率越來越低(dī)。

“目前上(shàng)萬億的網頁，其中大約有250億的頁面可被檢索，有可能(néng)出現在用戶搜索結果裡(lǐ)的頁面，最多(duō)占5%，未來幾年(nián)這個(gè)數字甚至會(huì)降低(dī)到(dào)1%以下(xià)，”微軟亞洲研究院常務副院長(cháng)馬維英說。當下(xià)的搜索引擎技(jì)術(shù)就(jiù)像圖書館檢索那樣為(wèi)所有的書建立檢索碼，但最後有可能(néng)帶給用戶的價值越來越少——它被持續膨脹的網頁數量稀釋了。

那麽，未來人們需要什麽樣的搜索引擎？

Google試圖提供最新的解決方案是：超快速的自(zì)動搜索。Google首席執行官施密特在最近的一(yī)次演講中提醒人們永遠(yuǎn)不要低(dī)估速度對搜索的重要性。他還(hái)認為(wèi)，搜索最終将不僅僅是搜索網頁，而是個(gè)人的幾乎所有信息——包括電(diàn)子郵件(jiàn)、音(yīn)樂和你關注的話題。在得到(dào)你的允許後，它将成為(wèi)你專屬你個(gè)人的搜索。

這似乎解決了搜索引擎的個(gè)性化需求和匹配問題，但Google未曾真正提及的是：與任何一(yī)類以“你”為(wèi)中心的媒介相(xiàng)同，“你搜索”需要建立在社交網絡化的基礎之上(shàng)——例如你搜索到(dào)的内容被你的朋友(yǒu)推薦，它會(huì)在搜索結果中得到(dào)提升，從(cóng)而進入你個(gè)人搜索的優先級。在這個(gè)過程中，朋友(yǒu)的“頂”就(jiù)進入了搜索引擎，成為(wèi)整個(gè)搜索的一(yī)部分。

但奉邏輯學與數學為(wèi)宗教的Google卻并不擅長(cháng)社交網絡領域——它甚至站在全球最大社交網站Facebook的對立面。讓搜索“社交化”意味著(zhe)賦予搜索引擎社會(huì)學和心理學的屬性，而這會(huì)改變Google的基本邏輯。

事(shì)實上(shàng)，搜索引擎領域邏輯更替的核心是：搜索引擎将越來越通(tōng)曉人類的語言和意圖，為(wèi)用戶抓取他們最想知道的網頁内容，甚至能(néng)識别語音(yīn)、圖像及表情等非文本材料——不但返回更精确的文本結果，還(hái)包括大量的多(duō)媒體内容。

越來越多(duō)中小(xiǎo)型公司試圖沿著(zhe)這條道路(lù)證明Google代表的當下(xià)“客觀主義”搜索技(jì)術(shù)的簡陋：當你在一(yī)家名為(wèi)Powerset的搜索引擎網站搜索“誰曾打敗過安德烈·阿加西(xī)（Andre Agassi，美國(guó)著名職業(yè)網球運動員(yuán)）”的時候，呈現在第一(yī)位的搜索結果是另一(yī)位網球運動員(yuán)皮特·桑普拉斯（Pete Sampras）的頁面。而在Google上(shàng)，最前面的結果仍然是阿加西(xī)的個(gè)人信息。如果在另一(yī)家搜索引擎Cognition的頁面上(shàng)輸入相(xiàng)關的法律和訴訟問題，也能(néng)得到(dào)相(xiàng)關條款的精确回應。

這就(jiù)是人們通(tōng)常所謂的“語義搜索”，但割據的小(xiǎo)型語義搜索網站采集的信息量有限，并不足以在全面抗衡Google這樣的巨頭。但它們被召集在一(yī)面旗幟下(xià)，意義就(jiù)完全不同了。

這個(gè)“召集者”不是别人，正是在互聯網時代落寞許久的巨頭微軟。

在收購雅虎的交易失敗後，微軟對互聯網和搜索引擎的布局走向了一(yī)條隐蔽但頗具技(jì)巧的道路(lù)。2008年(nián)7月(yuè)，微軟宣布收購上(shàng)文中提到(dào)的語義搜索引擎Powerset。緊接著(zhe)又(yòu)推出了購物(wù)比較引擎Live Cashback、旅遊搜索引擎Farecast以及健康搜索引擎health.live.com等基于語義的搜索分支。2009年(nián)6月(yuè)微軟發布全新搜索品牌Bing之後，它們又(yòu)被整合進入Bing的框架體系。

但它們尚未構成一(yī)個(gè)完整的搜索産品。這是因為(wèi)語義搜索技(jì)術(shù)的處理能(néng)力和速度仍是主要缺點，有時甚至需要長(cháng)達20秒(miǎo)才能(néng)分析完一(yī)個(gè)頁面。但微軟的不同在于，它有能(néng)力投資更大型的服務器(qì)集群，這使語義搜索成為(wèi)微軟在搜索引擎領域樹立的壁——當然，你也可以把它看(kàn)作微軟搜索引擎計劃的Plan B。

不容忽視的是，支持微軟在語義搜索領域有望搶先獲得一(yī)席之地的，是它背後的基礎研究力量。在基礎的計算(suàn)科學領域，語義搜索并非一(yī)個(gè)嶄新的話題。至少在微軟内部，圍繞它的研究至少已經有10多(duō)年(nián)的曆史。而現在，是它們集中爆發并轉化為(wèi)現實産品的時候了。

“盡管人們不該讓科學家預測一(yī)項研究計劃轉化為(wèi)現實産品的周期有多(duō)長(cháng)，但是我們在搜索引擎領域的多(duō)年(nián)基礎研究，正好到(dào)了收獲果實的時候，因為(wèi)人們對搜索的需求正在發生(shēng)變化，這就(jiù)是你現在看(kàn)到(dào)的一(yī)切。”微軟全球高(gāo)級副總裁裡(lǐ)克·雷斯特（Rick Rashid）說。

至少在目前，微軟相(xiàng)信它能(néng)在語義搜索上(shàng)扳回一(yī)局的原因，是因為(wèi)搜索引擎技(jì)術(shù)的門(mén)檻并非輕易地能(néng)被任何玩家企及。

在雷斯特看(kàn)來，搜索引擎的技(jì)術(shù)至少在四個(gè)方面設置了門(mén)檻，并把大量試圖觊觎這一(yī)領域的玩家過濾在了最終的遊戲之外：其一(yī)是服務器(qì)抓取數據的能(néng)力，它将不僅僅來自(zì)普通(tōng)網頁，還(hái)将來自(zì)各類垂直的數據庫與社交網站中的關鍵信息；其二是在幾何級增長(cháng)的互聯網數據和信息爆炸面前維系處理它們的速度；其三是巨額投資在全球各地建設大規模的服務器(qì)集群；最後一(yī)點，是能(néng)追蹤分析用戶的行為(wèi)與心理，通(tōng)曉用戶的意圖和心理。“而這也恰恰是語義搜索的基礎，”雷斯特對本刊說。

而有了龐大的服務器(qì)集群，也能(néng)夠保證處理幾何級增長(cháng)信息的速度，這種能(néng)感知人們輸入語言意圖的“智慧搜索”，又(yòu)将如何實現？

微軟給出的答案是：重新制定搜索引擎的規則。

“搜索引擎必須了解到(dào)底需要在網上(shàng)完成什麽樣的任務，我們現在需要看(kàn)到(dào)的是一(yī)個(gè)任務，然後幫助用戶做出決策并采取行動，而不是給用戶十個(gè)鏈接再讓他們逐個(gè)打開(kāi)去尋找信息是否有用，”微軟亞洲研究院常務副院長(cháng)馬維英說，“這有機(jī)會(huì)對搜索的格局産生(shēng)颠覆式的創新。”

這意味著(zhe)當下(xià)搜索引擎的原理從(cóng)一(yī)開(kāi)始就(jiù)被打破了——搜索的起點将不再是關鍵詞，而是一(yī)個(gè)包含著(zhe)關鍵詞的短文本和信息群，機(jī)器(qì)需要通(tōng)過對它的分析和判斷，再排列出相(xiàng)應的文本和網頁順序，推送到(dào)用戶的浏覽器(qì)上(shàng)。

也就(jiù)是說，必應（Bing）将更像是一(yī)個(gè)路(lù)由器(qì)：它了解用戶的搜索目的，把目的與任務結合起來，以更多(duō)的搜索表現形式，理解搜索目的，抽取出所有的知識，把知識按照(zhào)目的組織起來，甚至提供一(yī)個(gè)新的搜索生(shēng)态系統。

它對研究人員(yuán)來說是完全不同的工(gōng)作流程。傳統互聯網搜索的最小(xiǎo)排序單元是網頁，但當搜索的對象（entity）從(cóng)網頁轉移到(dào)某一(yī)個(gè)人、事(shì)物(wù)和現象的時候，盡管搜索出結果仍然是網頁，但它需要機(jī)器(qì)對相(xiàng)關的内容進行知識抽取、整合并總結，以一(yī)套完整的框架性結構的呈現在網頁上(shàng)。其中，搜索與社交網絡的結合，以及專業(yè)問答類社區可能(néng)會(huì)發揮更重要的價值。

至少在微軟内部，實現這一(yī)切并不容易。搜索團隊必須滲透到(dào)微軟研究院的基礎架構、機(jī)器(qì)學習、自(zì)然語言等領域的大量核心資源當中。至少，它得允許研究員(yuán)和工(gōng)程師(shī)輕松地修改代碼，這是在微軟第一(yī)代搜索引擎的架構中難以實現的。

以微軟即将發布的“學術(shù)搜索”為(wèi)例：它旨在幫助用戶快速找到(dào)某個(gè)學術(shù)研究領域内的頂尖學者、學術(shù)會(huì)議和期刊，獲得一(yī)個(gè)學術(shù)領域的興趣與發展的詳細信息，發現某個(gè)研究領域的學術(shù)論文和學術(shù)新星。它是完全建立在“對象”基礎上(shàng)的搜索，甚至可以搜索研究人員(yuán)之間的關系、論文的共同作者，以及哪所院校在這某個(gè)領域研究最出色，過去五年(nián)哪些機(jī)構排名上(shàng)升等相(xiàng)當“瑣碎”的信息——隻要你向搜索引擎提出這些問題。

更現實的應用是微軟的中文旅遊搜索——它沒有抓取浩如煙(yān)海的旅遊網頁信息，而是将抓取的對象鎖定在社交網站和個(gè)人博客上(shàng)的20多(duō)萬篇網友(yǒu)遊記，從(cóng)中提煉出超過3萬個(gè)熱門(mén)景點的旅遊狀況。當用戶提出針對某一(yī)景點的旅遊問題時，它會(huì)自(zì)動抽取相(xiàng)應的信息，組合答案呈現給用戶。它還(hái)與必應（Bing）地圖相(xiàng)結合，鼓勵網友(yǒu)上(shàng)傳旅遊路(lù)線和圖片，創建旅行計劃，以期進一(yī)步豐富旅遊搜索的信息資源和語義庫。

“它會(huì)提供給你最終的答案，直接找出答案的結果，而且完全不同于社區問答類産品，是搜索的結果，”微軟亞洲研究院院長(cháng)洪小(xiǎo)文說。

而這種颠覆式的數據挖掘、知識提取與算(suàn)法邏輯，甚至使人們對多(duō)媒體的感知也可以通(tōng)過搜索的形式呈現。微軟研究院還(hái)開(kāi)發了一(yī)個(gè)可擴展的解決方案，通(tōng)過索引超過兩百萬張網頁圖片，建立了一(yī)個(gè)名為(wèi)MindFinder的系統，可以實現高(gāo)效、基于素描的圖像尋回——這意味著(zhe)你使用任何一(yī)種觸屏數字設備的時候，可以用簡單的手勢勾勒某個(gè)事(shì)物(wù)的草(cǎo)圖——它将被視為(wèi)搜索的指令，然後在屏幕上(shàng)呈現出你預期中的畫(huà)面。

你一(yī)動念頭，搜索結果就(jiù)會(huì)冒出來。

【搜索即服務】

盡管以語義搜索為(wèi)代表的智能(néng)化未來充滿了想象力，但它卻并非下(xià)一(yī)代搜索引擎的終極使命。至少在微軟看(kàn)來，搜索引擎并不一(yī)定局限在“必應”（Bing）的搜索框當中。

看(kàn)看(kàn)它的語義搜索實驗能(néng)在Twitter上(shàng)發生(shēng)些什麽：在全球已有1.45億注冊用戶的Twitter每天承載著(zhe)9000多(duō)萬次的更新和超過8億次的搜索——它已經成為(wèi)世界上(shàng)全面的和鮮活的數據庫，也是政府、企業(yè)和公共機(jī)構體察輿情的重要來源。

但這些Tweets（指Twitter上(shàng)的用戶言論）中有很大的比例是毫無意義的空話和垃圾内容，且夾雜(zá)著(zhe)各種縮寫和不規範語言，這導緻傳統的關鍵字搜索所返回的内容列表，其分析價值相(xiàng)當有限。而語義搜索能(néng)對海量Tweets和大規模用戶之間的聯系進行分析，提取關鍵信息。當你輸入“Barack Obama”（美國(guó)總統奧巴馬）的時候，它能(néng)自(zì)動統計出數十億條Twitter信息中對奧巴馬的“正面”（positive）和“負面”（negative）評價的比例，并列出諸如“聰明”、“善良”、“決斷”、“吝啬”和“愚蠢”等一(yī)系列用戶形容奧巴馬的最頻繁的關鍵詞。

這意味著(zhe)搜索引擎本身不僅以搜索框的形式出現，還(hái)可以化身成一(yī)種互聯網服務的工(gōng)具。“隻有當搜索引擎能(néng)夠被開(kāi)發出更多(duō)應用的時候，萬維網才會(huì)被帶到(dào)下(xià)一(yī)個(gè)時代，”微軟全球高(gāo)級副總裁雷斯特說。

而社交網站的搜索開(kāi)發顯然是其中的一(yī)個(gè)方向——它不僅可以提升搜索本身在當下(xià)的重要性，也符合語義搜索的趨勢需要。維基百科創始人吉米·威爾斯（Jimmy Wales）曾試圖創建一(yī)個(gè)結合用戶意志(zhì)和語義關聯的搜索引擎網站Wikia Search，但後來放(fàng)棄了。他曾表示過未來的搜索形态可能(néng)分散在各種互聯網的角落裡(lǐ)，而不是搜索框。

而據稱Facebook也試圖将其龐大的數據源進行全面探索，以結構化的數據和開(kāi)放(fàng)圖譜（open graph）為(wèi)基礎，推出一(yī)款語義搜索引擎的計劃。在它的背後，是微軟與Facebook的搜索戰略合作關系——必應搜索（Bing）已成為(wèi)Facebook諸多(duō)服務的一(yī)部分。随著(zhe)微軟在語義搜索領域基礎研究的産品變現，它将進一(yī)步體現在用戶在Facebook的搜索體驗中。如果Facebook用戶使用“必應”搜索“比薩”一(yī)詞，搜索結果将會(huì)出現食物(wù)的圖片、食譜以及最近的比薩店地圖，而不僅僅是提供一(yī)些比薩店的網址鏈接。

從(cóng)内容走向應用和服務，這是搜索的宿命。