當你向互聯網上(shàng)傳一(yī)個(gè)頁面,來自(zì)世界各地的無數“蜘蛛”便會(huì)蜂擁而至。它們抓取并複制你的網頁,跟蹤著(zhe)網頁中的鏈接,悄悄地爬上(shàng)更多(duō)的頁面,用觸角将它們納入索引數據庫。數據庫像轟鳴的機(jī)器(qì),拆解網頁上(shàng)的文字内容、标記關鍵詞的位置、字體和顔色,并生(shēng)成龐大的表格。這時,你輸入一(yī)個(gè)單詞,點擊Google或百度上(shàng)的“搜索”按鈕,它會(huì)在0.2秒(miǎo)内得到(dào)響應,帶著(zhe)單詞奔向索引數據庫的每個(gè)神經末梢,檢索到(dào)所有包含搜索詞的網頁,依據它們的浏覽次數與關聯性等一(yī)系列算(suàn)法确定網頁級别、排列出順序,最終按你期望的格式呈現在網頁上(shàng)。
這就(jiù)是一(yī)個(gè)“關鍵詞”的雲端之旅。在過去的10多(duō)年(nián)裡(lǐ),類似的旅程總共進行過數十萬億次。它催生(shēng)了搜索引擎的先驅Overture,成就(jiù)了本世紀最早期的創新明星Google,還(hái)有Yandex、Navar和百度等來自(zì)全球各地的Google效仿者。它讓搜索引擎成為(wèi)人們最依賴的互聯網工(gōng)具,以及推動人類信息自(zì)由流動的傳福音(yīn)者……
但現在,這一(yī)切可能(néng)都不再重要了。
設想一(yī)下(xià),當你同時打開(kāi)RSS訂閱工(gōng)具、Twitter(新浪微博)和Facebook(開(kāi)心網)坐在電(diàn)腦(nǎo)前的時候,你更傾向于用哪種方式獲得信息?那些通(tōng)過社交工(gōng)具推送到(dào)你面前的内容,是不是通(tōng)常比你主動搜索的信息更有價值?你搜索“美洲豹最便宜的價格,”得到(dào)的結果是車還(hái)是棒球杆?如果你對騰訊與360的戰争完全沒興趣的話,在你搜索“周鴻祎”的時候,真的一(yī)定希望“馬化騰”跳出來嗎(ma)?
這就(jiù)是當下(xià)的搜索引擎在幾何級網頁數量爆炸時面臨的困境:即便搜索引擎優化(SEO)工(gōng)具越來越普遍地被網頁設計者們純熟地應用,但它仍然不能(néng)确保人們在第一(yī)時間搜索到(dào)他們需要的信息——甚至,成功幾率越來越低(dī)。
“目前上(shàng)萬億的網頁,其中大約有250億的頁面可被檢索,有可能(néng)出現在用戶搜索結果裡(lǐ)的頁面,最多(duō)占5%,未來幾年(nián)這個(gè)數字甚至會(huì)降低(dī)到(dào)1%以下(xià),”微軟亞洲研究院常務副院長(cháng)馬維英說。當下(xià)的搜索引擎技(jì)術(shù)就(jiù)像圖書館檢索那樣為(wèi)所有的書建立檢索碼,但最後有可能(néng)帶給用戶的價值越來越少——它被持續膨脹的網頁數量稀釋了。
那麽,未來人們需要什麽樣的搜索引擎?
Google試圖提供最新的解決方案是:超快速的自(zì)動搜索。Google首席執行官施密特在最近的一(yī)次演講中提醒人們永遠(yuǎn)不要低(dī)估速度對搜索的重要性。他還(hái)認為(wèi),搜索最終将不僅僅是搜索網頁,而是個(gè)人的幾乎所有信息——包括電(diàn)子郵件(jiàn)、音(yīn)樂和你關注的話題。在得到(dào)你的允許後,它将成為(wèi)你專屬你個(gè)人的搜索。
這似乎解決了搜索引擎的個(gè)性化需求和匹配問題,但Google未曾真正提及的是:與任何一(yī)類以“你”為(wèi)中心的媒介相(xiàng)同,“你搜索”需要建立在社交網絡化的基礎之上(shàng)——例如你搜索到(dào)的内容被你的朋友(yǒu)推薦,它會(huì)在搜索結果中得到(dào)提升,從(cóng)而進入你個(gè)人搜索的優先級。在這個(gè)過程中,朋友(yǒu)的“頂”就(jiù)進入了搜索引擎,成為(wèi)整個(gè)搜索的一(yī)部分。
但奉邏輯學與數學為(wèi)宗教的Google卻并不擅長(cháng)社交網絡領域——它甚至站在全球最大社交網站Facebook的對立面。讓搜索“社交化”意味著(zhe)賦予搜索引擎社會(huì)學和心理學的屬性,而這會(huì)改變Google的基本邏輯。
事(shì)實上(shàng),搜索引擎領域邏輯更替的核心是:搜索引擎将越來越通(tōng)曉人類的語言和意圖,為(wèi)用戶抓取他們最想知道的網頁内容,甚至能(néng)識别語音(yīn)、圖像及表情等非文本材料——不但返回更精确的文本結果,還(hái)包括大量的多(duō)媒體内容。
越來越多(duō)中小(xiǎo)型公司試圖沿著(zhe)這條道路(lù)證明Google代表的當下(xià)“客觀主義”搜索技(jì)術(shù)的簡陋:當你在一(yī)家名為(wèi)Powerset的搜索引擎網站搜索“誰曾打敗過安德烈·阿加西(xī)(Andre Agassi,美國(guó)著名職業(yè)網球運動員(yuán))”的時候,呈現在第一(yī)位的搜索結果是另一(yī)位網球運動員(yuán)皮特·桑普拉斯(Pete Sampras)的頁面。而在Google上(shàng),最前面的結果仍然是阿加西(xī)的個(gè)人信息。如果在另一(yī)家搜索引擎Cognition的頁面上(shàng)輸入相(xiàng)關的法律和訴訟問題,也能(néng)得到(dào)相(xiàng)關條款的精确回應。
這就(jiù)是人們通(tōng)常所謂的“語義搜索”,但割據的小(xiǎo)型語義搜索網站采集的信息量有限,并不足以在全面抗衡Google這樣的巨頭。但它們被召集在一(yī)面旗幟下(xià),意義就(jiù)完全不同了。
這個(gè)“召集者”不是别人,正是在互聯網時代落寞許久的巨頭微軟。
在收購雅虎的交易失敗後,微軟對互聯網和搜索引擎的布局走向了一(yī)條隐蔽但頗具技(jì)巧的道路(lù)。2008年(nián)7月(yuè),微軟宣布收購上(shàng)文中提到(dào)的語義搜索引擎Powerset。緊接著(zhe)又(yòu)推出了購物(wù)比較引擎Live Cashback、旅遊搜索引擎Farecast以及健康搜索引擎health.live.com等基于語義的搜索分支。2009年(nián)6月(yuè)微軟發布全新搜索品牌Bing之後,它們又(yòu)被整合進入Bing的框架體系。
但它們尚未構成一(yī)個(gè)完整的搜索産品。這是因為(wèi)語義搜索技(jì)術(shù)的處理能(néng)力和速度仍是主要缺點,有時甚至需要長(cháng)達20秒(miǎo)才能(néng)分析完一(yī)個(gè)頁面。但微軟的不同在于,它有能(néng)力投資更大型的服務器(qì)集群,這使語義搜索成為(wèi)微軟在搜索引擎領域樹立的壁——當然,你也可以把它看(kàn)作微軟搜索引擎計劃的Plan B。
不容忽視的是,支持微軟在語義搜索領域有望搶先獲得一(yī)席之地的,是它背後的基礎研究力量。在基礎的計算(suàn)科學領域,語義搜索并非一(yī)個(gè)嶄新的話題。至少在微軟内部,圍繞它的研究至少已經有10多(duō)年(nián)的曆史。而現在,是它們集中爆發并轉化為(wèi)現實産品的時候了。
“盡管人們不該讓科學家預測一(yī)項研究計劃轉化為(wèi)現實産品的周期有多(duō)長(cháng),但是我們在搜索引擎領域的多(duō)年(nián)基礎研究,正好到(dào)了收獲果實的時候,因為(wèi)人們對搜索的需求正在發生(shēng)變化,這就(jiù)是你現在看(kàn)到(dào)的一(yī)切。”微軟全球高(gāo)級副總裁裡(lǐ)克·雷斯特(Rick Rashid)說。
至少在目前,微軟相(xiàng)信它能(néng)在語義搜索上(shàng)扳回一(yī)局的原因,是因為(wèi)搜索引擎技(jì)術(shù)的門(mén)檻并非輕易地能(néng)被任何玩家企及。
在雷斯特看(kàn)來,搜索引擎的技(jì)術(shù)至少在四個(gè)方面設置了門(mén)檻,并把大量試圖觊觎這一(yī)領域的玩家過濾在了最終的遊戲之外:其一(yī)是服務器(qì)抓取數據的能(néng)力,它将不僅僅來自(zì)普通(tōng)網頁,還(hái)将來自(zì)各類垂直的數據庫與社交網站中的關鍵信息;其二是在幾何級增長(cháng)的互聯網數據和信息爆炸面前維系處理它們的速度;其三是巨額投資在全球各地建設大規模的服務器(qì)集群;最後一(yī)點,是能(néng)追蹤分析用戶的行為(wèi)與心理,通(tōng)曉用戶的意圖和心理。“而這也恰恰是語義搜索的基礎,”雷斯特對本刊說。
而有了龐大的服務器(qì)集群,也能(néng)夠保證處理幾何級增長(cháng)信息的速度,這種能(néng)感知人們輸入語言意圖的“智慧搜索”,又(yòu)将如何實現?
微軟給出的答案是:重新制定搜索引擎的規則。
“搜索引擎必須了解到(dào)底需要在網上(shàng)完成什麽樣的任務,我們現在需要看(kàn)到(dào)的是一(yī)個(gè)任務,然後幫助用戶做出決策并采取行動,而不是給用戶十個(gè)鏈接再讓他們逐個(gè)打開(kāi)去尋找信息是否有用,”微軟亞洲研究院常務副院長(cháng)馬維英說,“這有機(jī)會(huì)對搜索的格局産生(shēng)颠覆式的創新。”
這意味著(zhe)當下(xià)搜索引擎的原理從(cóng)一(yī)開(kāi)始就(jiù)被打破了——搜索的起點将不再是關鍵詞,而是一(yī)個(gè)包含著(zhe)關鍵詞的短文本和信息群,機(jī)器(qì)需要通(tōng)過對它的分析和判斷,再排列出相(xiàng)應的文本和網頁順序,推送到(dào)用戶的浏覽器(qì)上(shàng)。
也就(jiù)是說,必應(Bing)将更像是一(yī)個(gè)路(lù)由器(qì):它了解用戶的搜索目的,把目的與任務結合起來,以更多(duō)的搜索表現形式,理解搜索目的,抽取出所有的知識,把知識按照(zhào)目的組織起來,甚至提供一(yī)個(gè)新的搜索生(shēng)态系統。
它對研究人員(yuán)來說是完全不同的工(gōng)作流程。傳統互聯網搜索的最小(xiǎo)排序單元是網頁,但當搜索的對象(entity)從(cóng)網頁轉移到(dào)某一(yī)個(gè)人、事(shì)物(wù)和現象的時候,盡管搜索出結果仍然是網頁,但它需要機(jī)器(qì)對相(xiàng)關的内容進行知識抽取、整合并總結,以一(yī)套完整的框架性結構的呈現在網頁上(shàng)。其中,搜索與社交網絡的結合,以及專業(yè)問答類社區可能(néng)會(huì)發揮更重要的價值。
至少在微軟内部,實現這一(yī)切并不容易。搜索團隊必須滲透到(dào)微軟研究院的基礎架構、機(jī)器(qì)學習、自(zì)然語言等領域的大量核心資源當中。至少,它得允許研究員(yuán)和工(gōng)程師(shī)輕松地修改代碼,這是在微軟第一(yī)代搜索引擎的架構中難以實現的。
以微軟即将發布的“學術(shù)搜索”為(wèi)例:它旨在幫助用戶快速找到(dào)某個(gè)學術(shù)研究領域内的頂尖學者、學術(shù)會(huì)議和期刊,獲得一(yī)個(gè)學術(shù)領域的興趣與發展的詳細信息,發現某個(gè)研究領域的學術(shù)論文和學術(shù)新星。它是完全建立在“對象”基礎上(shàng)的搜索,甚至可以搜索研究人員(yuán)之間的關系、論文的共同作者,以及哪所院校在這某個(gè)領域研究最出色,過去五年(nián)哪些機(jī)構排名上(shàng)升等相(xiàng)當“瑣碎”的信息——隻要你向搜索引擎提出這些問題。
更現實的應用是微軟的中文旅遊搜索——它沒有抓取浩如煙(yān)海的旅遊網頁信息,而是将抓取的對象鎖定在社交網站和個(gè)人博客上(shàng)的20多(duō)萬篇網友(yǒu)遊記,從(cóng)中提煉出超過3萬個(gè)熱門(mén)景點的旅遊狀況。當用戶提出針對某一(yī)景點的旅遊問題時,它會(huì)自(zì)動抽取相(xiàng)應的信息,組合答案呈現給用戶。它還(hái)與必應(Bing)地圖相(xiàng)結合,鼓勵網友(yǒu)上(shàng)傳旅遊路(lù)線和圖片,創建旅行計劃,以期進一(yī)步豐富旅遊搜索的信息資源和語義庫。
“它會(huì)提供給你最終的答案,直接找出答案的結果,而且完全不同于社區問答類産品,是搜索的結果,”微軟亞洲研究院院長(cháng)洪小(xiǎo)文說。
而這種颠覆式的數據挖掘、知識提取與算(suàn)法邏輯,甚至使人們對多(duō)媒體的感知也可以通(tōng)過搜索的形式呈現。微軟研究院還(hái)開(kāi)發了一(yī)個(gè)可擴展的解決方案,通(tōng)過索引超過兩百萬張網頁圖片,建立了一(yī)個(gè)名為(wèi)MindFinder的系統,可以實現高(gāo)效、基于素描的圖像尋回——這意味著(zhe)你使用任何一(yī)種觸屏數字設備的時候,可以用簡單的手勢勾勒某個(gè)事(shì)物(wù)的草(cǎo)圖——它将被視為(wèi)搜索的指令,然後在屏幕上(shàng)呈現出你預期中的畫(huà)面。
你一(yī)動念頭,搜索結果就(jiù)會(huì)冒出來。
【搜索即服務】
盡管以語義搜索為(wèi)代表的智能(néng)化未來充滿了想象力,但它卻并非下(xià)一(yī)代搜索引擎的終極使命。至少在微軟看(kàn)來,搜索引擎并不一(yī)定局限在“必應”(Bing)的搜索框當中。
看(kàn)看(kàn)它的語義搜索實驗能(néng)在Twitter上(shàng)發生(shēng)些什麽:在全球已有1.45億注冊用戶的Twitter每天承載著(zhe)9000多(duō)萬次的更新和超過8億次的搜索——它已經成為(wèi)世界上(shàng)全面的和鮮活的數據庫,也是政府、企業(yè)和公共機(jī)構體察輿情的重要來源。
但這些Tweets(指Twitter上(shàng)的用戶言論)中有很大的比例是毫無意義的空話和垃圾内容,且夾雜(zá)著(zhe)各種縮寫和不規範語言,這導緻傳統的關鍵字搜索所返回的内容列表,其分析價值相(xiàng)當有限。而語義搜索能(néng)對海量Tweets和大規模用戶之間的聯系進行分析,提取關鍵信息。當你輸入“Barack Obama”(美國(guó)總統奧巴馬)的時候,它能(néng)自(zì)動統計出數十億條Twitter信息中對奧巴馬的“正面”(positive)和“負面”(negative)評價的比例,并列出諸如“聰明”、“善良”、“決斷”、“吝啬”和“愚蠢”等一(yī)系列用戶形容奧巴馬的最頻繁的關鍵詞。
這意味著(zhe)搜索引擎本身不僅以搜索框的形式出現,還(hái)可以化身成一(yī)種互聯網服務的工(gōng)具。“隻有當搜索引擎能(néng)夠被開(kāi)發出更多(duō)應用的時候,萬維網才會(huì)被帶到(dào)下(xià)一(yī)個(gè)時代,”微軟全球高(gāo)級副總裁雷斯特說。
而社交網站的搜索開(kāi)發顯然是其中的一(yī)個(gè)方向——它不僅可以提升搜索本身在當下(xià)的重要性,也符合語義搜索的趨勢需要。維基百科創始人吉米·威爾斯(Jimmy Wales)曾試圖創建一(yī)個(gè)結合用戶意志(zhì)和語義關聯的搜索引擎網站Wikia Search,但後來放(fàng)棄了。他曾表示過未來的搜索形态可能(néng)分散在各種互聯網的角落裡(lǐ),而不是搜索框。
而據稱Facebook也試圖将其龐大的數據源進行全面探索,以結構化的數據和開(kāi)放(fàng)圖譜(open graph)為(wèi)基礎,推出一(yī)款語義搜索引擎的計劃。在它的背後,是微軟與Facebook的搜索戰略合作關系——必應搜索(Bing)已成為(wèi)Facebook諸多(duō)服務的一(yī)部分。随著(zhe)微軟在語義搜索領域基礎研究的産品變現,它将進一(yī)步體現在用戶在Facebook的搜索體驗中。如果Facebook用戶使用“必應”搜索“比薩”一(yī)詞,搜索結果将會(huì)出現食物(wù)的圖片、食譜以及最近的比薩店地圖,而不僅僅是提供一(yī)些比薩店的網址鏈接。
從(cóng)内容走向應用和服務,這是搜索的宿命。