摘要:通信工程師終端與業(yè)務考試技術模式:査詢處理與分詞是中文搜索引擎必不可少的工作,而百度在“中文分詞”方面具有其他搜索引擎所不具有的關鍵技術和優(yōu)勢。
3.3.3 技術模式
1.中文分詞技術
査詢處理與分詞是中文搜索引擎必不可少的工作,而百度在“中文分詞”方面具有其他搜索引擎所不具有的關鍵技術和優(yōu)勢。
用戶向搜索引擎提交杳詢,搜索引擎一般在接收到用戶查詢后要做一些處理,然后在索引數(shù)據(jù)庫外面提取相關的信息。百度在接收到用戶查詢后首先根據(jù)分割符號將査詢分幵,然后査看是否有重要的字符串,如果冇,就拋棄多余的,只保留一個,接著判斷是否有英文或者數(shù)字,如果柯,就把英文或者數(shù)字當做一個整體保留并把前后的中文切開。
接下來首先用專有詞典采用最人正向匹配分同,切分出部分結果,剩余沒有切分的交給普通詞典,同樣采取正向最大匹配分詞,最后輸出結果。
2.自主知識產權
在互聯(lián)網中文信息的檢索和內容傳遞方面,百度可以說當仁不讓。沒有過硬的技術資木,沒有過硬的核心競爭力,很難在即將到來的全球經濟一體化的大環(huán)境中獲得競爭的最有利地位,百度很早就認識到/這一點,并正在按照這樣的戰(zhàn)略思路發(fā)展。從1999年成立到2000年年初申請了中國互聯(lián)網技術領域第一個自主知識產權,到現(xiàn)在百度開發(fā)出了一系列的具有世界水平的信息檢索軟件產品和技術,其中包括互聯(lián)網大搜索技術、百度“網事通”、百度實時信息檢測系統(tǒng)、網站加速CDN等,都取得了相當大的成功。
3.創(chuàng)新技術研發(fā)
百度每年在搜索引擎技術和產品等方面的研發(fā)投入均超過公司年度營收的1/3,此研發(fā)投入比例在國內外企業(yè)中都是罕見的。2008年百度的研發(fā)投入?yún)l達10億元。百度的產品研發(fā)和創(chuàng)新理念是專注于搜索引擎,牢牢扎根于用戶需求,力求為用戶提供最便捷的信息獲取方式。
返回目錄:
編輯推薦:
通信工程師備考資料免費領取
去領取