檔案?jìng)€(gè)性化檢索論文
時(shí)間:2022-05-21 06:02:00
導(dǎo)語:檔案?jìng)€(gè)性化檢索論文一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
編者按:本文主要從個(gè)性化信息檢索與服務(wù);用戶建模技術(shù);用戶模型的建立;用戶模型設(shè)計(jì)進(jìn)行論述。其中,主要包括:目前的檔案檢索系統(tǒng)一般以傳統(tǒng)的關(guān)鍵詞檢索為主、在個(gè)性化檢索中,檢索條目與用戶查詢經(jīng)歷有關(guān)、個(gè)性化信息服務(wù)是既能對(duì)用戶提出的要求提供最貼切的信息服務(wù)、對(duì)用戶的興趣、習(xí)慣、歷史行為等方面進(jìn)行分析從而獲取其個(gè)性化信息、傳統(tǒng)的檢索流程變更為帶著用戶個(gè)性需求查找的過程、用戶信息對(duì)用戶模型的性能是至關(guān)重要的、根據(jù)用戶瀏覽行為的自動(dòng)用戶建模方法構(gòu)建出來的用戶模型只能反映用戶感興趣或不感興趣的信息等,具體請(qǐng)?jiān)斠姟?/p>
論文摘要:本文說明了個(gè)性化檢索技術(shù)的發(fā)展,分析了個(gè)性化檢索的內(nèi)涵和特點(diǎn),提出了用戶興趣模型的建立與更新的方法。個(gè)性化信息檢索是指根據(jù)用戶的興趣和特點(diǎn)進(jìn)行檢索,返回與用戶需求相關(guān)的檢索結(jié)果。
論文關(guān)鍵詞:個(gè)性化信息檢索用戶模型
目前的檔案檢索系統(tǒng)一般以傳統(tǒng)的關(guān)鍵詞檢索為主,這種檢索方式雖然可以在一定程度上滿足用戶的需求,但是由于檢索方式的限制,這種檢索的結(jié)果僅僅是與檢索詞字面意義或某層含義相匹配,對(duì)于用戶所需要的其他的概念和相關(guān)的成分就無能為力了。因此個(gè)性化檢索就成為解決這一問題的有效途徑。個(gè)性化的實(shí)質(zhì)是針對(duì)性,即對(duì)不同的用戶采取不同的服務(wù)策略,提供不同的服務(wù)內(nèi)容。
一、個(gè)性化信息檢索與服務(wù)
個(gè)性化信息是能夠滿足用戶個(gè)性需求的信息。個(gè)性化信息檢索是指根據(jù)用戶的興趣和特點(diǎn)進(jìn)行檢索,返回與用戶需求相關(guān)的檢索結(jié)果。它是一種能體現(xiàn)用戶個(gè)性化特征,滿足個(gè)性化需求,培養(yǎng)個(gè)性化趨勢(shì)的檢索方法。在個(gè)性化檢索中,檢索條目與用戶查詢經(jīng)歷有關(guān),既可以是內(nèi)容檢索,又可利用與其它事件的關(guān)系來檢索,即是以用戶檢索行為為中心的檢索。這也是個(gè)性化檢索與一般文檔檢索的區(qū)別[1]。
個(gè)性化信息服務(wù)是既能對(duì)用戶提出的要求提供最貼切的信息服務(wù),還能依據(jù)個(gè)體個(gè)性特征,主動(dòng)收集個(gè)體可能感興趣的信息,甚至預(yù)測(cè)個(gè)體可能的個(gè)性發(fā)展,提前收集相應(yīng)的信息,最后以個(gè)性化方式顯示給個(gè)體。這里包括兩方面內(nèi)容:個(gè)性化信息和個(gè)性化服務(wù)。個(gè)性化信息是反映個(gè)體個(gè)性特征的一切信息,同時(shí)還包括個(gè)體特定的信息需求組合。個(gè)性化服務(wù)包括服務(wù)時(shí)空的個(gè)性化,服務(wù)方式的個(gè)性化和服務(wù)內(nèi)容的個(gè)性化[3]。對(duì)于這些個(gè)性化服務(wù)首先要建立對(duì)用戶的描述,然后才能據(jù)此提供針對(duì)不同用戶的個(gè)性化服務(wù)。用戶模型是個(gè)性化服務(wù)的基礎(chǔ)和核心[4]。用戶模型作為個(gè)性化服務(wù)的基礎(chǔ)和核心,因此用戶模型的質(zhì)量直接關(guān)系到個(gè)性化服務(wù)的質(zhì)量。只有當(dāng)用戶的興趣、偏好和訪問模式等用戶信息可以很好地被系統(tǒng)“理解”時(shí),才有可能實(shí)現(xiàn)理想的個(gè)性化服務(wù)。從用戶信息中構(gòu)建用戶模型,也就成為了個(gè)性化服務(wù)的核心和關(guān)鍵技術(shù)之一。
個(gè)性化服務(wù)系統(tǒng)中的用戶模型不是對(duì)用戶個(gè)體的一般性描述,而是一種面向算法的、具有特定數(shù)據(jù)結(jié)構(gòu)的、形式化的用戶描述。相應(yīng)的,用戶建模是指從有關(guān)用戶興趣和行為的信息,如瀏覽內(nèi)容、瀏覽行為、背景知識(shí)等,歸納出可計(jì)算的用戶模型的過程[5]。
二、用戶建模技術(shù)
為不同的用戶提供有針對(duì)性的服務(wù),需要對(duì)用戶的興趣、習(xí)慣、歷史行為等方面進(jìn)行分析從而獲取其個(gè)性化信息。對(duì)用戶信息進(jìn)行結(jié)構(gòu)化描述,構(gòu)建反映用戶特點(diǎn)的需求模型,這一過程稱為用戶建模。用戶建模是實(shí)現(xiàn)個(gè)性化檢索服務(wù)的基礎(chǔ)和核心[6]。
不同的用戶各自面臨著互不相同的檢索問題,不加區(qū)分地給不同的用戶提供相同的結(jié)果,必然滿足不了用戶的檢索需求。要提高用戶的滿意度,就要把握用戶的特點(diǎn),建立用戶模型,對(duì)用戶的信息、興趣及歷史查詢行為進(jìn)行管理,對(duì)不同用戶進(jìn)行不同的學(xué)習(xí),這樣就可以針對(duì)特定用戶提供準(zhǔn)確的信息。為用戶建??梢杂行Ы鉀Q不同用戶對(duì)相同提問信息的不同深度和廣度的要求,在加入用戶模型之后,傳統(tǒng)的檢索流程變更為帶著用戶個(gè)性需求查找的過程,同時(shí)反饋流程也將針對(duì)用戶的意見進(jìn)行,以提供更加準(zhǔn)確的檢索服務(wù)。通過建立用戶模型,可以管理用戶的背景信息,在查詢一些跨領(lǐng)域信息的提問時(shí),考慮用戶背景信息,有助于更加針對(duì)性地提供用戶真正關(guān)心的信息。通過用戶模型對(duì)用戶興趣進(jìn)行描述,同時(shí)記錄用戶的查詢行為,對(duì)用戶的查詢歷史和興趣進(jìn)行管理。
一般來說,用戶訪問Internet的過程共包括以下六種信息:
(l)用戶使用搜索引擎查詢時(shí)輸入的關(guān)鍵詞;
(2)用戶維護(hù)的書簽(Bookmark);
(3)用戶瀏覽的頁面;
(4)用戶瀏覽的行為,包括用戶在每個(gè)頁面上的駐留時(shí)間,對(duì)每個(gè)頁面進(jìn)行的操作(如保存、打印頁面、將頁面存入書簽等),鼠標(biāo)和鍵盤的操作及用戶瀏覽網(wǎng)頁時(shí)眼睛的移動(dòng)、表情的變化等;
(5)用戶下載、保存的頁面和資料等;
(6)用戶手工輸入的其他信息。
從理論上說,以上六種信息都可作為用戶建模的信息來源,但用戶信息對(duì)用戶模型的性能是至關(guān)重要的,因此在建模時(shí)要慎重選擇。以下是對(duì)這六種信息的分析。
用戶輸入搜索引擎的查詢關(guān)鍵詞雖可反映用戶的興趣,但它卻不適合單獨(dú)用于用戶建模,因?yàn)橛脩舨樵兊年P(guān)鍵詞一般都比較簡(jiǎn)單,無法來描述用戶的興趣,查詢關(guān)鍵詞是用戶檢索信息的起點(diǎn),但不是檢索信息的全部,因此查詢關(guān)鍵詞對(duì)用戶興趣與意圖的反映并不全面。
書簽(Bookmark)能較好地反映用戶的興趣,這是因?yàn)?,用戶?huì)把感興趣的或重要的頁面保存在書簽(Bookmark)中,但是相對(duì)于用戶瀏覽的頁面來說,書簽(Bookmark)中的頁面數(shù)是相當(dāng)少的,并且用戶并不一定會(huì)把自己感興趣的都保存在書簽(Bookmark)中,因此書簽(Bookmark)構(gòu)建的用戶模型也不能夠全面地反映用戶的興趣。
用戶瀏覽的頁面可以全面地反映用戶的興趣,用戶瀏覽的頁面由系統(tǒng)自動(dòng)保存,可實(shí)現(xiàn)自動(dòng)用戶建模。缺點(diǎn)是用戶瀏覽的頁面中可能包含用戶不感興趣的頁面,因此在使用用戶瀏覽頁面內(nèi)容構(gòu)建用戶模型時(shí)應(yīng)避開噪聲頁面。
用戶瀏覽行為可以反映用戶的興趣,如用戶保存某個(gè)頁面,或者在某個(gè)頁面上駐留的時(shí)間較長,說明用戶對(duì)該頁面感興趣。但在建模時(shí)由于瀏覽行為對(duì)用戶興趣的體現(xiàn)需要以瀏覽頁面為載體,因此用戶的瀏覽行為必須與瀏覽頁面相結(jié)合才能構(gòu)建用戶模型。
用戶下載、保存的頁面資料等也能較好地反映用戶的興趣,因?yàn)橹挥杏脩粽J(rèn)為感興趣或重要的文檔,用戶才會(huì)下載和保存,這些經(jīng)用戶保存、整理的文檔能夠反映用戶長期關(guān)注的主題,這種信息為用戶的背景知識(shí)。
用戶手工輸入的有關(guān)用戶興趣特點(diǎn)的信息也可作為用戶建模的數(shù)據(jù)來源之一,如用戶感興趣主體的關(guān)鍵詞、對(duì)瀏覽頁面的感興趣程度等,在自動(dòng)用戶建模技術(shù)尚不成熟的情況下,用戶手工輸入的信息是用戶建模的重要來源。
綜上所述,在以上六種信息來源中,用戶瀏覽的頁面和瀏覽行為最能全面地反映用戶的興趣;用戶的Bookmark和保存整理的文檔雖不能全面地反映用戶的興趣,但能很好地反映用戶關(guān)注的信息;用戶輸入搜索引擎的查詢關(guān)鍵詞不宜單獨(dú)用于用戶建模。
一般常用的用戶建模是指根據(jù)用戶的瀏覽內(nèi)容和瀏覽行為自動(dòng)構(gòu)建用戶模型、建模時(shí)無需用戶主動(dòng)提供信息的一種建模方法。根據(jù)用戶瀏覽行為的自動(dòng)用戶建模方法構(gòu)建出來的用戶模型只能反映用戶感興趣或不感興趣的信息,得不到用戶具體感興趣的主題,其實(shí)質(zhì)是一種粗興趣粒度用戶模型。另一種自動(dòng)用戶建模的思路是根據(jù)用戶瀏覽的內(nèi)容進(jìn)行興趣聚類,找出用戶的興趣,構(gòu)建用戶模型。通過興趣聚類可以得到用戶模型的細(xì)興趣粒度表示。在現(xiàn)有的用戶建模方法中,用戶的瀏覽行為僅能得到用戶對(duì)相應(yīng)信息感興趣與否的推斷,得不到用戶感興趣的程度,而用戶對(duì)相應(yīng)信息的感興趣程度有助于得到用戶對(duì)關(guān)鍵詞和興趣主題的感興趣程度,從而建立更為詳細(xì)、準(zhǔn)確的用戶模型,也有利于實(shí)現(xiàn)高性能的用戶模型的遺忘與更新,提供更高質(zhì)量的個(gè)性化服務(wù)。
三、用戶模型的建立
在信息檢索系統(tǒng)中,一個(gè)用戶模型的建立過程涉及到以下內(nèi)容:
(1)用戶興趣的表示:就是以何種形式來表征用戶的興趣。為了便于進(jìn)行信息匹配算法,用戶的興趣通常與資源表示具有同樣或相似的形式。其次,一個(gè)用戶可能有多個(gè)興趣可能同時(shí)存在,那么就需要在模型中將多個(gè)興趣同時(shí)表達(dá)出來。
(2)用戶模型的更新:就是采用何種算法更新用戶模型。在信息檢索系統(tǒng)中,就是如何根據(jù)用戶的反饋信息更新用戶的興趣。
(3)信息過濾算法:就是如何根據(jù)用戶模型對(duì)未過濾的信息進(jìn)行匹配,判斷是否符合用戶需求的算法。過濾算法與資源表示、用戶興趣的表示密切相關(guān)。
用戶興趣模型是指對(duì)于用戶感興趣的信息的可計(jì)算描述,是所有其它智能化功能的基礎(chǔ)。一般用戶興趣模型采用詞頻法,其中的用戶興趣用二元組表示(興趣詞條、興趣權(quán)重),在詞頻中考慮到各個(gè)詞條在文檔中的不同位置,體現(xiàn)了詞條的不同重要度;以及各文檔在網(wǎng)頁超鏈關(guān)系中引用與被引用情況,又體現(xiàn)了文檔的不同重要度等因素。
用戶興趣的生成與更新算法是整個(gè)用戶興趣模型的核心內(nèi)容。假設(shè)用戶輸入的檢索詞條經(jīng)過詞干提取(對(duì)中文還有詞條切分)等預(yù)處理技術(shù)之后為q(q1,q2,…,qk),在初次檢索之后,返回一些查詢結(jié)果,得到一組頁面D(d1,d2,…dn)。首先計(jì)算詞條qi的權(quán)值wi,我們采用詞頻法,即計(jì)算詞條qi在文本D(d1,d2,…dn)中出現(xiàn)的頻度sij,j=1,2,…n,這些頻度的總和來作為詞條的權(quán)重,即wi=,這樣我們就得到兩個(gè)向量q(q1,q2,…,qk)和w(w1,w2,…wk),將興趣二元組(q,w)加入到用戶詞典中。用戶詞典是由詞條和權(quán)重組成的二元組的集合。
四、用戶模型設(shè)計(jì)
基于用戶模型設(shè)計(jì)的信息檢索系統(tǒng)與一般的信息檢索系統(tǒng)的最大區(qū)別在于對(duì)從用戶界面接收的用戶查詢,將首先利用用戶模型予以分析,同時(shí)結(jié)果的匹配、過濾也需要基于用戶模型進(jìn)行。通過學(xué)習(xí)機(jī)制以及推理機(jī)制,一方面學(xué)習(xí)了用戶在信息需求上的偏好,另一方面,也可以對(duì)用戶需求進(jìn)行推導(dǎo)、歸納。
【參考文獻(xiàn)】
[1]趙靜.個(gè)性化信息檢索及功能模型.圖書與情報(bào),2004(l).
[2]應(yīng)曉敏等一種面向個(gè)性化服務(wù)的無需反例集的用戶建模方法.國防科技大學(xué)學(xué)報(bào),2002(3):67-71
[3]杜春光.個(gè)性化信息服務(wù)的模式研究及策略分析[J].國家圖書館學(xué)刊,2005;(2):63-66..
[4]張玉峰等.基于Agent的個(gè)性化信息服務(wù)模型研究[J].情報(bào)學(xué)報(bào),2001,20(5):555-559.
熱門標(biāo)簽
檔案鑒定 檔案管理論文 檔案信息化論文 檔案論文 檔案工作計(jì)劃 檔案利用 檔案專業(yè)論文 檔案編研 檔案委托管理 檔案工作報(bào)告 心理培訓(xùn) 人文科學(xué)概論