個性化推薦范例6篇

前言:中文期刊網精心挑選了個性化推薦范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。

個性化推薦

個性化推薦范文1

[關鍵詞]個性化;推薦算法;協同過濾

doi:10.3969/j.issn.1673 - 0194.2015.08.059

[中圖分類號]TP301.6 [文獻標識碼]A [文章編號]1673-0194(2015)08-0078-02

由于網絡數據正在快速的發展,人們能夠接觸到的海量的信息,例如,擁有數百萬種獨特商品的亞馬遜,在Google Music曲庫中,有上千萬首歌曲,淘寶在線商品數量達到8億件以上,騰訊微信用戶以及新浪微博用戶都超過5億以上,這些用戶很難在海量的信息中找到自己喜歡的信息,也就是所謂的“信息過載(information overload) ”的問題,而推薦系統和搜索引擎是解決此問題的關鍵技術,和搜索引擎相比較,用戶更喜歡使用個性化的推薦系統,這是由于個性化推薦系統能夠主動的對用戶瀏覽過的日志、注冊的信息以及歷史評分記錄等方面進行分析,從而找出用戶更感興趣的項目特征,然后對用戶感興趣的信息進行私人定制,根據用戶項目信息和用戶需求,對推薦的內容和信息的變化進行及時的調整,實現“以用戶為中心”的服務。對個性化推薦算法進行設計,能夠有效的解決當前信息過載的問題,讓用戶更快捷、方便的進行對信息的搜索和瀏覽。

1 個性化推薦系統的概念

個性化推薦系統主要根據用戶喜好特點以及擁有的購買行為,從而自動的推薦用戶有興趣的商品或者是信息。這種系統的出現是由于電子商務規模的擴大,使商品數量以及信息等都在上漲,用戶在這種情況下,需要用大量的時間才能夠找到自己喜歡的信息,因此,為有效的解決這個問題,個性化推薦系統就此誕生。也就是說,個性化推薦系統是一個擁有在大量數據中挖掘的能力,從而形成的高級智能商務平臺,能夠幫助電子商務網站為顧客提供的完全個性化的信息服務以及決策支持。如圖1所示。

2 個性化推薦算法的分類

推薦系統是利用信息源給用戶進行預測和項目推薦,在整個過程中,具有重要的作用。根據信息的不同。比如,信任度、標簽、人口統計信息等,以及對評價指標的考慮。

2.1 基于內容的推薦算法

這種推薦法也稱為基于內容的信息過濾推薦(content-based recommendation),基于內容的推薦算法不需要用戶對推薦對象給予評價,但是要把推薦對象的特征進行抽取出來,從用戶以前所選擇的對象內容去感應用戶的偏好,然后用于偏好相似的對象推薦給用戶。其效用函數( u,c)可表示為f( u,c) = score( ContentBasedProfile(u) ,Content(c))。Score 可以用二者的余弦相似度進行計算。最后用所得到的函數值對其進行排序,將最前面的項目當做推薦對象。該算法的推薦結果雖然符合用戶的喜好,但是缺乏新穎度。

2.2 協同過濾推薦算法

該算法是根據系統里其他用戶的歷史數據或者評分記錄(比如,亞馬遜用戶購買商品的記錄),協同過濾推薦( collaborative filtering recommendation)是當今最為流行的一種算法,目前,主要的協同推薦技術有兩種,一種是基于模型的協同推薦,一種是基于內存的協同推薦,基于模型的協同推薦是通過歷史數據預測模型,然后通過模型參與評分預測,后者是使用歷史記錄數據進行的預測模型,它們的不同是由于客戶的偏好。

2.2.1 基于模型的推薦算法

項目數量及用戶規模的增長,致使出現數據集稀疏的問題愈加嚴重,比如,Netflix的影評數據集就缺失大約99%的數量,因此,基于內存的協同算法要將大規模的增長,而且,由于數據出現稀疏的現象,推薦結果的質量就會產生下降的趨勢?;谀P偷耐扑]算法( model-based collaborative filtering),其中心思想就是利用客戶的評分結構進行評分預測模型,從而使用了數據挖掘計算模型和多種計算學習,通過模型實現對評分的預測。

2.2.2 基于內存的協同推薦算法

根據對基于內存協同推薦的考慮角度的不同,可以將其分為基于用戶( User-based) 和基于項目 ( Item-based) 的協同推薦。基于內存的協同推薦( memory-based collaborative filtering)也叫做啟發式的協同推薦,能夠對用戶的歷史數據進行分析從而提供預測結果,比如,用戶-影評矩陣。在 User-based 模型中,用戶間相似度能夠選擇不同的相似度函數來計算。

3 個性化推薦算法常用的數據集

3.1 Netflix 數據集

這種數據集主要是來自電影網站的Netflix,這個網站有480 189位用戶對17 770部電影進行了共有100 480 507條的評分記錄,數據區間為[1,5]的離散整數值,與MovieLen 評分有所不同,Netflix目前是全球規模最大的電影評分數據集,但由于該比賽已經結束,因此,該數據集目前已不對外開放。

3.2 騰訊微博數據集

在2012年,由于數據挖掘與知識競賽(KDD-Cup),因此,騰訊微博數據集形成,此數據集是在騰訊4.25億微博用戶中,經過50天的數據采樣得到的。該數據集有6 000萬信息員或被推薦用戶、300多萬收聽動作和3億多條推薦記錄,該數據集的規?,F已超過原來的 KDD Cup比賽。

3.3 Yahoo! 音樂數據集

該數據集主要包含了用戶對專輯、單曲、歌手等不同音樂元素進行評分,對于評分的區間是0-100之間的證書,一共涉及624 961個音樂元素,1 000 990 個用戶,262 810 175條評分記錄。

3.4 CiteULike 數據集

該數據集是由施普林格出版社( Springer)提供協助用戶管理、存儲及分享學術文章的網站,用戶可以根據自己感興趣的論文,給它們打上標簽,從而可以在專門的地方查找到,并且還能夠為其他選擇論文的朋友提供依據。CiteULike 公布了包含給論文打標簽和收藏論文的數據集,其中,這個數據集有1 793 954篇論文、52 689個用戶和2 119 200個用戶與論文間的關系。

4 結 語

個性化推薦在電子圖書、電子商務等領域被廣泛的應用著,隨著個性化推薦系統的不斷的變化,推薦算法逐漸暴露出越累越多的缺點,有待解決。因此,對個性化推薦算法設計進行研究,不僅能夠實現完善個性化推薦系統,同時還能夠促進企業的可持續發展,進而為社會做出貢獻。

主要參考文獻

[1]趙亮,胡乃靜,張守志.個性化推薦算法設計[J].計算機研究與發展,2012(8):986-991.

個性化推薦范文2

    .1 文獻標識碼:A 文章編號:1001-828X(2012)08-0-01

    一、個性化推薦

    1.定義。隨著電子商務規模的逐漸擴大,網上商品的種類和數量也快速增長。商品不斷豐富,顧客購物選擇的余地大大擴展,但顧客往往需要花費大量的時間才能找到合適的商品。這種瀏覽大量無關信息和商品的過程無疑會給消費者帶來極大的不便,從而可能造成客戶流失。為了解決這些問題,個性化推薦系統應運而生。個性化推薦是根據用戶的資料信息、興趣愛好和以往購買行為,向用戶推薦其可能感興趣的信息和商品。個性化推薦系統是建立在海量數據挖掘基礎上的一種高級商務智能平臺,以幫助電子商務網站為其顧客購物過程提供完全個性化的決策支持和信息服務。

    2.個性化推薦的作用。成功的個性化推薦系統,向用戶推薦他們感興趣的商品,從而促成交易,即將電子商務網站的瀏覽者轉變為購買者;在用戶購買過程中向用戶推薦自己確實需要但在購買過程中沒有想到的商品,有效提高電子商務系統的交叉銷售;為用戶提供個性化的推薦服務的同時,與用戶建立長期穩定良好的關系,從而有效保留客戶,提高客戶的忠誠度,防止客戶流失。

    3.知名購物網站中個性化推薦應用。淘寶網站為例,在登錄已買到的寶貝頁面,除了可以查看到用戶購物歷史記錄,還有推薦內容,如:“您可能對這些寶貝感興趣”;購物車頁面的推薦,如:“您可能感興趣的寶貝”“猜你喜歡的”。

    當當網為例,網站商有個性化推薦模塊網站上有專門欄目“猜你喜歡”,點擊進入,再分為“您可能感興趣的商品”“和您興趣相似的顧客還關注”;在已購商品頁面,有推薦“根據您購買的商品,當當猜您會喜歡”。

    進入卓越亞馬遜網站,提示用戶“您好,請登錄以獲取為您訂制的推薦”。

    二、個性化推薦系統主要算法

    完整的推薦系統由3個部分組成:收集用戶信息的行為記錄模塊、分析用戶喜好的模型分析模塊、推薦算法模塊。其中,推薦算法模塊是最核心的部分。根據推薦算法的不同,推薦系統可以分為如下幾類:

    1.關聯規則推薦。關注用戶行為的關聯模式。如買了香煙的人大多會購買打火機,因此可以在香煙和打火機間建立關聯關系,通過這種關系推薦其他產品。這種算法最為簡單直接,往往也會把用戶理解的過于簡單,是不太智能的算法,所以這種算法基本被淘汰了,只有少數小規模購物網站還是這種推薦模式。

    2.協同過濾推薦。利用用戶的歷史信息,計算用戶之間的相似性;利用與目標用戶相似性較高的用戶對其他產品的評價來預測目標用戶對特定產品的喜好程度;根據喜好程度來對目標用戶進行推薦。協同過濾又可分為兩種:基于用戶的協同過濾和基于商品的協同過濾。

    基于用戶的協同過濾是第一代協同過濾技術,原理也很簡單:人以群分,即在網站上購買相同商品的消費者應該有相似的興趣偏好。系統找出這些有相同商品購買記錄或瀏覽記錄的用戶,然后把他們還沒購買的商品相互推薦,如把用戶A買過、但用戶B還沒有購買的商品推薦給B,反之亦然。當然,在實際推薦應用中,系統會找到與A相似的多位用戶,將那些A未購買而其他人已經購買的商品,計算概率,再進行排序,最后把排名靠前的商品推薦給A。

    基于商品的協同過濾,是目前使用最多的個性化算法。因為大型的購物網站,其用戶數量遠遠大于商品數量,使用基于用戶的個性化算法會造成很多問題。相應的,基于商品的協同過濾技術的原理:物以類聚,系統先判斷哪些商品之間有潛在關聯,再根據用戶的購買記錄,把關聯度高的商品推薦給用戶。比如“啤酒-尿布”看似風牛馬不相及的商品,如果在銷售記錄中同時出現的頻率越高,說明商品的潛在關聯就越強,就可以向用戶推薦。

    協同過濾算法可以發現用戶潛在的興趣偏好,從而為其推薦新信息;能推薦難以進行內容分析的產品;但由于是基于用戶對產品的評分,所以對新用戶進行推薦或者是對用戶推薦新產品,精度不高。

    3.基于內容的推薦。基于內容的推薦是協同過濾技術的延續與發展。分別對用戶和產品建立配置文件;比較用戶與產品配置文件的相似度;推薦與其配置文件最相似的產品。如,在商品CD推薦中,基于內容的系統首先分析用戶買過的打分較高的CD的共性(歌手、風格等),   再推薦與這些用戶感興趣的內容相似度很高的其他CD?;趦热莸耐扑]算法根本在于信息獲取和信息過濾。 基于內容的推薦算法能處理新用戶、新產品的問題(冷啟動);能推薦新產品和非流行產品,發現隱藏信息;但是如果兩個不同的產品恰好使用了相同的描述詞,這兩個產品就無法區分;而且如果系統只推薦與用戶的配置文件高度相關的產品

    ,那么推薦的只是與用戶之前購買過的產品相似度很高的產品,無法實現推薦的多樣性。

    4.基于網絡結構的推薦。要先建立用戶—產品二維關聯網絡。把用戶和產品的內容特征看成抽象的節點,所有算法利用的信息都藏在用戶和產品的選擇關系中。對于任意目標用戶A,假設A選擇過所有的產品,每種產品都具有向A推薦其他產品的能力,把所有A沒有選擇過的產品按照他喜歡的程度進行排序,把排名靠前的推薦給A。

    基于網絡結構的推薦同樣面臨著新用戶新產品的問題。而且如果把用戶與產品的所有關聯關系都考慮在內,無法區分出長期興趣和短期興趣點,大大降低推薦準確度。

    5.混合推薦。上述幾種方法的有機結合,實際的推薦系統中最常見的是基于協同過濾和基于內容的結合。

    三、個性化推薦技術的新應用

    一般情況下,網站針對已注冊用戶根據用戶信息或購買記錄進行推薦。同時,個性化推薦還應該考慮到匿名購買者,也就是購買者不需要注冊或者登錄也能使用個性化推薦功能。這類技術的實現要選擇合適的匿名用戶行為特征識別方法,如服務器端日志挖掘技術和客戶端信息采集技術等,從而實現對此類用戶的個性化推薦。

    針對用戶存在多興趣或興趣發生轉移情況,一些網站提出了基于項目相似性的鄰居用戶協同推薦算法。該算法改進了傳統協同過濾算法,使之適合用戶多興趣下的個性化推薦。

    個性化推薦最熱門應用就是將推薦和社會網絡結合起來,把社會網絡加入個性化推薦系統,借助顧客的朋友、家人的評分信息來進行推薦產品。它讓顧客的朋友和家人做“導購”,把他們買的而且評分較高產品推薦給顧客。

    參考文獻:

    [1]劉洋.面向電子商務網站的個性化推薦系統[J].中小企業管理與科技(上旬刊),2012(01).

個性化推薦范文3

關鍵詞:協同過濾;基于用戶;基于物品;相似程度

一、協同過濾推薦的研究現狀

首先了解一下推薦系統,比較普遍認可的定義是Resnick和Varian在1997年[1]提出的:“它是利用電子商務網站向客戶提供商品信息和建議,幫助用戶決定購買什么產品,模擬銷售人員幫助客戶完成購買過程。”而協同過濾是推薦系統中最常見也是最廣泛應用的推薦方法。Grundy書籍推薦系統[2]是公認的第一個對協同過濾應用的系統。還有Tapes-try郵件處理系統[3],Ringo[4]等。Sarwar等[5]提出的利用夾角余弦來計算產品的相似程度。Chen和Cheng[5]通過觀察不同產品在用戶的列表次序來計算用戶與用戶的相似程度.而Yang和Gu[7]利用建立用戶的興趣點來計算用戶與用戶間的相似程度。

二、協同過濾推薦的主要思想

協同過濾推薦的思路可以說是來源于生活。通過在生活中購買產品你會發現一些有趣的現象。比如說,人們總是更傾向于相信來自熟人的推薦,在你的朋友圈內,很多朋友都在使用同一種產品,那么你就也會很大程度有意的選擇此產品。另外就是,在你對某種產品感興趣時,當你發現有和你感興趣的這種產品類似的產品,與此同時,其他購買者對這種產品的體驗良好,那么你也很可能會購買這種商品。協同過濾的主要思想可以分成兩個部分:一是通過分析用戶以往的購買或者選擇信息,來計算用戶之間的相似程度,通過相似程度高的用戶可以說是近鄰對一個產品或信息的偏好來預測目標用戶的對此產品或信息的偏好程度。二是通過分析對用戶以往對某類產品的評價情況來預測該用戶對此類中新產品的偏好程度,及計算以往評價過的產品與要推薦產品間的相似度。

協同過濾推薦主要有兩種,一個是基于User的,另一個是基于iterm的。

1、基于用戶的方法主要是尋找與目標用戶相似的用戶,認為有相似偏好的用戶可能對某個產品或信息有相似的評價。通過利用相似近鄰的偏好程度來進行對目標用戶的評價的預測。比如說有三部電影《饑餓游戲》《千與千尋》《分手大師》。A下載了《饑餓游戲》,播完了《千與千尋》,沒播完《分手大師》。B多次觀看《饑餓游戲》,播完《千與千尋》,沒看《分手大師》。C下載了《分手大師》,沒看《饑餓游戲》,沒播完《千與千尋》。那么可以看出來A與B很相似,那么再出現一個電影《變形金剛》,A是多次觀看,那么應該把變形金剛推薦給B而不是C。關于這個用戶之間相似程度的計算,可以通過對電影的評分機制進行量化,然后利用夾角余弦來計算用戶之間的相似程度。設用戶i和用戶j在n維對象的空間上的評分向量為i,j,那么計算cos(i,j)的公式為:

cos(i,j)=i?j|i|*|j|

若兩個用戶的夾角余弦值相近,則可認為他們是相似用戶。

關于相似程度的計算還可以通過皮爾森相關系數和修正余弦函數相似性等很多方法。

2、基于物品的方法主要首先是計算物品與物品之間的相似程度,然后結合用戶以前的購買評價過的物品或選擇行為,最后對用戶進行某種新物品的推薦。比如說A喜歡看《分歧者》,《復仇者聯盟》,《超體》。然后有兩部電影《何以笙簫默》和《敢死隊》??梢院苊黠@的看出可以向A推薦《敢死隊》?;谖锲返南到y過濾在計算物品的相似度時,也是可以通過評分量化,很多時候也是可以加入tag技術,對物品打標簽,做標簽矩陣。比如A喜歡的電影中《分歧者》是有動作,愛情,科幻三個標簽,每個標簽的權重不一樣可以按0到1之間的分值設定。然后同理其他電影,最后通過量化計算相似度發現《敢死隊》更符合推薦。關于tag矩陣也可以是0-1矩陣。關于計算相似程度與(1)中提到過的方法類似。

三、協同過濾推薦的優缺點

協同過濾的優點有:

1、可以進行過濾復雜性的,機器難以進行提取有效自由文本的信息,如音樂,圖像等藝術類信息。

2、相對容易給用戶制造驚喜。與基于內容的推薦不同,推薦給用戶的物品內容可能是用戶不太熟悉的內容,很可能發現用戶潛在的喜好但用戶本身卻沒有意識到的。

3、用戶的不斷增加,協同過濾推薦系統的性能也會增高。

協同過濾的缺點:

協同過濾推薦算法的典型缺點就是稀疏性問題和冷啟動問題。冷啟動問題就是,當有新用戶進入時,由于沒有歷史行為數據而無法對其偏好進行判斷,因此對其進行推薦。同樣當有新物品進入系統時,由于沒有用戶對其評價過,它就得不到推薦。

四、總結

個性化推薦服務實質就是有效率有針對性的解決大量數據的問題,推薦算法在一定程度上實現了這個問題,可是現實生活中,并不是一個算法,而是好幾種類型的推薦算法混合運算,最后得出的推薦結果才能比較令人滿意,也會比單一算法精確很多。關于推薦系統性能的評價指標最典型是精確度和推薦效率這兩個指標。其中衡量精確度可以是平均平方誤差,平均絕對誤差和標準平局誤差等。個性化推薦沒必要非得追求完全精確,因為本身推薦的內容就無法保證用戶百分之百的感興趣,但是還是要努力不斷追求精確度,這樣才能發揮其自身解決超載問題,給用戶提供感興趣物品或信息的價值。網易云音樂作為音樂行業的后起之秀,在個性化推薦方面做的相當不錯,很多用戶反應網易云音樂的個性化推薦總是給人驚喜,雖然網易沒有在這方面給出過多的介紹,但是不難看出,他們公司非常注重這個方面的功能板塊。因此對這個時代而言,不僅僅是對電子商務方面,個性化推薦的價值以及意義都是非常重要的。(作者單位:河北大學)

參考文獻:

[1] Resinick P,Varian H R.Recommender systems[J].Communications of the ACM,1997,40(3):56-58.

[2] Rich E.User modeling via stereotypes.Cognitive Science,1979,3(4):329―354.

[3] Goldberg D,Nichols D,Oki BM,et al.Using collaborative filtering to weave an information m ACM,1992,35(12):61―70.

[4] Shardanand U,Maes P.Social information filtering:Algorithms for automating`Word of Mouth'.Proc Conf Human Factors in Computing Systems Denver,1995:210―217.

[5] Sarwar B,Karypis G,Konstan J,et al.Item-based collaborative filtering recommendation algorithms.Proc 10th Int' l WWW Conf,Hong Kong,2001:1―5.

個性化推薦范文4

[關鍵詞] 個性化 電子商務 信息推薦

一、引言

現代電子商務技術的快速發展,給人們的生活和生產帶來了深刻的影響。大量傳統的商品交易行為和過程都開始并持續的向網絡上轉移。應該說,這種改變絕非一種僅僅形式上的改變,同時,也催生了很多新的交易方法和規則,如近年來諸如淘寶店面之類的新型創業模式等。然而,正如所有的網絡應用一樣,現代的電子商務技術也面臨著很多挑戰,其中比較明顯的問題就是信息過載。由于電子商務網站數量眾多,內容也可以達到幾乎無限大的規模,顯然這是傳統商業模式所無法提供的。但與此相對的是,在網絡環境下,客戶卻常常面對著海量的信息資源,無法在有限的時間內獲取和了解到自己所想要的有效內容,這在很大程度上影響了客戶使用電子商務站點的信心。近年來,人們對此進行了大量的研究和探索。隨著個性化推薦技術的出現和發展,在電子商務站點中使用此技術將有助于上述問題的改善。

二、個性化推薦技術

個性化推薦技術通過一種類似于一對一營銷式的營銷戰略技術,可以對電子商務站點的內容和服務進行自動化的大規模定制,以適應不同客戶的個性化要求。在過去的幾年中,個性化推薦技術越來越受到人們的關注,不同的學者往往給出并不一致的定義。如有人認為個性化是一種能力,這種能力可以根據從客戶偏好和行為特征中提取到的知識來對客戶提供定制化的服務和內容;也有人認為個性化綜合使用了網絡技術和客戶信息,而這些信息包含已收集來的信息和實時產生的信息,有針對性的定制商業站點以適應客戶的交互行為,這會有效的降低交易的處理時間和讓客戶得到更為滿意的產品;還有的學者認為個性化是根據已有的偏好知識和交易活動中的行為,定制交流方法的一種能力,也就是說,個性化通過建立一種一對一的有義聯系,理解客戶的個別需求,幫助實現在特定的環境下準確和豐富的表達客戶需求特征,從而增強客戶的忠誠度。綜上所述,雖然定義角度略有不同,但是所闡述的觀點都是一致的,即個性化推薦技術是一種促使客戶訪問Web站點的體驗更偏向于客戶喜好的技術。

二、CtoC電子商務站點中個性化推薦技術特點

與其他諸如BtoB等類型的電子商務站點相比,CtoC電子商務站點中的Web用戶行為特征具有較為明顯的區別,造成這種區別的主要原因在于CtoC電子商務站點用戶并非專業買家或者賣家,因此不論是從商品信息的質量,還是交易過程的完成,都有自己的特殊性?;谶@種原因,在使用CtoC電子商務站點中Web個性化推薦技術的時候,必須要充分考慮這些用戶行為因素,來選擇合適和有效的技術實現方法。

結合CtoC電子商務站點用戶的諸多行為特點,該種類型站點所能采用的Web個性化推薦技術應該有如下幾個特點:

一是該種Web個性化推薦技術必須可以為匿名購買者提供推薦內容,購買者不需要注冊或者登錄也能使用個性化推薦功能。從交易過程來看,CtoC電子商務站點所面對的Web用戶群往往都是各個非專業的大型商業實體,其中很大的一部分群體都是一般的小型商家和普通消費者,通過這種類型的CtoC電子商務站點,這些用戶可以直接進行線下交易。具體來說,賣方用戶必須是注冊用戶,并需要向該站點提供自己的聯系信息,同時他們還可以所要銷售的商品信息。而買方用戶則不需要一定注冊,事實上,為了方便用戶使用,很多站點都允許匿名用戶瀏覽選擇所需商品。他們只需查詢這些商品的信息,并選擇所需的商品。一旦選擇到合適的商品,買方用戶就可以根據賣方用戶所提供的信息直接與賣方用戶取得聯系。為此,在CtoC站點中使用個性化推薦技術的時候,一定要選擇合適的匿名用戶行為特征識別方法,如服務器端日志挖掘技術和客戶端信息采集技術等,從而實現對此類用戶的個性化推薦功能。

二是該種Web個性化推薦技術應該使用圖片等多媒體信息和關鍵詞結合的推薦內容。在具體推薦過程中,對于這些不同的圖片信息可以通過所在網頁的URL來惟一確定。從商品的信息來看,賣方用戶可以的信息往往是包括圖片和關鍵詞在內的一些商品信息,其中,圖片所包含的信息相對真實性較強,買方用戶可以直接根據圖片內容獲知對商品的喜好程度,但是圖片本身并不易于檢索,買方用戶在搜索所需商品時,很難直接定位所需商品的圖片,相反,買方用戶一般都是通過站點所提供的瀏覽界面來逐次查看,因此,單獨利用圖片信息就會缺乏有效的快速檢索方法。所以,賣方用戶往往需要同時提供銷售商品的關鍵詞信息,它通過幾個簡潔的文字來標明商品的重要特征,而且買方用戶可以直接利用這些關鍵詞進行快速搜索。但是,由于賣方用戶的非專業性特點,或者由于某種主觀因素的影響,賣方用戶可能并不能或者不愿提供準確的關鍵詞信息,這就造成關鍵詞查詢所產生的一個問題,那就是買方用戶通過關鍵詞雖然可以快速搜索到所需商品,但是,仍然需要進一步通過圖片或者更為詳細的文字說明來確定該商品是否滿意。所以,將這兩方面結合,可以給用戶提供更為準確的推薦內容。

三是該種Web個性化推薦技術只負責內容推薦,不負責輔助交易行為的完成,甚至都無法實現主動推送功能。由于大部分CtoC站點的買賣雙方都沒有完善的網絡交易渠道,真實的貨款和商品交易往往都不在該站點上進行,站點只是一個溝通的媒介。所以,在提供個性化推薦內容時,站點并不需要事實上也不可能采用信息推送的推薦方法來向用戶信息,更多的實際情況是在用戶瀏覽商品信息時,站點能夠在瀏覽頁面上向當前用戶展示推薦的商品信息內容。值得注意的是,近年來隨著網絡技術的快速發展,電子商務平臺也越來越多的開始集成在線支付等電子業務,如阿里巴巴的支付寶等。

除此以外,CtoC電子商務站點中Web個性化推薦技術還需考慮很多其他因素,比如由于每種個性化推薦技術都存在一定的局限性,所以可以綜合運用多種個性化技術來處理不同的推薦內容和方法,以達到更好的推薦效果等。

三、發展與展望

首先,從用戶興趣模式表達上看,未來的發展趨勢之一就是結合語義智能分析。用戶個性化推薦技術的關鍵內容在于準確和有效的表達用戶興趣模型,并基于此模型來計算與推薦客體的相關度,因此,如何有效和準確表達用戶的個性化特征成為所有個性化推薦方法的基礎和重要影響因素。目前,常見的方法主要分為兩大類:一類是基于關鍵詞表達(Keyword-based)的用戶興趣模型,這種方法出現較早,簡單易行,它主要使用與當前用戶個性化特征相關的關鍵詞序列來表達用戶興趣模型;另一類是基于語義表達(Semantic-based)的用戶興趣模型,該方法在基于關鍵詞表達的方法之上,利用詞語概念和彼此之間的語義聯系來構造較為完整的語義層次模型或者語義網絡模型。由于該方法可以更好的處理一詞多義和多詞一義的各種語言現象,所以近年來逐漸受到學者的廣泛關注。對于如何表達這種語義特征,伴隨著用戶本體理論的研究和發展,很多學者都嘗試使用XML數據結構來表達用戶個性化信息,并以此來構造語義信息更為豐富的用戶興趣模型。

其次,從個性化推薦技術的應用領域看,目前的個性化推薦技術主要應用于Web站點之中。此時,在個性化服務中起到基礎作用的用戶興趣模式卻往往分散于各個Web應用系統中,雖然每個Web站點都會給自己的用戶提供和存儲相應的用戶興趣模式,但是這種用戶興趣模式卻不能共享于其他相關的應用領域,所以用戶往往需要不斷的維護在各個Web站點上的不同興趣模式,這顯然增加了用戶的使用成本。由此,用戶對自己的興趣模式難以形成十分確切的概念,也難以在用戶心中形成一個統一的印象,更難以讓用戶對自己的興趣模式進行有效的控制。事實上,已有的一些系統已經開始對此進行研究,通過制定標準來允許用戶對自己的個性化興趣模式進行有效的管理。近年來隨著移動設備的快速發展,個性化服務的范圍也逐漸擴大到移動網絡服務中,這種方式被稱為便攜式個性化信息服務(Portable Personalization Information Service)。通過與移動設備的有效結合,并在各種移動終端設備上存儲相關用戶興趣模式信息,才能更有效的發揮這種用戶模式的復用性。如有的系統使用一種被稱為“簡化卡(Simplicity Card)”的智能體,其中存儲有用戶的興趣模式信息和個人數據,同時可以和移動設備結合起來,很多用戶將這種智能體看成是一種個人標志,并且認為它極大的擴展了用戶自身。所以,這種新型的便攜式個性化推薦服務開始逐漸成為現實。對于CtoC電子商務站點而言,這顯然是一個發展潛力很大的空間。

參考文獻:

[1]Schafer, J. B., J. A. Konstan, and J. Riedl. E-commerce recommendation applications

Data Mining and Knowledge Discovery, 5(1/2):115~153, 2001

[2]馬 麗:電子商務個性化推薦技術分析及比較[J].計算機系統應用,2008,(12)

[3]Adomavicius,Tuzhilin. Personalization technologies: A process-oriented perspective[J].Communications of the ACM,48,10(2005)

[4]Personalized Gifts and Personalized Gift Ideas from Personalization Mall. 省略/, 2005~3~24

個性化推薦范文5

關鍵詞:搜索引擎;推薦;系統

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)22-5370-03

基于社會計算的個性化推薦系統的搜索引擎是系統開發的一個重要環節,該搜索結果質量直接關系到系統的性能,從而直接影響到系統的整體性能。本系統中解析的文檔類型以html文檔為主,采用Lucene搜索引擎,獨立于運行平臺的方式,實現了文檔的解析和索引的創建。

1 Lucene搜索引擎簡介

1) Lucene

Lucene 是一個出色并且是開源的全文搜索引擎。他并不是一個完整的全文檢索應用,但是它提供了大量的 API ,可以方便能夠高效快捷地地對全文創建索引,最主要的是,他可以對現有的在各種各種的系統增加全文檢索的功能,官方也一直維護、更新版本,使用越來越方便,深受廣大編程者和用戶的青睞。

Lucene是一個高效的、 可擴展的全文檢索庫, 僅支持純文本文件的索引(Index)和檢索(Search), 并不處理從其他格式的文件中抽取純文本文件, 或從網絡中抓取文件。簡單地說, Lucene實現兩個功能,分別是索引和檢索。索引所做的工作是為各種各樣的文檔構建Lucene 所能夠識別的索引文件。

Lucene作為一個非常優秀并且開源的全文搜索引擎,不僅性能高,架構清晰,擴展性強,而且其建立索引后的文件格式也獨立于應用平臺,從而使索引文件能夠跨平臺共享,對任意可轉換為文本格式的數據都能夠進行索引和搜索。例如html網頁、本地中的ppt,txt,pdf等等都可以對其建立索引。

首先, Lucene集成了多種文檔解析器, 能夠對大部分主流文本文件 如:html, pdf, MS Word, Text File等等進行解析, 抽取純文本內容。由于Lucene只能索引純文本, 所以必須借助于上述各種不同功能的解析器對各種不同類型的文檔進行解析。

然后, 使用Lucene的分詞器(Analyzer),對提取出的純文本內容進行索引, 并生成索引項,以供做搜索之用。

最后, Analyzer把生成的信息寫入索引文件之后。搜索所做的工作是使用反向索引找出與用戶請求相匹配的文本內容并返還給用戶。 因為,Lucene 默認情況下不對用戶輸入的搜索關鍵詞進行分詞處理。所以,這部分不重點討論搜索的內容,相關內容在下面的章節中講解。

2) 引擎結構

Lucene搜索引擎對系統的要求不高,既可以運行在Windows系統上,也可以運行在Linux系統上。搜索引擎使用的一般是集中式。把多個服務器的網絡資源通通下載到本地,目的是為建立索引和文本搜索做準備,這就是集中式的處理方法。如果按照按結構分,Lucene引擎結構可由搜索器、 索引器和檢索器等組成。

搜索器就是網絡機器人(網絡蜘蛛)。利用這種爬蟲程序,在遵從機器人排除協議的前提下,從某個網頁開始,提取URL網址,如此循環,不斷地提取到新的 URL 網址,同時取出相應 URL 的資源。

索引器的則是利用下載的到的各種網絡資源,提取各種資源的索引項,為生成文檔庫的索引表做準備。

檢索器主要任務是通過辨識用戶的查詢需求,在文檔庫中進行快速匹配查找并且檢索出相應的文檔,之后就是對文檔進行相關性排序,并提供一個網頁鏈接供用戶操作。所以,,一個出色的搜索引擎如果把這三個部分都做得好,用戶的使用需求就一定可以得到滿足。

3) 解析網頁和索引入庫

把網頁中的元素標記( Token) 及其標記之后的內容提取出來,目的的是利于入庫,這就是網頁的解析。一個字段都要有一個Token與之相對應??梢岳斫鉃榇俗侄蔚膬热菥褪荰oken 的內容。

使用的實現方法:自定義一個 Parser 解析類,接著實現網頁文件流的讀入,然后把這個流解析成以字符串格式輸出,為下一步處理做準備,最后循環提取 Token 及其相關內容。提取每一個Token 的目的是給不同的 Token 加上不同的權值。這樣在搜索出結果的時候,就可以根據不同的權值來排序。提取 Token便可以入庫:

2 Lucene分詞器

1) Lucene分詞簡介

lucene將關鍵詞出現頻率和關鍵詞出現位置分別作為詞典文件(Term Dictionary)、頻率文件(frequencies)、位置文件 (positions)保存。其中詞典文件不僅保存有每個關鍵詞,還保留了指向頻率文件和位置文件的指針,通過指針可以找到該關鍵詞的頻率信息和位置信息。

Lucene特點是關鍵詞是按字符順序排列的,其內部沒有集成使用B樹結構,所以可以用二元搜索算法快速定位Lucene的關鍵詞。

Lucene中也使用了field(域)的概念,用于表達信息所在位置。如標題、內容、url等等。需要指出的是這些域(field)是可以自定義設置的。在索引文件中,每一個field(域)的信息也記錄在詞典文件中,每個關鍵詞都有一個field信息,因為每個關鍵詞一定屬于一個或多個field。 關鍵詞沒有在field(域)中出現,就意味著用戶想要找的內容沒有出現在數據庫中。

為了減小索引文件的大小,Lucene對索引使用壓縮技術。首先,對詞典文件中的關鍵詞進行了壓縮,關鍵詞壓縮為,例如:當前詞為“廣東省東莞”,上一個詞為“廣東省”,那么“廣東省東莞”壓縮為。

其次大量用到的是對數字的壓縮,數字只保存與上一個值的差值,目的是減小數字的長度,進而減少保存該數字需要的字節數。例如當前文章號是1279(不壓縮要用3個字節保存),上一文章號是1273,壓縮后保存6(只用一個字節)。使用壓縮技術的好處就是提高搜索的速度和效率。需要指出的是,Lucene3.5版本后,不需要手動處理索引文件,當索引的文件大到一定的程度之后,Lucene會自動的壓縮索引文件。

2) Lucene分詞原理

a. 建立倒排索引。同時記錄關鍵詞在文章中出現頻率和出現的位置。如何用普通的順序匹配算法,不建索引,而是對所有文章的內容進行字符串匹配,這個過程將會相當緩慢,當文章數目很大時,時間往往是長到無法忍受的。

b. 獲得文章/記錄中的關鍵詞,并對關鍵詞進行處理。如:lives,livinglive

3 IKAnalyzer分詞器

1) IKAnalyzer分詞簡介

對信息進行索引前,需要要對關鍵詞進行分詞。英文使用空格和標點來分隔單詞 而中文使用表意文字,不能通過空格和標點來進行分詞。Lucene 自帶的分詞器,有StandardAnalyzer, StopAnalyzer ,SimpleAnalyzer,WhiteSpaceAnalyzer。這些分詞器要么是單字分詞 要么采用停用詞分詞,要么采用簡單的分詞,要么是按空格分詞。

但是,它們并不能有效地解決中文分詞的問題。目前中文分詞算法工具包大致包括paoding、imdict、mmseg4j、IK。其中最常用的是IKAnalyzer,下面我大致介紹一下這個中文分詞器,結構圖1所示。

2) IKAnalyzer特點

IKAnalyzer支持多子處理器語言分析模式:中文、數字、字母,并兼容日文、韓文。它采用“正向迭代最細粒度切分算法”的算法,支持細粒度和最大詞長兩種分詞方式,速度最大支持80W字/秒,即1600KB/秒。此外,它擴展lucene的擴展實現,采用歧義分析算法優化查詢關鍵詞的搜索排列組合,提高lucene檢索命中率。同時,它具有較小的內存占用,優化詞庫占有空間,用戶可自定義擴展詞庫。

IKAnalyzer由org.wltea.analyzer.IKSegmentation和org.wltea.analyzer.lucene.IKAnalyzer兩大主要類組成,其中,org.wltea.analyzer.IKSegmentation是IK分詞器的核心類,真正分詞的實現類。而org.wltea.analyzer.lucene.IKAnalyzer則是IK分詞主類,基于Lucene的Analyzer接口實現。

4 基于Lucene的IKAnalyzer分詞器

1) paoding、mmseg4j和IKAnalyzer

目前流行的幾大開源分詞器主要有:paoding、mmseg4j、IKAnalyzer,它們三個都是基于JAVA語言開發的,各有優劣,具體如下:

mmseg4j:有兩種分詞方法,Simple和Complex,目前 complex 1200kb/s左右,simple 1900kb/s左右,但內存開銷了50M左右。采用MMSeg算法,代碼復雜度是2500行左右代碼。有英文文檔,原理比較簡單。有自帶搜狗的詞庫,支持自定義詞庫,不支持自動檢測。 自帶詞庫16W個。Lucene和solr的支持:支持Lucene2.4、solr1.3。

Paoding:采用基于“不限制個數”的詞典文件對文章進行有效切分算法,使能夠將對詞匯分類定義,代碼復雜度是7000行左右代碼。1秒可準確分詞100萬漢字。支持不限制個數的用戶自定義詞庫,自動檢測詞庫的更新。自帶詞庫22W個。

IKAnalyzer:每秒80W字。采用正向迭代最細粒度切分算法,代碼復雜度是4500行左右代碼,有一個中文使用手冊,支持自定義詞庫,不支持自動檢測。 自帶詞庫27W個。

根據上面介紹,結合本系統特點,本系統采用基于Lucene的IKAnalyzer分詞器。

2) 自定義同義詞分詞器

Lucene分詞機制:索引過程和查詢過程都用到了一個關鍵工具分詞器analyzer。它將要被索引的內容以流的形式讀入,經過詞語切分、過濾干擾詞等一系列處理,最終輸出一個語匯單元流、每個語匯單元攜帶了一個文本值和它的一些元數據,原文本從起點到終點的偏移量、語匯單元類型和position incremen。

同義詞索引原理:索引器將語匯單元寫入文件時會丟棄每個語匯單元的起點偏移量和終點偏移量。位置增量是語匯單元攜帶到索引文件的唯一附加元數據。這個值的意義是當前單詞與前一個單詞的位置偏移量。當這個值為 0 是表示當前單詞與前一個單詞被索引到同一個位置上。但是 Lucene 對中文語言處理能力十分有限,無法中文語義分詞只能將一句話機械性的分成單字或雙字 。例如: 用單字分詞會將“我來自廣東” 切分成 :“我” “來” “來” “自” “廣” “東”。顯然,這種情形為每個字添加同義詞索引是沒有意義的 因此 需要一個功能更強大的中文分詞器來支持。

本系統采用堆棧的形式來保存同義詞的詞組或單詞。如(“中國”,“大陸”),(“我”,“咱”)等等都可以是同義詞。自定義同義詞分詞器使用四個類來實現。

MyDefinedSameAnalyzer類主要是加載的搜狗中文分詞器。使用棧來定義過濾器是MyDefinedSameTokenFilter類。DefinedSamewordEngine類是一個接口,使用接口有利于程序的擴展。DefinedSimpleSameword類是定義同義詞字典,并判斷如果有同義詞就返回true

3) 自定義停用詞過濾分析

在關鍵詞處理過程中,有可能會經常出現沒有意義的詞。如,“是”,“來”等等。除此之外,停用詞分析器StopAnalyzer也已經把沒有意義的英文單詞收錄到停用詞表中。默認情況下,這個表被用來濾詞用戶輸入關鍵詞中的詞匯,還可以過濾掉一些特定字符,如&,*等,也會把英文的大寫字母自動轉換成小寫字母。

還有就是,當搜索系統需要屏蔽掉一些用戶輸入的中文敏感詞的時候,就得把敏感詞自動的過濾掉。這個時候就得使用lucene強大的停用詞分析器。由于Luene自帶有停用詞分析器StopAnalyzer,這使得要過濾掉停用詞就變得非常簡單。而且使用Lucene3.5的版本,也支持中文分詞。

自定義一個停用詞表就可以過濾掉自己設定的中文或者英文的敏感詞。默認情況下,Lucene會把系統自帶的英文停用詞加載在停用詞分析器中。TokenStream讀流屬性中的數據即讀出數據。另外,停用詞分析器StopAnalyzer自動把數字給過濾掉了,所以要實現數字的搜索需要經過特別的處理。具體的處理過程可以參考GxjtController類的searchcont( )函數的代碼部分。

為了實現該功能,搜索的關鍵詞要先經過過濾器處理,再經過同義詞的處理。

參考文獻:

[1] 馮斌.基于 Lucene 小型搜索引擎的研究與實現[D].武漢:武漢理工大學,2008.

[2] 楊馥顯,劉嘉勇.基于JSP的數據庫開發技術研究[J].通信技術,2011,44(3):51-53.

個性化推薦范文6

[關鍵詞]Web個性化推薦系統 Web挖掘 基于規則過濾 基于內容過濾 協作過濾

[分類號]G350 TP311

1 引言

Web個性化的用途主要是為用戶提供獨立的、特定個人偏好的、方便快捷的和滿足用戶需求的服務。對于不同的網站來說,實現個性化的目的具有其自身發展的需要。例如,商業網站的個性化是通過提供的便捷服務方式提升顧客忠誠度和吸引更多的客戶,從而實現其銷售業績和商業利潤最大化的需要。在公共服務領域,網站為了提高其服務質量,提升用戶滿意程度,根據用戶關注的重點和信息需求,為其定制特定的個性化服務。專門研究Web個性化理論和方法的國際會議1TWP組委會主席BamshadMobasher教授從20世紀90年代就開始Web個性化的研究,他認為:“在Web網站中,個性化意味著動態內容的發送,例如文本元素、鏈接、廣告和產品推薦等,這些內容專門為特定用戶或者一部分用戶的需要及興趣定制”。他把Web個性化過程看作是一個包含數據挖掘循環所有階段的一個典型應用。這些階段包括數據收集、預處理模式發現、性能評價和在用戶和Web網站之間應用實時發現的知識。

個性化的關鍵技術是推薦系統,其作用是根據用戶模型推薦個性化內容,主要包括四種工作模式:基于規則過濾、基于內容過濾、基于協作過濾和混合過濾模式。本文重點介紹智能推薦方法和技術,并提出一種Web個性化應用智能混合過濾推薦模型。

2 Web挖掘與個性化推薦

個性化推薦是Web挖掘結果呈現給用戶的應用,其依據原理是數據挖掘理論基礎。許多學者認為,Etzioni是第一個提出Web挖掘(Web mining)技術的人,他認為,Web挖掘技術可分為三種類型:Web內容挖掘(Web content mining)、Web結構挖掘(Webstructure mining)和Web使用挖掘(Web usage mining)。Srivastava等人對Web使用挖掘的定義是:Web使用挖掘是應用數據挖掘技術,為了更好地理解和服務基于Web應用的需要,發現Web數據的使用模式。個性化推薦系統通常對日志數據采用Web使用挖掘。

Web挖掘使用的數據可能來自Web服務器訪問日志、服務器日志、引用頁日志、瀏覽器日志、錯誤日志、用戶資料、注冊數據、用戶會話、用戶交易、cookies、用戶查詢或者是用戶書簽數據。通過分析這些文件和文檔,可以獲得用戶感興趣的使用模式和信息。

目前常見的Web日志格式主要有兩類:①Apache的NCSA日志格式,分為四類:NCSA普通日志格式(CLF)、NCSA擴展日志格式(ECLF)、錯誤日志格式和定制日志格式。②IIs的W3C日志格式,共分為8類:W3C擴展日志格式、集中記錄的日志格式、NCSA普通日志格式、IIS日志格式、ODBC記錄的日志格式、集中記錄的二進制日志格式、錯誤日志格式和定制日志格式。無論是Apache還是IIS的日志格式,常用于信息分析的是擴展日志格式和定制日志格式。通常情況下,系統自動記錄的日志有錯誤日志和訪問日志,記錄的文件名分別為error.1og和access.1og,除了錯誤日志以外的日志均稱為訪問日志。Apache 2.2版的擴展日志文件格式定義及示例如表1所示:

3 推薦技術

通常,個性化推薦系統分為基于規則過濾、基于內容過濾、基于協作過濾的方法以及這三種方法混合的具有智能性的推薦方法?;谝巹t過濾方法的特點在于采用關聯規則、回歸算法,找到用戶對相關聯對象之間的興趣度、發現用戶偏好,預測用戶未來行為?;趦热莸倪^濾推薦技術特點是,根據用戶過去選擇對象的特點,從對象描述、終端數據庫里的對象屬性關聯抽取其特征,系統為其推薦相似的對象?;趦热莸倪^濾系統最大的缺點是用戶模型的建立過度依賴于用戶以前選擇和點擊的具體對象。協作過濾推薦系統尋找與目標顧客歷史吻合的顧客群組(稱為近鄰),利用了用戶的相似性進行推薦。這些方法的基本模型如圖1所示:

通常情況下,系統采用單一的推薦模型,例如,基于規則過濾的推薦系統,在離線學習階段、數據預處理階段需要做的工作是:應用程序在系統空閑時間段完成原始日志數據從日志文件或者日志數據庫抽取,并進行清洗、轉換、加載轉換工作,清洗后并規范化的日志加載到日志倉庫以備數據挖掘算法使用。在生成模型階段,根據基于規則過濾采用的算法,比如關聯規則使用的Apriori經典算法進行頻繁模式分析,生成用戶模型,根據挖掘算法計算生成用戶特征組成的規則模型庫。在在線推薦階段,Web個性化推薦系統提取出當前用戶的特征,查找規則模型庫對應的匹配規則,根據計算結果檢索當前可推薦的對象,最后以可視化的方法呈現給Web個性化用戶。

當前,個性化技術研究的熱點是基于協作過濾推薦,該系統面臨兩個主要挑戰:可擴展性和確保對用戶推薦的質量??蓴U展性是指個性化系統在用戶數量增加的情況下,推薦系統能夠正常工作而不影響個性化系統整體性能。保證推薦質量是贏得顧客信任的基本要素,缺乏用戶信任的個性化應用注定失敗。

4 智能混合過濾推薦

針對單一的基于內容過濾或者協作過濾推薦系統存在的缺點,當前研究的重點是采用混合兩種或以上的推薦算法,目的是提高推薦的效率和精度;同時,已經有相關的理論研究。例如,Burke提出的方法是混合基于內容和協作過濾技術,旨在提高推薦的質量隨;Ardissono等人采用多種異構推薦技術的方法,通過收集多種用戶偏好的信息實現;Mobasher等人提出一種框架,把在線用戶訪問Web頁面的會話活動過程與在線數據準備和數據挖掘任務分開處理,采用基于聚類的技術把Web站點使用和內容模型采用統一的表示方法,用于實時的個性化操作;這種方法的優點在于Web站點的使用和內容特點集成到Web挖掘框架里,為推薦引擎提供統一的訪問方式,從而提高了個性化效率;Rosenthal等人提出的研究旨在提高推薦系統在線預測精度。

筆者經分析認為,基于規則過濾和基于協作過濾技術的缺點是:通常需要離線學習訓練樣本生成關聯規則或者用戶組的分類,二者具有可擴展性差和動態變化緩慢的特點,因此,不適于在線的迅速響應,尤其

不適合實時查詢的響應。基于內容過濾技術的優點是響應及時,但其缺點是依賴于用戶的歷史操作記錄,如果用戶的興趣偏好變化或者歷史記錄缺失,推薦給用戶的結果將可能會產生嚴重的失真。

基于以上分析,本文結合以上三種推薦方法,提出一種Web個性化應用智能混合推薦模型,其優點是通過模型適配器智能性地、自動為推薦系統選擇合適的挖掘模型,具有響應速度快、推薦準確性較高等特點(見圖2)。該模型的數據收集、預處理過程采用的方法與傳統的推薦類似,與原有系統兼容并且進行功能擴展。數據挖掘模型可以有多種,主要分為三種類型:基于關聯規則的挖掘類型、基于內容的分類挖掘類型和基于協作的聚類挖掘類型。根據實際挖掘應用環境需要和企業規模的不同,該模型可以實現某一種挖掘類型的幾種具體算法,也可以實現任意兩種或者三種挖掘類型的任意種算法,因此,該模型能夠使用于多種用途,具有較強的靈活性。此外,由于該模型可以實現某種挖掘類型的多種算法,因此,可以進行精度比較,提高推薦的精度。

這種方法與圖1所示的個性化推薦系統模型相比較而言,除了具有單一的推薦功能外,具有以下幾個特點:①混合采用的多種過濾推薦技術,能夠根據系統應用情況和抽取到的用戶特征自動識別用戶需求,是一種智能型推薦系統;②這種智能型推薦系統采用多種過濾推薦技術,具體采用哪種過濾技術由模型適配器根據用戶特征和推薦內容的不同而決定;③本系統能夠完成多種過濾技術的推薦。例如,一個商務網站的個性化注冊用戶完成交易之后,Web個性化推薦系統提取該用戶的訪問特征,并進行分析,為用戶的個性化推薦做準備。模型適配器分析該用戶當期的購物內容,使用關聯規則挖掘模型發現用戶的購物內容并推薦與此相關的內容,推薦可能關聯的商品。使用內容過濾模型發現用戶當前對哪些商品感興趣,從而推薦更多用戶可能會感興趣的商品;使用協作過濾模型找到與該用戶有相似購物內容的用戶還買了哪些商品,根據用戶的相似性推薦當前用戶還沒有發現是或者還沒有購買的商品。模型適配器根據挖掘結果,可以把推薦內容呈現給用戶賬號頁面,或者是推送到用戶使用的電子郵箱。這些復雜的工作都由適配器自動識別并操作完成。

歸納本文提出的智能混合推薦系統模型特點如下:①自動適配功能,提供一種數據挖掘算法模型的接口,這種接口能夠自動適配推薦技術,實現在線推薦;②靈活性強,可以根據實際需要加載、更換數據挖掘模型;③通用性強,不但可以用于個性化推薦,還可以用于決策支持系統(Decision Supporting System,DSS)、專家系統(Expert System,Es)商業智能系統(Business In.telligence,BI)等。

5 結語

在未來幾年的個性化研究中,其關鍵技術依然是推薦系統。個性化推薦基于Web挖掘理論和技術而不斷發展,涉及到數據挖掘、人工智能、機器學習等多個領域的理論。隨著Web技術和普適計算的發展,個性化推薦系統采用的挖掘技術越來越復雜,由單一技術向混合技術和智能型方向發展。

個性化推薦進行數據挖掘需要的數據源越來越多樣化,綜合了日志數據、歷史交易記錄、用戶搜藏、用戶注冊信息、個人評價反饋信息等。當前,關于Web日志格式的設計原則,還缺乏相關的理論研究,因此,可以考慮進行Web日志格式設計的研究。一些研究者為了提高個性化推薦系統的精度,把研究重點放在提高推薦系統的算法優化方面,但是,有針對性地定制收集用戶數據進行用戶模型建模,對于個性化推薦系統精度的提高有著根本性的促進作用。這些定制收集到的用戶數據能準確地反映出用戶的偏好,并且,用戶模型建模收集到的數據越準確,就越有利于推薦系統的精度提高。同時,經過定制收集到的數據還能夠有助于減輕推薦系統計算冗余數據的負載,從而提高個性化系統整體性能。

參考文獻:

[1]Mobasher B.Data mining for Web personalization.[2010―12―11].#other.

[6]Billsus D,Pazzani M.A personal news agent that talks,learns andexplains.[2010一12―11]..

[7]Han J,Kamber M.數據挖掘概念與技術.范明,孟小峰,譯.北 京:機械工業出版社,2006.

[8]Burke R.Hybrid Web recommender systems//Brusilovsky P,Kob-sa A,Nejdl W.The Adaptive Web:Methods and Strategies 0fWeb Personalization,Lecture Notes in Computer Science.Berlin:Springer―Verlag,2007:377―408.

[9]Ardisson0 L,Gena c,Torasso P,et a1.User modeling and recom-mendation techniques for personalized eleetronic program guides//Personalized Digital Television.Targeting Programs to IndividualUsers.Amsterdam:Kluwer Academic Publishers.2004:3―26.

亚洲精品一二三区-久久