數(shù)據(jù)挖掘技術(shù)論文范文

時(shí)間:2023-03-18 16:11:50

導(dǎo)語(yǔ):如何才能寫(xiě)好一篇數(shù)據(jù)挖掘技術(shù)論文,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。

數(shù)據(jù)挖掘技術(shù)論文

篇1

[關(guān)鍵詞]數(shù)據(jù)挖掘數(shù)據(jù)挖掘方法

隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫(kù)的規(guī)模不斷擴(kuò)大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無(wú)法辨別隱藏在其中的能對(duì)決策提供支持的信息,而傳統(tǒng)的查詢(xún)、報(bào)表工具無(wú)法滿(mǎn)足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價(jià)值的潛在知識(shí),數(shù)據(jù)挖掘(DataMining)技術(shù)由此應(yīng)運(yùn)而生。

一、數(shù)據(jù)挖掘的定義

數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過(guò)程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測(cè)未來(lái)可能發(fā)生的行為。數(shù)據(jù)挖掘的過(guò)程也叫知識(shí)發(fā)現(xiàn)的過(guò)程。

二、數(shù)據(jù)挖掘的方法

1.統(tǒng)計(jì)方法。傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類(lèi)問(wèn)題,回歸分析用來(lái)找到一個(gè)輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來(lái)描述一個(gè)變量的變化趨勢(shì)和別的變量值的關(guān)系的線(xiàn)性回歸,還有用來(lái)為某些事件發(fā)生的概率建模為預(yù)測(cè)變量集的對(duì)數(shù)回歸、統(tǒng)計(jì)方法中的方差分析一般用于分析估計(jì)回歸直線(xiàn)的性能和自變量對(duì)最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。

2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡(jiǎn)單,實(shí)用的分析規(guī)則,它描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個(gè)因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無(wú)遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過(guò)關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價(jià)值,要對(duì)這些規(guī)則要進(jìn)行有效的評(píng)價(jià),篩選有意義的關(guān)聯(lián)規(guī)則。

3.聚類(lèi)分析。聚類(lèi)分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個(gè)組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類(lèi)和增量聚類(lèi)。聚類(lèi)方法適合于探討樣本間的內(nèi)部關(guān)系,從而對(duì)樣本結(jié)構(gòu)做出合理的評(píng)價(jià),此外,聚類(lèi)分析還用于對(duì)孤立點(diǎn)的檢測(cè)。并非由聚類(lèi)分析算法得到的類(lèi)對(duì)決策都有效,在運(yùn)用某一個(gè)算法之前,一般要先對(duì)數(shù)據(jù)的聚類(lèi)趨勢(shì)進(jìn)行檢驗(yàn)。

4.決策樹(shù)方法。決策樹(shù)學(xué)習(xí)是一種通過(guò)逼近離散值目標(biāo)函數(shù)的方法,通過(guò)把實(shí)例從根結(jié)點(diǎn)排列到某個(gè)葉子結(jié)點(diǎn)來(lái)分類(lèi)實(shí)例,葉子結(jié)點(diǎn)即為實(shí)例所屬的分類(lèi)。樹(shù)上的每個(gè)結(jié)點(diǎn)說(shuō)明了對(duì)實(shí)例的某個(gè)屬性的測(cè)試,該結(jié)點(diǎn)的每一個(gè)后繼分支對(duì)應(yīng)于該屬性的一個(gè)可能值,分類(lèi)實(shí)例的方法是從這棵樹(shù)的根結(jié)點(diǎn)開(kāi)始,測(cè)試這個(gè)結(jié)點(diǎn)指定的屬性,然后按照給定實(shí)例的該屬性值對(duì)應(yīng)的樹(shù)枝向下移動(dòng)。決策樹(shù)方法是要應(yīng)用于數(shù)據(jù)挖掘的分類(lèi)方面。

5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進(jìn)行分析,并可以完成對(duì)人腦或其他計(jì)算機(jī)來(lái)說(shuō)極為復(fù)雜的模式抽取及趨勢(shì)分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí)也可以是無(wú)指導(dǎo)聚類(lèi),無(wú)論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類(lèi)多種神經(jīng)元網(wǎng)絡(luò),具有非線(xiàn)形映射特性、信息的分布存儲(chǔ)、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。

6.遺傳算法。遺傳算法是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法,通過(guò)變異和重組當(dāng)前己知的最好假設(shè)來(lái)生成后續(xù)的假設(shè)。每一步,通過(guò)使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個(gè)部分,來(lái)更新當(dāng)前群體的一組假設(shè),來(lái)實(shí)現(xiàn)各個(gè)個(gè)體的適應(yīng)性的提高。遺傳算法由三個(gè)基本過(guò)程組成:繁殖(選擇)是從一個(gè)舊種群(父代)選出生命力強(qiáng)的個(gè)體,產(chǎn)生新種群(后代)的過(guò)程;交叉〔重組)選擇兩個(gè)不同個(gè)體〔染色體)的部分(基因)進(jìn)行交換,形成新個(gè)體的過(guò)程;變異(突變)是對(duì)某些個(gè)體的某些基因進(jìn)行變異的過(guò)程。在數(shù)據(jù)挖掘中,可以被用作評(píng)估其他算法的適合度。

7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗(yàn)知識(shí)的情況下,只以考察數(shù)據(jù)的分類(lèi)能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問(wèn)題。粗糙集用于從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)分類(lèi)規(guī)則的基本思想是將數(shù)據(jù)庫(kù)中的屬性分為條件屬性和結(jié)論屬性,對(duì)數(shù)據(jù)庫(kù)中的元組根據(jù)各個(gè)屬性不同的屬性值分成相應(yīng)的子集,然后對(duì)條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對(duì)象的集合稱(chēng)為初等集合,形成知識(shí)的基本成分。任何初等集合的并集稱(chēng)為精確集,否則,一個(gè)集合就是粗糙的(不精確的)。每個(gè)粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補(bǔ)集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類(lèi)、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。

8.支持向量機(jī)。支持向量機(jī)(SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來(lái)的一種新的機(jī)器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則上的,盡量提高學(xué)習(xí)機(jī)的泛化能力,具有良好的推廣性能和較好的分類(lèi)精確性,能有效的解決過(guò)學(xué)習(xí)問(wèn)題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項(xiàng)式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機(jī)算法是一個(gè)凸優(yōu)化問(wèn)題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點(diǎn)都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機(jī)可以應(yīng)用于數(shù)據(jù)挖掘的分類(lèi)、回歸、對(duì)未知事物的探索等方面。

事實(shí)上,任何一種挖掘工具往往是根據(jù)具體問(wèn)題來(lái)選擇合適挖掘方法,很難說(shuō)哪種方法好,那種方法劣,而是視具體問(wèn)題而定。

三、結(jié)束語(yǔ)

目前,數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應(yīng)用,并取得了顯著成效,但仍存在著許多尚未解決的問(wèn)題。隨著人們對(duì)數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應(yīng)用,并取得更加顯著的效果。

篇2

(1)確定業(yè)務(wù)對(duì)象:做好業(yè)務(wù)對(duì)象的明確是數(shù)據(jù)域挖掘的首要步驟,挖掘的最后結(jié)構(gòu)是不可預(yù)測(cè)的,但是探索的問(wèn)題必須是有預(yù)見(jiàn)的,明確業(yè)務(wù)對(duì)象可以避免數(shù)據(jù)挖掘的盲目性,從而大大提高成功率。

(2)數(shù)據(jù)準(zhǔn)備:首先,對(duì)于業(yè)務(wù)目標(biāo)相關(guān)的內(nèi)部和外部數(shù)據(jù)信息進(jìn)行查找,從中找出可以用于數(shù)據(jù)挖掘的信息;其次,要對(duì)數(shù)據(jù)信息的內(nèi)容進(jìn)行全面細(xì)致分析,確定需要進(jìn)行挖掘操作的類(lèi)型;然后,結(jié)合相應(yīng)的挖掘算法,將數(shù)據(jù)轉(zhuǎn)化稱(chēng)為相應(yīng)的分析模型,以保證數(shù)據(jù)挖掘的順利進(jìn)行。

(3)數(shù)據(jù)挖掘:在對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)化后,就可以結(jié)合相應(yīng)的挖掘算法,自動(dòng)完成相應(yīng)的數(shù)據(jù)分析工作。

(4)結(jié)果分析:對(duì)得到的數(shù)據(jù)分析結(jié)果進(jìn)行評(píng)價(jià),結(jié)合數(shù)據(jù)挖掘操作明確分析方法,一般情況下,會(huì)用到可視化技術(shù)。

(5)知識(shí)同化:對(duì)分析得到的數(shù)據(jù)信息進(jìn)行整理,統(tǒng)一到業(yè)務(wù)信息系統(tǒng)的組成結(jié)構(gòu)中。這個(gè)步驟不一定能夠一次完成,而且其中部分步驟可能需要重復(fù)進(jìn)行。

二、數(shù)據(jù)挖掘技術(shù)在水利工程管理中的實(shí)施要點(diǎn)

水利工程在經(jīng)濟(jì)和社會(huì)發(fā)展中是非常重要的基礎(chǔ)設(shè)施,做好水利工程管理工作,確保其功能的有效發(fā)揮,是相關(guān)管理人員需要重點(diǎn)考慮的問(wèn)題。最近幾年,隨著社會(huì)經(jīng)濟(jì)的飛速發(fā)展,水利工程項(xiàng)目的數(shù)量和規(guī)模不斷擴(kuò)大,產(chǎn)生的水利科學(xué)數(shù)據(jù)也在不斷增加,這些數(shù)據(jù)雖然繁瑣,但是在許多科研生產(chǎn)活動(dòng)和日常生活中都是不可或缺的。例如,在對(duì)洪澇、干旱的預(yù)防以及對(duì)生態(tài)環(huán)境問(wèn)題的處理方面,獲取完整的水利科學(xué)數(shù)據(jù)是首要任務(wù)。那么,針對(duì)日益繁雜的海量水利科學(xué)數(shù)據(jù),如何對(duì)有用的信息知識(shí)進(jìn)行提取呢?數(shù)據(jù)挖掘技術(shù)的應(yīng)用有效的解決了這個(gè)問(wèn)題,可以從海量的數(shù)據(jù)信息中,挖掘出潛在的、有利用價(jià)值的知識(shí),為相關(guān)決策提供必要的支持。

1.強(qiáng)化數(shù)據(jù)庫(kù)建設(shè)

要想對(duì)各類(lèi)數(shù)據(jù)進(jìn)行科學(xué)有效的收集和整理,就必須建立合理完善的數(shù)據(jù)庫(kù)。對(duì)于水利工程而言,應(yīng)該建立分類(lèi)數(shù)據(jù)庫(kù),如水文、河道河情、水量調(diào)度、防洪、汛情等,確保數(shù)據(jù)的合理性、全面性和準(zhǔn)確性,選擇合適的方法,對(duì)有用數(shù)據(jù)進(jìn)行挖掘。

2.合理選擇數(shù)據(jù)挖掘算法

(1)關(guān)聯(lián)規(guī)則挖掘算法:關(guān)聯(lián)規(guī)則挖掘問(wèn)題最早提出于1993年,在當(dāng)前數(shù)據(jù)挖掘領(lǐng)域,從事務(wù)數(shù)據(jù)庫(kù)中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,已經(jīng)成為一個(gè)極其重要的研究課題。關(guān)聯(lián)規(guī)則挖掘的主要目的,是尋找和挖掘隱藏在各種數(shù)據(jù)之間的相互關(guān)系,通過(guò)量化的數(shù)據(jù),來(lái)描述事務(wù)A的出現(xiàn)對(duì)于事務(wù)B出現(xiàn)可能產(chǎn)生的影響,關(guān)聯(lián)規(guī)則挖掘就是給定一組Item以及相應(yīng)的記錄組合,通過(guò)對(duì)記錄組合的分析,推導(dǎo)出Item間存在的相關(guān)性。當(dāng)前對(duì)于關(guān)聯(lián)規(guī)則的描述,一般是利用支持度和置信度,支出度是指產(chǎn)品集A、B同時(shí)出現(xiàn)的概率,置信度則是在事務(wù)集A出現(xiàn)的前提下,B出現(xiàn)的概率。通過(guò)相應(yīng)的關(guān)聯(lián)分析,可以得出事務(wù)A、B同時(shí)出現(xiàn)的簡(jiǎn)單規(guī)則,以及每一條規(guī)則的支持度和置信度,支持度高則表明規(guī)則被經(jīng)常使用,置信度高則表明規(guī)則相對(duì)可靠,通過(guò)關(guān)聯(lián)分析,可以明確事務(wù)A、B的關(guān)聯(lián)程度,決定兩種事務(wù)同時(shí)出現(xiàn)的情況。

(2)自頂而下頻繁項(xiàng)挖掘算法:對(duì)于長(zhǎng)頻繁項(xiàng),如果采用關(guān)聯(lián)規(guī)則挖掘算法,需要進(jìn)行大量的計(jì)算分析,不僅耗時(shí)耗力,而且影響計(jì)算的精準(zhǔn)度,這時(shí),就可以采用自頂而下頻繁項(xiàng)挖掘算法,這種算法是一種相對(duì)優(yōu)秀的長(zhǎng)頻繁項(xiàng)挖掘算法,利用了事務(wù)項(xiàng)目關(guān)聯(lián)信息表、項(xiàng)目約簡(jiǎn)、關(guān)鍵項(xiàng)目以及投影數(shù)據(jù)庫(kù)等新概念與投影、約簡(jiǎn)等新方法,在對(duì)候選集進(jìn)行生成的過(guò)程中,應(yīng)該對(duì)重復(fù)分支進(jìn)行及時(shí)修剪,提升算法的實(shí)際效率,從而有效解決了長(zhǎng)頻繁項(xiàng)的挖掘問(wèn)題。結(jié)合計(jì)算機(jī)實(shí)驗(yàn)以及算法分析,可以看出,這種方法是相對(duì)完善的,同時(shí)也是十分有效的。不過(guò)需要注意的是,當(dāng)支持度較大、頻繁項(xiàng)相對(duì)較短時(shí),利用關(guān)聯(lián)規(guī)則挖掘中典型的Apriori方法,可以起到更好的效果。

(3)頻繁項(xiàng)雙向挖掘算法:這種算法是一種融合了自頂向下以及自底向上的雙向挖掘算法,可以較好的解決長(zhǎng)頻繁項(xiàng)以及段頻繁項(xiàng)的挖掘問(wèn)題,主挖掘方向是利用自頂向下挖掘策略,但是結(jié)合自底向上方法生成的非頻繁項(xiàng)集,可以對(duì)候選集進(jìn)行及時(shí)修剪,提升算法的實(shí)際效率。

三、結(jié)語(yǔ)

篇3

近年來(lái),我國(guó)的部隊(duì)管理體系已經(jīng)逐漸向著自動(dòng)化方向發(fā)展,部隊(duì)中各個(gè)部門(mén)都建立了一定的管理體系,也逐漸脫離了人工管理模式,實(shí)現(xiàn)信息現(xiàn)代化模式,很大程度提高了部隊(duì)工作的效率,但是由于外界因素與經(jīng)濟(jì)發(fā)展的多樣化以及人們的思維模式也在不斷改變,從而出現(xiàn)了一些新問(wèn)題,使得部隊(duì)管理體系存在著一定問(wèn)題:第一、關(guān)聯(lián)性小、系統(tǒng)比較獨(dú)立。現(xiàn)階段,部隊(duì)采購(gòu)食品系統(tǒng)的作用以及目的比較簡(jiǎn)單,思維面也比較窄,也就是說(shuō)按照清單進(jìn)行食品采購(gòu)時(shí),不能充分考慮到采購(gòu)人員的健康、效率等問(wèn)題,不能達(dá)到最優(yōu)化采購(gòu)方式,因此就變得比較獨(dú)立;第二,數(shù)據(jù)功能簡(jiǎn)單,可靠性不高。現(xiàn)階段,部隊(duì)食品采購(gòu)數(shù)據(jù)只是對(duì)采購(gòu)的種類(lèi)與過(guò)程進(jìn)行簡(jiǎn)單記錄,時(shí)間一久,就會(huì)被損壞或者丟失;第三,數(shù)據(jù)分散不集中?,F(xiàn)階段與部隊(duì)人員健康、起居飲食、訓(xùn)練相關(guān)的數(shù)據(jù)分散在不同系統(tǒng)中,使得數(shù)據(jù)變得不一致、不完整,僅僅只能進(jìn)行簡(jiǎn)單查詢(xún)、匯總、統(tǒng)計(jì)等工作,不能對(duì)數(shù)據(jù)進(jìn)行多角度分析、關(guān)聯(lián)等,不能為采購(gòu)食品提供很好的政策支持。針對(duì)部隊(duì)采購(gòu)存在的問(wèn)題,可以利用數(shù)據(jù)倉(cāng)庫(kù)以及數(shù)據(jù)挖掘技術(shù)建立多為數(shù)據(jù)庫(kù),利用數(shù)據(jù)挖掘進(jìn)技術(shù)對(duì)食品采購(gòu)數(shù)據(jù)進(jìn)行挖掘。依據(jù)現(xiàn)階段部隊(duì)的實(shí)際發(fā)展情況,建立一套新數(shù)據(jù)庫(kù)的成本代價(jià)比較高,因此,選用了目前社會(huì)上通用方法,對(duì)已經(jīng)存在的數(shù)據(jù)進(jìn)行一定改革與拓展,合理優(yōu)化系統(tǒng)數(shù)據(jù),成為新的數(shù)據(jù)庫(kù)。并且選取對(duì)數(shù)據(jù)挖掘影響比較大的系統(tǒng)性分析,包括訓(xùn)練系統(tǒng),食品采購(gòu)系統(tǒng)、人員管理系統(tǒng)以及醫(yī)療衛(wèi)生系統(tǒng)。針對(duì)食品采購(gòu)采購(gòu)系統(tǒng)建立數(shù)據(jù)模型。

二、在部隊(duì)食品采購(gòu)系統(tǒng)中的應(yīng)用以及其價(jià)值評(píng)價(jià)

在部隊(duì)食品采購(gòu)系統(tǒng)實(shí)際應(yīng)用工程中,其實(shí)可以運(yùn)用MicrosoftSQLServerAnalysisServices來(lái)對(duì)數(shù)據(jù)進(jìn)行分析,并且在數(shù)據(jù)挖掘過(guò)程中對(duì)多維數(shù)據(jù)進(jìn)行描述與查找起到一定作用。因?yàn)槎嗑S數(shù)據(jù)比較復(fù)雜,增長(zhǎng)的也比較快,因此,進(jìn)行手動(dòng)查找是很困難的,數(shù)據(jù)挖掘技術(shù)提供的計(jì)算模式可以很好的對(duì)數(shù)據(jù)進(jìn)行分析與查找。在建設(shè)部隊(duì)食品采購(gòu)倉(cāng)庫(kù)數(shù)據(jù)的時(shí)候,數(shù)據(jù)內(nèi)容主要包括了人員的健康、兵員的飲食以及訓(xùn)練等,進(jìn)行數(shù)據(jù)挖掘主要包括以下內(nèi)容:第一,把每個(gè)主題信息數(shù)據(jù)進(jìn)行收集、匯總、分析等,對(duì)人員情況、健康、飲食、訓(xùn)練等進(jìn)行合理分析;第二,多維分析數(shù)據(jù)信息。根據(jù)部隊(duì)的實(shí)際情況,利用數(shù)據(jù)挖掘技術(shù)對(duì)部隊(duì)人員健康、飲食、訓(xùn)練等數(shù)據(jù)信息進(jìn)行多維分析,其中包含上鉆、切片、下鉆等;第三,挖掘健康與飲食之間的內(nèi)在關(guān)系。根據(jù)數(shù)據(jù)庫(kù)中許多面向主題的歷史數(shù)據(jù),采用數(shù)據(jù)挖掘技術(shù)進(jìn)行分析與演算得到部隊(duì)人員的訓(xùn)練和健康情況與部隊(duì)飲食之間內(nèi)在關(guān)系,以便于為部隊(duì)食品采購(gòu)提供合理的、有效的保障,從而提高部隊(duì)整體人員的健康水平、身體素質(zhì)以及訓(xùn)練質(zhì)量,對(duì)提高我國(guó)部隊(duì)?wèi)?zhàn)斗力有著深遠(yuǎn)的意義。

三、結(jié)束語(yǔ)

篇4

統(tǒng)計(jì)學(xué)論文2000字(一):影響民族院校統(tǒng)計(jì)學(xué)專(zhuān)業(yè)回歸分析成績(jī)因素的研究論文

摘要:學(xué)習(xí)成績(jī)是評(píng)價(jià)學(xué)生素質(zhì)的重要方面,也是教師檢驗(yàn)教學(xué)能力、反思教學(xué)成果的重要標(biāo)準(zhǔn)。利用大連民族大學(xué)統(tǒng)計(jì)學(xué)專(zhuān)業(yè)本科生有關(guān)數(shù)據(jù)(專(zhuān)業(yè)基礎(chǔ)課成績(jī)、平時(shí)成績(jī)和回歸分析期末成績(jī)),建立多元線(xiàn)性回歸模型,對(duì)影響回歸分析期末成績(jī)的因素進(jìn)行深入研究,其結(jié)果對(duì)今后的教學(xué)方法改進(jìn)和教學(xué)質(zhì)量提高具有十分重要的指導(dǎo)意義。

關(guān)鍵詞:多元線(xiàn)性回歸;專(zhuān)業(yè)基礎(chǔ)課成績(jī);平時(shí)成績(jī);期末成績(jī)

為了實(shí)現(xiàn)教學(xué)目標(biāo),提高教學(xué)質(zhì)量,有效提高學(xué)生學(xué)習(xí)成績(jī)是很有必要的。我們知道專(zhuān)業(yè)基礎(chǔ)課成績(jī)必定影響專(zhuān)業(yè)課成績(jī),而且平時(shí)成績(jī)也會(huì)影響專(zhuān)業(yè)課成績(jī),這兩類(lèi)成績(jī)與專(zhuān)業(yè)課成績(jī)基本上是呈正相關(guān)的,但它們之間的關(guān)系密切程度有多大?它們之間又存在怎樣的內(nèi)在聯(lián)系呢?就這些問(wèn)題,本文主要選取了2016級(jí)統(tǒng)計(jì)專(zhuān)業(yè)50名學(xué)生的四門(mén)專(zhuān)業(yè)基礎(chǔ)課成績(jī)以及回歸分析的平時(shí)成績(jī)和期末成績(jī),運(yùn)用SPSS統(tǒng)計(jì)軟件進(jìn)行分析研究,尋求回歸分析期末成績(jī)影響因素的變化規(guī)律,擬合出關(guān)系式,從而為強(qiáng)化學(xué)生的后續(xù)學(xué)習(xí)和提高老師的教學(xué)質(zhì)量提供了有利依據(jù)。

一、數(shù)據(jù)選取

回歸分析是統(tǒng)計(jì)專(zhuān)業(yè)必修課,也是統(tǒng)計(jì)學(xué)中的一個(gè)非常重要的分支,它在自然科學(xué)、管理科學(xué)和社會(huì)、經(jīng)濟(jì)等領(lǐng)域應(yīng)用十分廣泛。因此研究影響統(tǒng)計(jì)學(xué)專(zhuān)業(yè)回歸分析成績(jī)的相關(guān)性是十分重要的。

選取了統(tǒng)計(jì)專(zhuān)業(yè)50名學(xué)生的專(zhuān)業(yè)基礎(chǔ)課成績(jī)(包括數(shù)學(xué)分析、高等代數(shù)、解析幾何和概率論)、回歸分析的平時(shí)成績(jī)和期末成績(jī),結(jié)合多元線(xiàn)性回歸的基礎(chǔ)理論知識(shí)[1-2],建立多元回歸方程,進(jìn)行深入研究,可以直觀(guān)、高效、科學(xué)地分析各種因素對(duì)回歸分析期末成績(jī)?cè)斐傻挠绊憽?/p>

二、建立多元線(xiàn)性回歸模型1及數(shù)據(jù)分析

運(yùn)用SPSS統(tǒng)計(jì)軟件對(duì)回歸分析期末成績(jī)的影響因素進(jìn)行研究,可以得到準(zhǔn)確、科學(xué)合理的數(shù)據(jù)結(jié)果,全面分析評(píng)價(jià)學(xué)生考試成績(jī),對(duì)教師以后的教學(xué)工作和學(xué)生的學(xué)習(xí)會(huì)有較大幫助。自變量x1表示數(shù)學(xué)分析成績(jī),x2表示高等代數(shù)成績(jī),x3表示解析幾何成績(jī),x4表示概率論成績(jī),x5表示平時(shí)成績(jī);因變量y1表示回歸分析期末成績(jī),根據(jù)經(jīng)驗(yàn)可知因變量y1和自變量xi,i=1,2,3,4,5之間大致成線(xiàn)性關(guān)系,可建立線(xiàn)性回歸模型:

(1)

線(xiàn)性回歸模型通常滿(mǎn)足以下幾個(gè)基本假設(shè),

1.隨機(jī)誤差項(xiàng)具有零均值和等方差,即

(2)

這個(gè)假定通常稱(chēng)為高斯-馬爾柯夫條件。

2.正態(tài)分布假定條件

由多元正態(tài)分布的性質(zhì)和上述假定可知,隨機(jī)變量y1服從n維正態(tài)分布。

從表1描述性統(tǒng)計(jì)表中可看到各變量的平均值1=79.68,2=74.66,3=77.22,4=78.10,5=81.04,1=75.48;xi的標(biāo)準(zhǔn)差分別為10.847,11.531,8.929,9.018,9.221,y1的標(biāo)準(zhǔn)差為8.141;有效樣本量n=50。

回歸分析期末成績(jī)y1的多元回歸模型1為:

y1=-5.254+0.221x1-0.4x2+0.154x3

+0.334x4+0.347x5

從表2中可以看到各變量的|t|值,在給定顯著水平?琢=0.05的情況下,通過(guò)t分布表可以查出,自由度為44的臨界值t?琢/2(44)=2.015,由于高等代數(shù)x2的|t|值為0.651小于t?琢/2(44),因此x2對(duì)y1的影響不顯著,其他自變量對(duì)y1都是線(xiàn)性顯著的。下面利用后退法[3]剔除自變量x2。

三、后退法建立多元線(xiàn)性回歸模型2及數(shù)據(jù)分析

從模型1中剔除了x2變量,多元回歸模型2為:

y1=-5.459+0.204x1+0.149x3+0.377x4+0.293x5(5)

在表4中,F(xiàn)統(tǒng)計(jì)量為90.326,在給定顯著水平?琢=0.05的情況下,查F分布表可得,自由度為p=4和n-p-1=45的臨界值F0.05(4,45)=2.579,所以F>F0.05(4,45),在表5中,所有自變量的|t|值都大于t?琢/2(45)=2.014,因此,多元回歸模型2的線(xiàn)性關(guān)系是顯著的。

四、結(jié)束語(yǔ)

通過(guò)對(duì)上述模型進(jìn)行分析,即各個(gè)自變量對(duì)因變量的邊際影響,可以得到以下結(jié)論:在保持其他條件不變的情況下,當(dāng)數(shù)學(xué)分析成績(jī)提高一分,則回歸分析成績(jī)可提高0.242分[4-5];同理,當(dāng)解析幾何成績(jī)、概率論成績(jī)和平時(shí)成績(jī)每提高一分,則回歸分析成績(jī)分別提高0.149分、0.377分和0.293分。

通過(guò)對(duì)學(xué)生專(zhuān)業(yè)基礎(chǔ)課成績(jī)、平時(shí)成績(jī)與回歸分析期末成績(jī)之間相關(guān)關(guān)系的研究,一方面有利于教師把控回歸分析教學(xué)課堂,提高教師意識(shí),注重專(zhuān)業(yè)基礎(chǔ)課教學(xué)的重要性,同時(shí),當(dāng)學(xué)生平時(shí)成績(jī)不好時(shí),隨時(shí)調(diào)整教學(xué)進(jìn)度提高學(xué)生平時(shí)學(xué)習(xí)能力;另一方面使學(xué)生認(rèn)識(shí)到,為了更好地掌握回歸分析知識(shí),應(yīng)加強(qiáng)專(zhuān)業(yè)基礎(chǔ)課的學(xué)習(xí),提高平時(shí)學(xué)習(xí)的積極性。因此,通過(guò)對(duì)回歸分析期末成績(jī)影響因素的研究能有效的解決教師教學(xué)和學(xué)生學(xué)習(xí)中的許多問(wèn)題。

統(tǒng)計(jì)學(xué)畢業(yè)論文范文模板(二):大數(shù)據(jù)背景下統(tǒng)計(jì)學(xué)專(zhuān)業(yè)“數(shù)據(jù)挖掘”課程的教學(xué)探討論文

摘要:互聯(lián)網(wǎng)技術(shù)、物聯(lián)網(wǎng)技術(shù)、云計(jì)算技術(shù)的蓬勃發(fā)展,造就了一個(gè)嶄新的大數(shù)據(jù)時(shí)代,這些變化對(duì)統(tǒng)計(jì)學(xué)專(zhuān)業(yè)人才培養(yǎng)模式的變革起到了助推器的作用,而數(shù)據(jù)挖掘作為拓展和提升大數(shù)據(jù)分析方法與思路的應(yīng)用型課程,被廣泛納入統(tǒng)計(jì)學(xué)本科專(zhuān)業(yè)人才培養(yǎng)方案。本文基于數(shù)據(jù)挖掘課程的特點(diǎn),結(jié)合實(shí)際教學(xué)經(jīng)驗(yàn),對(duì)統(tǒng)計(jì)學(xué)本科專(zhuān)業(yè)開(kāi)設(shè)數(shù)據(jù)挖掘課程進(jìn)行教學(xué)探討,以期達(dá)到更好的教學(xué)效果。

關(guān)鍵詞:統(tǒng)計(jì)學(xué)專(zhuān)業(yè);數(shù)據(jù)挖掘;大數(shù)據(jù);教學(xué)

一、引言

通常人們總結(jié)大數(shù)據(jù)有“4V”的特點(diǎn):Volume(體量大),Variety(多樣性),Velocity(速度快)和Value(價(jià)值密度低)。從這樣大量、多樣化的數(shù)據(jù)中挖掘和發(fā)現(xiàn)內(nèi)在的價(jià)值,是這個(gè)時(shí)代帶給我們的機(jī)遇與挑戰(zhàn),同時(shí)對(duì)數(shù)據(jù)分析技術(shù)的要求也相應(yīng)提高。傳統(tǒng)教學(xué)模式并不能適應(yīng)和滿(mǎn)足學(xué)生了解數(shù)據(jù)處理和分析最新技術(shù)與方法的迫切需要。對(duì)于常常和數(shù)據(jù)打交道的統(tǒng)計(jì)學(xué)專(zhuān)業(yè)的學(xué)生來(lái)說(shuō),更是如此。

二、課程教學(xué)探討

針對(duì)統(tǒng)計(jì)學(xué)本科專(zhuān)業(yè)的學(xué)生而言,“數(shù)據(jù)挖掘”課程一般在他們?nèi)昙?jí)或者四年級(jí)所開(kāi)設(shè),他們?cè)谇捌谝呀?jīng)學(xué)習(xí)完統(tǒng)計(jì)學(xué)、應(yīng)用回歸分析、多元統(tǒng)計(jì)分析、時(shí)間序列分析等課程,所以在“數(shù)據(jù)挖掘”課程的教學(xué)內(nèi)容選擇上要有所取舍,同時(shí)把握好難度。不能把“數(shù)據(jù)挖掘”課程涵蓋了的所有內(nèi)容不加選擇地要求學(xué)生全部掌握,對(duì)學(xué)生來(lái)說(shuō)是不太現(xiàn)實(shí)的,需要為統(tǒng)計(jì)學(xué)專(zhuān)業(yè)本科生“個(gè)性化定制”教學(xué)內(nèi)容。

(1)“數(shù)據(jù)挖掘”課程的教學(xué)應(yīng)該偏重于應(yīng)用,更注重培養(yǎng)學(xué)生解決問(wèn)題的能力。因此,教學(xué)目標(biāo)應(yīng)該是:使學(xué)生樹(shù)立數(shù)據(jù)挖掘的思維體系,掌握數(shù)據(jù)挖掘的基本方法,提高學(xué)生的實(shí)際動(dòng)手能力,為在大數(shù)據(jù)時(shí)代,進(jìn)一步學(xué)習(xí)各種數(shù)據(jù)處理和定量分析工具打下必要的基礎(chǔ)。按照這個(gè)目標(biāo),教學(xué)內(nèi)容應(yīng)以數(shù)據(jù)挖掘技術(shù)的基本原理講解為主,讓學(xué)生了解和掌握各種技術(shù)和方法的來(lái)龍去脈、功能及優(yōu)缺點(diǎn);以算法講解為輔,由于有R語(yǔ)言、python等軟件,學(xué)生了解典型的算法,能用軟件把算法實(shí)現(xiàn),對(duì)軟件的計(jì)算結(jié)果熟練解讀,對(duì)各種算法的改進(jìn)和深入研究則不作要求,有興趣的同學(xué)可以自行課下探討。

(2)對(duì)于已經(jīng)學(xué)過(guò)的內(nèi)容不再詳細(xì)講解,而是側(cè)重介紹它們?cè)跀?shù)據(jù)挖掘中的功能及綜合應(yīng)用。在新知識(shí)的講解過(guò)程中,注意和已學(xué)過(guò)知識(shí)的融匯貫通,既復(fù)習(xí)鞏固了原來(lái)學(xué)過(guò)的知識(shí),同時(shí)也無(wú)形中降低了新知識(shí)的難度。比如,在數(shù)據(jù)挖掘模型評(píng)估中,把混淆矩陣、ROC曲線(xiàn)、誤差平方和等知識(shí)點(diǎn)就能和之前學(xué)過(guò)的內(nèi)容有機(jī)聯(lián)系起來(lái)。

(3)結(jié)合現(xiàn)實(shí)數(shù)據(jù),讓學(xué)生由“被動(dòng)接收”式的學(xué)習(xí)變?yōu)椤爸鲃?dòng)探究”型的學(xué)習(xí)。在講解每種方法和技術(shù)之后,增加一個(gè)或幾個(gè)案例,以加強(qiáng)學(xué)生對(duì)知識(shí)的理解。除了充分利用已有的國(guó)內(nèi)外數(shù)據(jù)資源,還可以鼓勵(lì)學(xué)生去搜集自己感興趣的或者國(guó)家及社會(huì)大眾關(guān)注的問(wèn)題進(jìn)行研究,提升學(xué)生學(xué)習(xí)的成就感。

(4)充分考慮前述提到的三點(diǎn),課程內(nèi)容計(jì)劃安排見(jiàn)表1。

(5)課程的考核方式既要一定的理論性,又不能失掉實(shí)踐應(yīng)用性,所以需要結(jié)合平時(shí)課堂表現(xiàn)、平時(shí)實(shí)驗(yàn)項(xiàng)目完成情況和期末考試來(lái)綜合評(píng)定成績(jī)。采取期末閉卷理論考試占50%,平時(shí)實(shí)驗(yàn)項(xiàng)目完成占40%,課堂表現(xiàn)占10%,這樣可以全方位的評(píng)價(jià)學(xué)生的表現(xiàn)。

三、教學(xué)效果評(píng)估

經(jīng)過(guò)幾輪的教學(xué)實(shí)踐后,取得了如下的教學(xué)效果:

(1)學(xué)生對(duì)課程的興趣度在提升,課下也會(huì)不停地去思考數(shù)據(jù)挖掘有關(guān)的方法和技巧,發(fā)現(xiàn)問(wèn)題后會(huì)一起交流與討論。

(2)在大學(xué)生創(chuàng)新創(chuàng)業(yè)項(xiàng)目或者數(shù)據(jù)分析的有關(guān)競(jìng)賽中,選用數(shù)據(jù)挖掘方法的人數(shù)也越來(lái)越多,部分同學(xué)的成果還能在期刊上正式發(fā)表,有的同學(xué)還能在競(jìng)賽中取得優(yōu)秀的成績(jī)。

(3)統(tǒng)計(jì)學(xué)專(zhuān)業(yè)本科生畢業(yè)論文的選題中利用數(shù)據(jù)挖掘有關(guān)方法來(lái)完成的論文越來(lái)越多,論文的完成質(zhì)量也在不斷提高。

(4)本科畢業(yè)生的就業(yè)崗位中從事數(shù)據(jù)挖掘工作的人數(shù)有所提高,說(shuō)明滿(mǎn)足企業(yè)需求技能的人數(shù)在增加。繼續(xù)深造的畢業(yè)生選擇數(shù)據(jù)挖掘研究方向的人數(shù)也在逐漸增多,表明學(xué)生的學(xué)習(xí)興趣得以激發(fā)。

教學(xué)實(shí)踐結(jié)果表明,通過(guò)數(shù)據(jù)挖掘課程的學(xué)習(xí),可以讓學(xué)生在掌握理論知識(shí)的基礎(chǔ)上,進(jìn)一步提升分析問(wèn)題和解決實(shí)際問(wèn)題的能力。

篇5

>> 基于本體的網(wǎng)絡(luò)輿情觀(guān)點(diǎn)挖掘方法研究 基于熱點(diǎn)文件下載的網(wǎng)絡(luò)輿情信息挖掘方法研究 基于網(wǎng)頁(yè)文本獲取的高校網(wǎng)絡(luò)輿情監(jiān)控 基于OAG循環(huán)的網(wǎng)絡(luò)輿情管理模型研究 基于大規(guī)模文本數(shù)據(jù)情感挖掘的企業(yè)輿情研究 基于文本挖掘的網(wǎng)絡(luò)媒體報(bào)道研究 基于模糊神經(jīng)網(wǎng)絡(luò)的Web文本挖掘系統(tǒng) 基于PDCA循環(huán)的預(yù)算管理 基于PDCA循環(huán)的績(jī)效考評(píng) 基于 PDCA 循環(huán)方法的瀝青路面質(zhì)量動(dòng)態(tài)管理的研究 基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)輿情預(yù)警決策支持系統(tǒng) 基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)輿情智能監(jiān)測(cè)與引導(dǎo)平臺(tái)設(shè)計(jì)研究 基于Web挖掘的突發(fā)事件網(wǎng)絡(luò)輿情預(yù)警研究 基于Web數(shù)據(jù)挖掘的網(wǎng)絡(luò)輿情分析技術(shù)研究 基于Web挖掘的突發(fā)事件網(wǎng)絡(luò)輿情預(yù)警策略探討 基于數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)輿情預(yù)測(cè)中的應(yīng)用 基于數(shù)據(jù)挖掘的高校網(wǎng)絡(luò)輿情分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) 基于數(shù)據(jù)挖掘的輿情觀(guān)點(diǎn)挖掘研究 基于蛙鳴博弈的網(wǎng)絡(luò)輿情與政府監(jiān)管的模型淺析 基于PDCA循環(huán)的績(jī)效管理體系的構(gòu)建 常見(jiàn)問(wèn)題解答 當(dāng)前所在位置:.

[2]張玉亮.突發(fā)事件網(wǎng)絡(luò)輿情的生成原因與導(dǎo)控策略――基于網(wǎng)絡(luò)輿情主體心理的分析視閾[J].情報(bào)雜志,2012,31(4):54-57.

[3]許鑫,章成志,李雯靜.國(guó)內(nèi)網(wǎng)絡(luò)輿情研究的回顧與展望[J].情報(bào)理論與實(shí)踐,2009,32(3):115-120.

[4]Hua Zhao,Qingtian Zeng.Micro-blog Hot Event Detection Based on Dynamic Event Model.Lecture Notes in Artificial Intelligence 8041,2013:161-172.

[5]鄭軍.網(wǎng)絡(luò)輿情監(jiān)控的熱點(diǎn)發(fā)現(xiàn)算法研究[D].哈爾濱哈爾濱工程大學(xué),2007.

[6]陳耘可,李博,鄭天翔.PDCA循環(huán)在煤炭企業(yè)質(zhì)量標(biāo)準(zhǔn)化建設(shè)中的研究與應(yīng)用[J].煤炭經(jīng)濟(jì)研究,2013,33(2):77-79.

[7]辛敏.PDCA理論在護(hù)理質(zhì)量管理中的應(yīng)用研究[D].碩士學(xué)位論文:山西醫(yī)科大學(xué),2010.

篇6

關(guān)鍵詞: 居民出行特征; 數(shù)據(jù)挖掘; GPS軌跡數(shù)據(jù); DBSCAN

中圖分類(lèi)號(hào):TP29 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2017)05-37-03

Research on the characteristics of resident travel based on the taxi

GPS trajectory data mining

Lin Jiyan, Zhang Yaqiong, Zhang Hui

(School of Information Technology, Yulin University, Yulin, Shaanxi 719000, China)

Abstract: The analysis to the characteristics of urban residents travel is becoming increasingly important in urban traffic planning, and has become an important basis of urban road traffic construction. The urban taxi can well reflect the characteristics of residents travel because of its operational characteristics and rule. Therefore, in order to effectively solve the problem of city road congestion and provide the basis for city traffic planning, the paper presents the research on the characteristics of resident travel based on the taxi GPS trajectory data mining. The research uses DBSCAN algorithm to realize the clustering analysis of the historical GPS trajectory data, which can not only extract the temporal and spatial characteristics of urban resident travel, but also effectively reduce the taxi no-load rate.

Key words: resident travel characteristic; data mining; GPS trajectory data; DBSCAN

0 引言

在城市的上下班高峰期,道路磯率淺鞘薪煌ㄎ侍庵兇釵突出的難題,這跟城市居民出行行為密不可分,因?yàn)槌鲂械木用袷墙煌康闹饕獊?lái)源[1]。一個(gè)城市的交通系統(tǒng)狀況跟城市居民的出行行為息息相關(guān),居民的出行行為會(huì)對(duì)城市交通體系產(chǎn)生影響[2]。對(duì)居民出行特征進(jìn)行研究是城市和交通規(guī)劃、城市公共基礎(chǔ)設(shè)施建設(shè)管理中的一個(gè)基礎(chǔ)性任務(wù),不僅可以用來(lái)對(duì)目前的交通出行情況進(jìn)行評(píng)估,也可以用來(lái)對(duì)居民的出行需求進(jìn)行預(yù)測(cè),對(duì)實(shí)施合理有效的城市交通規(guī)劃起著至關(guān)重要的作用[3]。

出租車(chē)因其靈活性和便利性,已日漸成為城市交通系統(tǒng)的重要組成部分,同時(shí),因?yàn)樗钠瘘c(diǎn)和終點(diǎn)由乘客決定,且24小時(shí)不間斷服務(wù),所以,出租車(chē)的運(yùn)營(yíng)規(guī)律能夠反映出乘客的出行特征[4]。由于裝載在出租車(chē)上的GPS和通信設(shè)備以一定的頻率向城市交通客運(yùn)管理中心傳送出租車(chē)的實(shí)時(shí)經(jīng)緯度、運(yùn)營(yíng)狀態(tài)、行駛方向、速度等信息,因此,管理中心會(huì)積累大量的出租車(chē)GPS軌跡數(shù)據(jù)[5],利用DBSCAN對(duì)這些進(jìn)行數(shù)據(jù)進(jìn)行聚類(lèi)分析,可以在一定程度上挖掘乘客出行的時(shí)空特征,也能為出租車(chē)尋找最佳的載客區(qū)域提供依據(jù),有效的降低出租車(chē)的空駛率。

1 GPS軌跡數(shù)據(jù)挖掘設(shè)計(jì)

1.1 數(shù)據(jù)預(yù)處理

本文選取榆陽(yáng)區(qū)(地理坐標(biāo)為東經(jīng)108?58'-110?24',北緯37?49'-38?58'之間)作為研究區(qū)域,GPS軌跡數(shù)據(jù)使用榆陽(yáng)區(qū)1100多輛出租車(chē)五天的運(yùn)營(yíng)數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行預(yù)處理后,出租車(chē)軌跡數(shù)據(jù)由車(chē)牌ID tID、、當(dāng)前位置loc、GPS時(shí)間ct、營(yíng)運(yùn)狀態(tài)tsta、行駛方向tdir、GPS速度dspe等六個(gè)屬性組成,部分屬性值如表1所示。

表1中,營(yíng)運(yùn)狀態(tài)的取值為0-3,其中0表示空載,1表示載客,2表示駐車(chē),3表示停運(yùn);GPS方向的取值為000-360,以度為單位,即與北極方向的夾角,代表車(chē)輛的行駛方向。

1.2 利用DBSCAN算法進(jìn)行聚類(lèi)挖掘

居民的作息和社會(huì)活動(dòng)有明顯的時(shí)間規(guī)律,比如上下班高峰期的載客點(diǎn)分布情況和非高峰期的居民出行特征有可能完全不同,因此,可以先將GPS歷史軌跡數(shù)據(jù)根據(jù)時(shí)間特征分類(lèi),再進(jìn)行密度聚類(lèi)分析,如此便可充分挖掘在不同時(shí)間段上居民出行特征的空間密度分布情況,給出租車(chē)提供更加合理的時(shí)空載客區(qū)域分布數(shù)據(jù),有效地提高其巡游過(guò)程中的載客成功率?;诖耍撐囊肓薉BBSCAN算法,該算法需要3個(gè)輸入?yún)?shù):歷史軌跡數(shù)據(jù)對(duì)象D,空間半徑ε,以及密度閾值MinPts;輸出參數(shù)為聚類(lèi)簇C,部分MATLAB代碼如下:

data=importdata('data.xlsx');

data=data.data.Sheet1;

……

num=size(data,1);

k=floor(log(num))+1;

k=round(num/25)+1;

k_dist=zeros(num,1);

for i=1:num

temp=repmat(data(i,:),num,1);

gx0=temp(:,1); gy0=temp(:,2);

gx1=data(:,1);gy1=data(:,2);

dist0=sqrt((gx0-gx1).^2+(gy0-gy1).^2);

dist_s=sort(dist0);

k_dist(i)=dist_s(k);

end

x=1:num;

figure;plot(x,k_dist,'r-');

xlabel('?ù±?±à??');ylabel('k_{-}dist');title('k_{-}dist??');

……

x=[(1:m)' data];

[m,n]=size(x);

types=zeros(1,m);

dealed=zeros(m,1);

dis=calDistance(x(:,2:n));

number=1;

……

img=imread('map.jpg');

[Ny,Nx]=size(img);

……

figure;imagesc(x00,y00,img); colormap(gray); hold on;

for i=1:m

if class(i)==-1

plot(data(i,1),data(i,2),'.r');

else if class(i)==1

if types(i)==1

plot(data(i,1),data(i,2),'+b');

else

plot(data(i,1),data(i,2),'.b');

end

elseif class(i)==2

if types(i)==1

plot(data(i,1),data(i,2),'+g');

else

plot(data(i,1),data(i,2),'.g');

end

……

plot(x1,y1,'r*');

xlabel('度'); ylabel('緯度');

2 實(shí)驗(yàn)結(jié)果

聚類(lèi)結(jié)果如圖1和圖2所示,出行熱點(diǎn)區(qū)域在圖中用圓圈標(biāo)出。

以上的聚類(lèi)結(jié)果顯示,榆陽(yáng)區(qū)的居民出行呈現(xiàn)一定空間和時(shí)間特征。工作日和非工作日出租車(chē)熱點(diǎn)區(qū)域不同,且工作日的不同時(shí)間居民出行的特征不同;在工作日,出租車(chē)的載客熱點(diǎn)數(shù)比非工作日多;而載客熱點(diǎn)分布,工作日比非工作日分散。該聚類(lèi)結(jié)果也可以給出租車(chē)司機(jī)提供歷史載客熱點(diǎn)序列,從一定程度上解決巡游方式的出租車(chē)空載率高的問(wèn)題。

3 結(jié)束語(yǔ)

本文利用DBSCAN算法對(duì)出租車(chē)的歷史GPS軌跡數(shù)據(jù)進(jìn)行挖掘,從挖掘結(jié)果可以分析出居民出行的時(shí)空特征,從而用來(lái)對(duì)目前的交通出行情況進(jìn)行評(píng)估,同時(shí)也可以用來(lái)對(duì)居民的出行需求進(jìn)行預(yù)測(cè);再者,可以根據(jù)挖掘結(jié)果給出租車(chē)司機(jī)提供歷史載客熱點(diǎn)序列,幫助出租車(chē)司機(jī)降低空駛率。本文僅針對(duì)工作日和周末特定時(shí)刻給出了聚類(lèi)分析,沒(méi)有詳細(xì)地分析一天中不同時(shí)刻的居民出行特征,以后的工作中會(huì)繼續(xù)研究和改進(jìn)。

參考文獻(xiàn)(References):

[1] 衛(wèi)龍,高紅梅.基于軌跡數(shù)據(jù)挖掘的居民出行特征研究進(jìn)展[J].西部交通科技,2016.10:87-92

[2] 馮琦森.基于出租車(chē)軌跡的居民出行熱點(diǎn)路徑和區(qū)域挖掘[D].重慶大學(xué),2016.

[3] 陳世莉,陶海燕,李旭亮,卓莉.基于潛在語(yǔ)義信息的城市功能區(qū)識(shí)別――廣州市浮動(dòng)車(chē)GPS時(shí)空數(shù)據(jù)挖掘[J].地理學(xué)報(bào),2016.3:471-483

[4] 張俊濤,武芳,張浩.利用出租車(chē)軌跡數(shù)據(jù)挖掘城市居民出行特征[J].地理與地理信息科學(xué),2015.6:104-108

[5] 張薇,林龍.基于數(shù)據(jù)挖掘的增城居民出行特征分析[J].科技和產(chǎn)業(yè),2015.7:61-64

[6] 趙苗苗.基于出租車(chē)軌跡數(shù)據(jù)挖掘的推薦模型研究[D].首都經(jīng)濟(jì)貿(mào)易大學(xué)碩士學(xué)位論文,2015.

[7] 童曉君.基于出租車(chē)GPS數(shù)據(jù)的居民出行行為分析[D].中南大學(xué)碩士學(xué)位論文,2012.

篇7

論文關(guān)鍵詞:數(shù)據(jù)挖掘;電子商務(wù);web數(shù)據(jù)挖掘 

 

1 引言 

當(dāng)前,隨著網(wǎng)絡(luò)技術(shù)的發(fā)展和數(shù)據(jù)庫(kù)技術(shù)的迅猛發(fā)展,有效推動(dòng)了商務(wù)活動(dòng)由傳統(tǒng)活動(dòng)向電子商務(wù)變革。電子商務(wù)就是利用計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)以及遠(yuǎn)程通信技術(shù),實(shí)現(xiàn)整個(gè)商務(wù)活動(dòng)的電子化、數(shù)字化和網(wǎng)絡(luò)化?;趇nternet的電子商務(wù)快速發(fā)展,使現(xiàn)代企業(yè)積累了大量的數(shù)據(jù),這些數(shù)據(jù)不僅能給企業(yè)帶來(lái)更多有用信息,同時(shí)還使其他現(xiàn)代企業(yè)管理者能夠及時(shí)準(zhǔn)確的搜集到大量的數(shù)據(jù)。訪(fǎng)問(wèn)客戶(hù)提供更多更優(yōu)質(zhì)的服務(wù),成為電子商務(wù)成敗的關(guān)鍵因素,因而受到現(xiàn)代電子商務(wù)經(jīng)營(yíng)者的高度關(guān)注,這也對(duì)計(jì)算機(jī)web數(shù)據(jù)技術(shù)提出了新的要求,web 數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。它是一種能夠從網(wǎng)上獲取大量數(shù)據(jù),并能有效地提取有用信息供企業(yè)決策者分析參考,以便科學(xué)合理制定和調(diào)整營(yíng)銷(xiāo)策略,為客戶(hù)提供動(dòng)態(tài)、個(gè)性化、高效率服務(wù)的全新技術(shù)。目前,它已成為電子商務(wù)活動(dòng)中不可或缺的重要載體。 

2 計(jì)算機(jī)web數(shù)據(jù)挖掘概述 

2.1 計(jì)算機(jī)web數(shù)據(jù)挖掘的由來(lái) 

計(jì)算機(jī)web數(shù)據(jù)挖掘是一個(gè)在web資源上將對(duì)自己有用的數(shù)據(jù)信息進(jìn)行篩選的過(guò)程。web數(shù)據(jù)挖掘是把傳統(tǒng)的數(shù)據(jù)挖掘思想和方法移植到web應(yīng)用中,即從現(xiàn)有的web文檔和活動(dòng)中挑選自己感興趣且有用的模式或者隱藏的數(shù)據(jù)信息。計(jì)算機(jī)web數(shù)據(jù)挖掘可以在多領(lǐng)域中展示其作用,目前已被廣泛應(yīng)用于數(shù)據(jù)庫(kù)技術(shù)、信息獲取技術(shù)、統(tǒng)計(jì)學(xué)、人工智能中的機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等多個(gè)方面,其中對(duì)商務(wù)活動(dòng)的變革起到重大的推動(dòng)作用方面最為明顯。 

2.2 計(jì)算機(jī)web數(shù)據(jù)挖掘含義及特征 

(1) web數(shù)據(jù)挖掘的含義。 

web 數(shù)據(jù)挖掘是指數(shù)據(jù)挖掘技術(shù)在web 環(huán)境下的應(yīng)用,是一項(xiàng)數(shù)據(jù)挖掘技術(shù)與www技術(shù)相結(jié)合產(chǎn)生的新技術(shù),綜合運(yùn)用到了計(jì)算機(jī)語(yǔ)言、internet、人工智能、統(tǒng)計(jì)學(xué)、信息學(xué)等多個(gè)領(lǐng)域的技術(shù)。具體說(shuō),就是通過(guò)充分利用網(wǎng)絡(luò)(internet),挖掘用戶(hù)訪(fǎng)問(wèn)日志文件、商品信息、搜索信息、購(gòu)銷(xiāo)信息以及網(wǎng)絡(luò)用戶(hù)登記信息等內(nèi)容,從中找出隱性的、潛在有用的和有價(jià)值的信息,最后再用于企業(yè)管理和商業(yè)決策。 

(2)web數(shù)據(jù)挖掘的特點(diǎn)。 

計(jì)算機(jī)web數(shù)據(jù)挖掘技術(shù)具有以下特點(diǎn):一是用戶(hù)不用提供主觀(guān)的評(píng)價(jià)信息;二是用戶(hù)“訪(fǎng)問(wèn)模式動(dòng)態(tài)獲取”不會(huì)過(guò)時(shí);三是可以處理大規(guī)模的數(shù)據(jù)量,并且使用方便;四是與傳統(tǒng)數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)相比,web是一個(gè)巨大、分布廣泛、全球性的信息服務(wù)中心。 

(3)計(jì)算機(jī)web數(shù)據(jù)挖掘技術(shù)的類(lèi)別。 

web數(shù)據(jù)挖掘技術(shù)共有三類(lèi):第一類(lèi)是web使用記錄挖掘。就是通過(guò)網(wǎng)絡(luò)對(duì)web 日志記錄進(jìn)行挖掘,查找用戶(hù)訪(fǎng)問(wèn)web頁(yè)面的模式及潛在客戶(hù)等信息,以此提高其站點(diǎn)所有服務(wù)的競(jìng)爭(zhēng)力。第二類(lèi)是web內(nèi)容挖掘。既是指從web文檔中抽取知識(shí)的過(guò)程。第三類(lèi)是web結(jié)構(gòu)挖掘。就是通過(guò)對(duì)web上大量文檔集合的內(nèi)容進(jìn)行小結(jié)、聚類(lèi)、關(guān)聯(lián)分析的方式,從web文檔的組織結(jié)構(gòu)和鏈接關(guān)系中預(yù)測(cè)相關(guān)信息和知識(shí)。 

3 計(jì)算機(jī)web數(shù)據(jù)挖掘技術(shù)與電子商務(wù)的關(guān)系 

借助計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的日臻成熟,電子商務(wù)正以其快速、便捷的特點(diǎn)受到越來(lái)越多的企業(yè)和個(gè)人的關(guān)注。隨著電子商務(wù)企業(yè)業(yè)務(wù)規(guī)模的不斷擴(kuò)大,電子商務(wù)企業(yè)的商品和客戶(hù)數(shù)量也隨之迅速增加,電子商務(wù)企業(yè)以此獲得了大量的數(shù)據(jù),這些數(shù)據(jù)正成為了電子商務(wù)企業(yè)客戶(hù)管理和銷(xiāo)售管理的重要信息。為了更好地開(kāi)發(fā)和利用這些數(shù)據(jù)資源,以便給企業(yè)和客戶(hù)帶來(lái)更多的便利和實(shí)惠,各種數(shù)據(jù)挖掘技術(shù)也逐漸被應(yīng)用到電子商務(wù)網(wǎng)站中。目前,基于數(shù)據(jù)挖掘(特別是web數(shù)據(jù)挖掘)技術(shù)構(gòu)建的電子商務(wù)推薦系統(tǒng)正成為電子商務(wù)推薦系統(tǒng)發(fā)展的一種趨勢(shì)。 

4 計(jì)算機(jī)web數(shù)據(jù)挖掘在電子商務(wù)中的具體應(yīng)用 

(1)電子商務(wù)中的web數(shù)據(jù)挖掘的過(guò)程。 

在電子商務(wù)中,web數(shù)據(jù)挖掘的過(guò)程主要有以下三個(gè)階段:既是數(shù)據(jù)準(zhǔn)備階段、數(shù)據(jù)挖掘操作階段、結(jié)果表達(dá)和解釋階段。如果在結(jié)果表達(dá)階段中,分析結(jié)果不能讓電子商務(wù)企業(yè)的決策者滿(mǎn)意,就需要重復(fù)上述過(guò)程,直到滿(mǎn)意為止。 

(2)web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用。 

目前,電子商務(wù)在企業(yè)中得到廣泛應(yīng)用,極大地促進(jìn)了電子商務(wù)網(wǎng)站的興起,經(jīng)過(guò)分析一定時(shí)期內(nèi)站點(diǎn)上的用戶(hù)的訪(fǎng)問(wèn)信息,便可發(fā)現(xiàn)該商務(wù)站點(diǎn)上潛在的客戶(hù)群體、相關(guān)頁(yè)面、聚類(lèi)客戶(hù)等數(shù)據(jù)信息,企業(yè)信息系統(tǒng)因此會(huì)獲得大量的數(shù)據(jù),如此多的數(shù)據(jù)使web數(shù)據(jù)挖掘有了豐富的數(shù)據(jù)基礎(chǔ),使它在各種商業(yè)領(lǐng)域有著更加重要的實(shí)用價(jià)值。因而,電子商務(wù)必將是未來(lái)web數(shù)據(jù)挖掘的主攻方向。web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用主要包含以下幾方面: 

一是尋找潛在客戶(hù)。電子商務(wù)活動(dòng)中,企業(yè)的銷(xiāo)售商可以利用分類(lèi)技術(shù)在internet上找到潛在客戶(hù),通過(guò)挖掘web日志記錄等信息資源,對(duì)訪(fǎng)問(wèn)者進(jìn)行分類(lèi),尋找訪(fǎng)問(wèn)客戶(hù)共同的特征和規(guī)律,然后從已經(jīng)存在的分類(lèi)中找到潛在的客戶(hù)。 

二是留住訪(fǎng)問(wèn)客戶(hù)。電子商務(wù)企業(yè)通過(guò)商務(wù)網(wǎng)站可以充分挖掘客戶(hù)瀏覽訪(fǎng)問(wèn)時(shí)留下的信息,了解客戶(hù)的瀏覽行為,然后根據(jù)客戶(hù)不同的愛(ài)好和要求,及時(shí)做出讓訪(fǎng)問(wèn)客戶(hù)滿(mǎn)意的頁(yè)面推薦和專(zhuān)屬性產(chǎn)品,以此來(lái)不斷提高網(wǎng)站訪(fǎng)問(wèn)的滿(mǎn)意度,最大限度延長(zhǎng)客戶(hù)駐留的時(shí)間,實(shí)現(xiàn)留住老客戶(hù)發(fā)掘新客戶(hù)的目的。 

三是提供營(yíng)銷(xiāo)策略參考。通過(guò)web數(shù)據(jù)挖掘,電子商務(wù)企業(yè)銷(xiāo)售商能夠通過(guò)挖掘商品訪(fǎng)問(wèn)情況和銷(xiāo)售情況,同時(shí)結(jié)合市場(chǎng)的變化情況,通過(guò)聚類(lèi)分析的方法,推導(dǎo)出客戶(hù)訪(fǎng)問(wèn)的規(guī)律,不同的消費(fèi)需求以及消費(fèi)產(chǎn)品的生命周期等情況,為決策提供及時(shí)而準(zhǔn)確的信息參考,以便決策者能夠適時(shí)做出商品銷(xiāo)售策略調(diào)整,優(yōu)化商品營(yíng)銷(xiāo)。 

四是完善商務(wù)網(wǎng)站設(shè)計(jì)。電子商務(wù)網(wǎng)站站點(diǎn)設(shè)計(jì)者能夠利用關(guān)聯(lián)規(guī)則,來(lái)了解客戶(hù)的行為記錄和反饋情況,并以此作為改進(jìn)網(wǎng)站的依據(jù),不斷對(duì)網(wǎng)站的組織結(jié)構(gòu)進(jìn)行優(yōu)化來(lái)方便客戶(hù)訪(fǎng)問(wèn),不斷提高網(wǎng)站的點(diǎn)擊率。 

篇8

【關(guān)鍵詞】 數(shù)據(jù)挖掘技術(shù);電子商務(wù);推薦系統(tǒng);研究

隨著計(jì)算機(jī)互聯(lián)網(wǎng)技術(shù)在社會(huì)工作與生活中的普及,電子商務(wù)產(chǎn)業(yè)也獲得了快速的發(fā)展。為了進(jìn)一步擴(kuò)大電子商務(wù)的市場(chǎng),提高電子商務(wù)企業(yè)的經(jīng)濟(jì)效益,電子商務(wù)推薦系統(tǒng)被開(kāi)發(fā)出來(lái)。而數(shù)據(jù)挖掘技術(shù)作為支持該系統(tǒng)運(yùn)行的重要技術(shù),對(duì)電子商務(wù)推薦系統(tǒng)的發(fā)展具有重要意義。本文將主要對(duì)其進(jìn)行分析與研究。

一、數(shù)據(jù)挖掘技術(shù)概述

數(shù)據(jù)挖掘技術(shù)至今還沒(méi)有一個(gè)統(tǒng)一的、確定的概念定義。歸結(jié)起來(lái),筆者認(rèn)為數(shù)據(jù)挖掘的概念應(yīng)主要包括以下三方面內(nèi)容:①未知。一些學(xué)者也將其表述為新穎。這一方面內(nèi)容強(qiáng)調(diào)的是數(shù)據(jù)挖掘技術(shù)能夠清楚的揭示出許多數(shù)據(jù)之間的相互關(guān)聯(lián)關(guān)系,并對(duì)于隱藏在這些數(shù)據(jù)信息后的隱含信息也能隨之被呈現(xiàn)。通常來(lái)說(shuō),被挖掘出的信息越隱秘,那么其價(jià)值也就越大[1]。②可用。一些學(xué)者也將其表述為有效、支持決策等。數(shù)據(jù)挖掘技術(shù)的這一內(nèi)容主要強(qiáng)調(diào)對(duì)數(shù)據(jù)信息可用性?xún)r(jià)值的需求。因?yàn)橹挥型诰虺隽擞袃r(jià)值的、能夠被人們利用的數(shù)據(jù)信息,才能滿(mǎn)足人們的需求,推動(dòng)某些事物的發(fā)展。③可理解。一些學(xué)者也將這一內(nèi)容解釋為可解釋。然而無(wú)論表述之間存在著怎樣的差異,這一內(nèi)容都主要對(duì)被挖掘出的數(shù)據(jù)信息的可理解狀況提出了要求。只有那些通被商家與客戶(hù)理解的數(shù)據(jù)信息才能夠被最終應(yīng)用,發(fā)揮其自身的價(jià)值,帶動(dòng)相關(guān)利益主體的進(jìn)步與發(fā)展。

二、協(xié)同過(guò)濾技術(shù)

數(shù)據(jù)挖掘技術(shù)有許多種類(lèi),如關(guān)聯(lián)規(guī)則、聚類(lèi)、貝葉斯網(wǎng)絡(luò)和協(xié)同過(guò)濾技術(shù)等[2]。其中協(xié)同過(guò)濾技術(shù)作為數(shù)據(jù)挖掘技術(shù)中最具有價(jià)值的一種技術(shù),被廣泛的應(yīng)用到了現(xiàn)如今的電子商務(wù)推薦系統(tǒng)之中。

2.1協(xié)同過(guò)濾技術(shù)的實(shí)現(xiàn)

協(xié)同過(guò)濾技術(shù)的實(shí)現(xiàn)并不是一步就可以完成的,而需要經(jīng)過(guò)多個(gè)步驟。經(jīng)過(guò)歸納,筆者將其分為三個(gè)主要步驟:第一,人們需要事先對(duì)用戶(hù)進(jìn)行調(diào)查,以記錄和收集他們對(duì)企業(yè)商品項(xiàng)目的評(píng)價(jià)信息;第二,對(duì)企業(yè)項(xiàng)目集的搜索結(jié)果進(jìn)行生成操作;第三,對(duì)企業(yè)項(xiàng)目集推薦結(jié)果進(jìn)行生成操作[3]。在進(jìn)行第一個(gè)步驟時(shí),人們經(jīng)常使用顯示評(píng)價(jià)法與人工調(diào)查法對(duì)商品項(xiàng)目的評(píng)價(jià)信息進(jìn)行收集。在電子商務(wù)時(shí)代,傳統(tǒng)的人工走訪(fǎng)方式已經(jīng)逐漸被取代,更多的是應(yīng)用顯示評(píng)價(jià)法對(duì)商品項(xiàng)目信息進(jìn)行收集。

2.2基于用戶(hù)的協(xié)同過(guò)濾技術(shù)

此種協(xié)同過(guò)濾技術(shù)主要通過(guò)慣性分析方式將電子商務(wù)企業(yè)的用戶(hù)作為研究對(duì)象,這種數(shù)據(jù)挖掘技術(shù)是以用戶(hù)為研究對(duì)象的。也就是說(shuō)當(dāng)電子商務(wù)企業(yè)的某兩個(gè)用戶(hù)對(duì)于某一商品的評(píng)價(jià)信息趨于一致時(shí),那么系統(tǒng)就會(huì)推斷這兩個(gè)用戶(hù)對(duì)商品的喜好品味是相同的,而商務(wù)推薦系統(tǒng)在以后的工作中在對(duì)某一商品進(jìn)行推薦評(píng)價(jià)等工作時(shí)就會(huì)認(rèn)為這兩個(gè)用戶(hù)也會(huì)對(duì)此商品有著同樣的喜愛(ài)程度。

將基于用戶(hù)的協(xié)同過(guò)濾技術(shù)應(yīng)用到電子商務(wù)的推薦系統(tǒng)中,電子商務(wù)推薦系統(tǒng)能夠更加輕松的對(duì)商品項(xiàng)目用戶(hù)的喜好傾向進(jìn)行搜集與挖掘,從而為相關(guān)的商家提供一定的數(shù)據(jù)信息支持其新產(chǎn)品的研發(fā)設(shè)計(jì)等。并且通過(guò)這一技術(shù)電子商務(wù)推薦系統(tǒng)還能夠?qū)Σ⑽促?gòu)買(mǎi)過(guò)某商品的用戶(hù),但是與其有著相同喜好的用戶(hù)已經(jīng)購(gòu)買(mǎi)過(guò)的關(guān)聯(lián)用戶(hù)進(jìn)行商品推薦,以發(fā)掘更多的潛在購(gòu)買(mǎi)用戶(hù),擴(kuò)大企業(yè)的市場(chǎng),增加產(chǎn)品的銷(xiāo)量,從而獲取更高的利益。

2.3基于項(xiàng)目的協(xié)同過(guò)濾技術(shù)

基于項(xiàng)目的協(xié)同過(guò)濾技術(shù)主要將商品項(xiàng)目作為其作用對(duì)象。若電子商務(wù)推薦系統(tǒng)要想將某件商品Y推薦給某個(gè)用戶(hù)S。就應(yīng)該首先將用戶(hù)S已經(jīng)購(gòu)買(mǎi)并評(píng)價(jià)過(guò)的商品(Y1、Y2……Yn)進(jìn)行統(tǒng)計(jì),然后對(duì)電子商務(wù)企業(yè)需要推薦的商品Y和這n個(gè)已經(jīng)評(píng)價(jià)過(guò)的商品之間的相似度進(jìn)行計(jì)算與對(duì)比。找出這n個(gè)評(píng)價(jià)過(guò)商品中與待推薦商品Y相似度最大的商品項(xiàng)目,從而建立起與待推薦商品Y相似的商品集合(n1、n2……nk)。由于商品用戶(hù)S對(duì)待推薦的商品Y的評(píng)價(jià)情況與用戶(hù)S對(duì)(n1、n2……nk)中商品集合的評(píng)價(jià)情況相似度較高,因此電子商務(wù)推薦系統(tǒng)會(huì)用用戶(hù)S對(duì)(n1、n2……nk)商品集合的評(píng)價(jià)值進(jìn)行加權(quán)的方式來(lái)得出用戶(hù)S對(duì)待推薦商品Y的評(píng)價(jià)值F。當(dāng)F大于推薦平均值w時(shí),電子商務(wù)推薦系統(tǒng)就會(huì)對(duì)用戶(hù)S推薦商品Y。

三、結(jié)束語(yǔ)

本文主要對(duì)基于數(shù)據(jù)挖掘技術(shù)的電子商務(wù)推薦系統(tǒng)進(jìn)行了研究,并重點(diǎn)對(duì)協(xié)同過(guò)濾技術(shù)對(duì)電子商務(wù)推薦系統(tǒng)的重要性作用進(jìn)行了分析,希望能夠進(jìn)一步推動(dòng)電子商務(wù)推薦系統(tǒng)的發(fā)展。

參 考 文 獻(xiàn)

[1] 韓家煒.數(shù)據(jù)挖掘――概念與技術(shù)(范明,孟小峰譯)[M].機(jī)械工業(yè)出版社,2011.

篇9

[關(guān)鍵詞]文本挖掘人 文社科 技術(shù)應(yīng)用

[分類(lèi)號(hào)]TP391

[文本挖掘概述

文本挖掘(text mining)是一個(gè)跨學(xué)科的交叉研究領(lǐng)域,涉及到數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、自然語(yǔ)言處理、可視化技術(shù)、數(shù)據(jù)庫(kù)技術(shù)等多個(gè)學(xué)科領(lǐng)域的知識(shí)和技術(shù)。目前關(guān)于文本挖掘并沒(méi)有統(tǒng)一的定義,關(guān)于文本挖掘的名稱(chēng)亦有“文本數(shù)據(jù)挖掘(text data mining)”或“文本知識(shí)發(fā)現(xiàn)(knowledge discovery in text)”等不同說(shuō)法。一個(gè)比較廣泛使用的定義是:文本挖掘是指為了發(fā)現(xiàn)知識(shí),從文本數(shù)據(jù)中抽取隱含的、以前未知的、潛在有用的模式的過(guò)程。它是一個(gè)分析文本數(shù)據(jù),抽取文本信息,進(jìn)而發(fā)現(xiàn)文本知識(shí)的過(guò)程。

一個(gè)完整的文本挖掘過(guò)程一般包括預(yù)處理、模式挖掘、模式評(píng)價(jià)等多個(gè)步驟,其中包含了多種文本處理與挖掘技術(shù),如數(shù)據(jù)預(yù)處理技術(shù)中的分詞、特征表示、特征提取技術(shù),挖掘分析技術(shù)中的文本結(jié)構(gòu)分析、文本摘要、文本分類(lèi)、文本聚類(lèi)、關(guān)聯(lián)規(guī)則、分布分析與趨勢(shì)預(yù)測(cè)等技術(shù)以及信息展示中的可視化技術(shù)等。

文本挖掘技術(shù)拓展了現(xiàn)有的數(shù)據(jù)挖掘技術(shù),把挖掘的對(duì)象從結(jié)構(gòu)化的數(shù)值數(shù)據(jù)擴(kuò)展到非結(jié)構(gòu)化的文本數(shù)據(jù),因此可以幫助我們從海量的文本數(shù)據(jù)中發(fā)現(xiàn)新的模式、模型、規(guī)則、趨勢(shì)等知識(shí),目前在很多領(lǐng)域得到了廣泛應(yīng)用。文獻(xiàn)計(jì)量的結(jié)果表明,近年來(lái)國(guó)際上文本挖掘的研究論文呈迅猛上升勢(shì)頭。以“text mining”為主題詞在Web of Knowledge(WoK)中檢索可得與文本挖掘相關(guān)的論文3 049篇(截至2010年),且呈逐年上升的趨勢(shì)。從WoK學(xué)科統(tǒng)計(jì)來(lái)看,目前文本挖掘技術(shù)的研究主要集中于計(jì)算機(jī)科學(xué)、計(jì)算生物學(xué)、數(shù)學(xué)、醫(yī)藥信息學(xué)、生物化學(xué)與分子化學(xué)、信息科學(xué)、醫(yī)學(xué)等自然科學(xué)領(lǐng)域,論文總數(shù)占文獻(xiàn)總量的82%。相比而言,人文社會(huì)科學(xué)領(lǐng)域的論文則較少,兩者之和為18%,其中人文科學(xué)僅為1%。

由于互聯(lián)網(wǎng)時(shí)代學(xué)術(shù)資源生產(chǎn)與傳遞方式的變化,以新的方法和技術(shù)從海量文本中發(fā)現(xiàn)隱含的知識(shí)和模式,成為情報(bào)學(xué)中最有前景的領(lǐng)域之一。由于人文社科文獻(xiàn)的非結(jié)構(gòu)化特征更加明顯,文獻(xiàn)中包含的隱性?xún)?nèi)容更多,能否在人文社科領(lǐng)域成功運(yùn)用文本挖掘就成為了檢驗(yàn)文本挖掘的方法論優(yōu)勢(shì)的試金石。本文以文本挖掘的幾個(gè)關(guān)鍵技術(shù)——信息抽取、文本分類(lèi)、文本聚類(lèi)、關(guān)聯(lián)規(guī)則、模式發(fā)現(xiàn)與可視化技術(shù)為主要線(xiàn)索,分析發(fā)現(xiàn)文本挖掘技術(shù)在人文社科研究中的應(yīng)用特點(diǎn),以便為人文社科研究中更加自覺(jué)地應(yīng)用文本挖掘方法提供新的思路。

2、信息抽取應(yīng)用

信息抽取(information extraction)是文本挖掘的前-端技術(shù),它從文本對(duì)象中抽取預(yù)先指定的實(shí)體、關(guān)系、事件等信息,形成結(jié)構(gòu)化的數(shù)據(jù)并輸入數(shù)據(jù)庫(kù)。信息抽取所獲得的結(jié)構(gòu)化信息片段從一個(gè)角度反映了文本內(nèi)容的內(nèi)在特征,因此通過(guò)機(jī)器學(xué)習(xí)等方法可以從中發(fā)現(xiàn)知識(shí)、挖掘知識(shí),為科學(xué)研究提供有力的支持。

信息抽取作為一門(mén)獨(dú)立的內(nèi)容處理技術(shù),其本身在商業(yè)、情報(bào)分析、數(shù)字圖書(shū)館等領(lǐng)域有著廣泛的應(yīng)用,已有較多專(zhuān)門(mén)的信息抽取系統(tǒng)投入商用。在人文社科研究中,信息抽取常常作為文本挖掘的一個(gè)重要步驟,作為知識(shí)發(fā)現(xiàn)技術(shù)的前端和基礎(chǔ)。文獻(xiàn)構(gòu)建了基于信息抽取的文本挖掘模型,均把信息抽取作為文本挖掘的一個(gè)重要組成部分,是提高文本挖掘效率的一個(gè)手段。不僅討論了信息抽取對(duì)文本挖掘的作用,而且證實(shí)了通過(guò)文本挖掘得出的規(guī)則對(duì)信息抽取系統(tǒng)具有指導(dǎo)作用。除了作為文本挖掘的前端技術(shù),信息抽取技術(shù)在改善信息檢索、輔助知識(shí)發(fā)現(xiàn)方面在人文社科研究中有著較多的應(yīng)用。

2.1 改善信息檢索

傳統(tǒng)的信息檢索只能通過(guò)關(guān)鍵詞與文檔的匹配返回與用戶(hù)需求相關(guān)的文檔,而信息抽取則可以幫助用戶(hù)直接定位所需的信息,無(wú)需閱讀文檔的全部?jī)?nèi)容。由于在處理海量數(shù)據(jù)時(shí)具有出色表現(xiàn),信息抽取在多個(gè)人文社科領(lǐng)域得到了應(yīng)用。在古典文學(xué)研究領(lǐng)域,德國(guó)萊比錫大學(xué)承擔(dān)的eAQUA項(xiàng)目從古典文獻(xiàn)資料(公元前3000年一公元600年)中抽取特定領(lǐng)域的知識(shí),并通過(guò)eAQUA門(mén)戶(hù)免費(fèi)提供這些知識(shí)。在文獻(xiàn)中,英國(guó)倫敦國(guó)王學(xué)院的Matteo(2010)介紹了一個(gè)信息抽取在古典文學(xué)中的應(yīng)用研究項(xiàng)目,該項(xiàng)目旨在對(duì)當(dāng)代關(guān)于古希臘和拉丁文學(xué)作品進(jìn)行研究的二手文獻(xiàn)進(jìn)行實(shí)體抽取,并提供與原始文獻(xiàn)之間的關(guān)聯(lián),從而提供更高級(jí)的信息展示和檢索功能。在社會(huì)學(xué)領(lǐng)域,英國(guó)聯(lián)合信息系統(tǒng)委員會(huì)(JISC)資助的ASSERT E’’項(xiàng)目綜合利用信息抽取、文本聚類(lèi)等技術(shù)提供了一個(gè)自動(dòng)生成文獻(xiàn)綜述的系統(tǒng)。信息抽取技術(shù)與信息檢索技術(shù)互相融合滲透,為人文社科領(lǐng)域海量信息資源的獲取提供了極大的便利。

2.2 輔助知識(shí)發(fā)現(xiàn)

篇10

關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)倉(cāng)庫(kù);教育管理;算法;VB

中圖分類(lèi)號(hào):TP311.52 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1007-9599 (2011) 03-0000-02

Education Management Decision Support System Based on Data Mining

Lin Lin

(Biochemical Engineering College of Union University,Beijing 10023,China)

Abstract:The paper theoretically expounds the concept of data mining,demonstrates the data mining in the education management decision support system of the core applications,introduces the education management decision support system of data collection, preprocessing,establish and maintain the DW,data mining algorithm choice,the specific content of decision tree algorithm,VB language program design,system testing,etc,discussed the system model in theory framework,rearch data mining and combining education management play a huge role,fnally,discussed the data mining technology in education management decision support system application prospect.

Keywords:Data mining;DW;Education management;Algorithm;VB

隨著信息時(shí)代的快速發(fā)展,外界所帶給我們的大量信息也越來(lái)越多。大量信息在給人們帶來(lái)方便的同時(shí),也帶來(lái)了一大堆麻煩:信息過(guò)量難以消化,信息真假難以辯識(shí),信息安全難以保證,信息格式難以統(tǒng)一。身處信息中的我們,如何才能不被信息淹沒(méi)、如何從中及時(shí)發(fā)現(xiàn)有用的信息呢?是否存在著一種工具、一種方法或者一個(gè)手段使得身處“數(shù)據(jù)爆炸、知識(shí)匱乏”的我們,能夠以一種輕松的狀態(tài)來(lái)進(jìn)行有效的管理決策呢?

數(shù)據(jù)挖掘技術(shù)是人們長(zhǎng)期對(duì)數(shù)據(jù)庫(kù)技術(shù)進(jìn)行研究和開(kāi)發(fā)的結(jié)晶,它為我們提供了一個(gè)非常優(yōu)秀的工具。

一、 數(shù)據(jù)挖掘技術(shù)

所謂數(shù)據(jù)挖掘就是指一個(gè)完整的過(guò)程,該過(guò)程就是從海量的隨機(jī)應(yīng)用數(shù)據(jù)中,提取分析隱含在其中的、人們事先并不知道的、但又具有內(nèi)在聯(lián)系的、有價(jià)值的信息數(shù)據(jù),這些信息數(shù)據(jù)為決策提供必要的支持。

數(shù)據(jù)挖掘過(guò)程中詳細(xì)各個(gè)步驟的大體內(nèi)容如下六步:

1. 確定主題:即做好需求分析,清晰地定義出問(wèn)題,并對(duì)探索的問(wèn)題具有可預(yù)見(jiàn)性。

2. 數(shù)據(jù)的提煉:搜索與主題有關(guān)的數(shù)據(jù)信息,研究數(shù)據(jù)的質(zhì)量,并確定將要進(jìn)行挖掘操作的類(lèi)型。

3. 數(shù)據(jù)的轉(zhuǎn)換:將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型,這個(gè)分析模型是針對(duì)挖掘算法建立的。

4. 數(shù)據(jù)挖掘:對(duì)所得到的經(jīng)過(guò)轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘,除了完善從選擇合適的挖掘算法外,其余一切工作要都能自動(dòng)地完成。

5. 結(jié)果分析:解釋并評(píng)估結(jié)果,其使用的分析方法一般應(yīng)視數(shù)據(jù)挖掘操作而定,通常會(huì)用到可視化技術(shù)。

6. 知識(shí)的同化:將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。

二、 數(shù)據(jù)挖掘與教育管理決策支持系統(tǒng)

我們使用數(shù)據(jù)挖掘技術(shù)對(duì)我們所掌握的信息進(jìn)行特定的“挖掘”,能夠發(fā)現(xiàn):廣義知識(shí)、關(guān)聯(lián)知識(shí)、分類(lèi)知識(shí)、預(yù)測(cè)型知識(shí)、偏差型知識(shí),能夠在數(shù)據(jù)中尋找預(yù)測(cè)性的信息,能夠?yàn)槲覀兊墓芾硖峁白龀鰶Q策”的依據(jù),能夠有力的支持我們做出恰如其分的選擇。

所謂教育管理,就是在特定的社會(huì)環(huán)境下,遵循教育的客觀(guān)規(guī)律,對(duì)各種教育資源進(jìn)行合理配置,以實(shí)現(xiàn)教育方針和教育目標(biāo)的行為,教育管理是社會(huì)管理的一部分。在學(xué)校教育管理中,我們引進(jìn)數(shù)據(jù)挖掘技術(shù),正是想針對(duì)教育的海量數(shù)據(jù)進(jìn)行有效的發(fā)掘,以期充分利用數(shù)據(jù)挖掘的長(zhǎng)處,來(lái)發(fā)現(xiàn)這些海量數(shù)據(jù)中潛在的、長(zhǎng)久以來(lái)未被發(fā)現(xiàn)的規(guī)則,能夠?qū)W(xué)生潛力做出數(shù)據(jù)挖掘,這就為學(xué)校的招生工作提供了一定程度的參考,并在學(xué)生入學(xué)后還可以分析其進(jìn)步或者退步的可能原因是什么,解決學(xué)生教育導(dǎo)向的問(wèn)題;還可以對(duì)學(xué)校管理層比較關(guān)心的問(wèn)題進(jìn)行挖掘。例如,在所有教職工中教師的比例有多大;一般意義上講某位教師是否達(dá)到了學(xué)校的一般標(biāo)準(zhǔn);能夠?qū)處焾?zhí)教能力和教師人力資源優(yōu)化做出分析,在教師招聘中為人力資源主管提供一般性的判斷依據(jù),對(duì)所應(yīng)聘的教師做出其潛力及前景分析,以便能夠輔助管理層做出更好的決策,優(yōu)化教育管理,促進(jìn)教育管理良性發(fā)展。

三、 系統(tǒng)架構(gòu)的搭建

我們將分以下幾步來(lái)進(jìn)行系統(tǒng)模型的設(shè)計(jì)及實(shí)現(xiàn):

1 對(duì)數(shù)據(jù)進(jìn)行分析,建立數(shù)據(jù)倉(cāng)庫(kù)

數(shù)據(jù)主要來(lái)源是檔案室現(xiàn)存的檔案,包括教職工和學(xué)生的,還要?jiǎng)討B(tài)的添加一些數(shù)據(jù)。如果能夠得到教育院校的支持來(lái)豐富數(shù)據(jù),那就更好。這個(gè)數(shù)據(jù)的要求是大量、真實(shí)、準(zhǔn)確。

對(duì)于教職工的信息,主要有以下屬性:編號(hào)、姓名、性別、民族、出生年月日、

政治面貌、工作時(shí)間、是否為班主任、是否為學(xué)校管理層、畢業(yè)院校、最高學(xué)歷、

最高學(xué)位、最高職稱(chēng)、家庭經(jīng)濟(jì)條件、教學(xué)評(píng)估成績(jī)、所獲榮譽(yù)、所帶班級(jí)榮譽(yù)、研究成果等等,越詳細(xì)對(duì)我們進(jìn)行數(shù)據(jù)挖掘就越好。如下表所示。

對(duì)于學(xué)生的信息,主要有以下屬性:學(xué)號(hào)、姓名、性別、民族、出生年月日、政治面貌、專(zhuān)業(yè)、班級(jí)、入學(xué)時(shí)間、入學(xué)成績(jī)、畢業(yè)去向、畢業(yè)成績(jī)單、畢業(yè)論文名稱(chēng)、畢業(yè)論文成績(jī)、畢業(yè)證書(shū)、畢業(yè)后十年?duì)顩r(可選)、畢業(yè)后二十年?duì)顩r(可選)、畢業(yè)后四十年?duì)顩r(可選)、家庭條件、在校期間所獲榮譽(yù)等等。

對(duì)每一個(gè)屬性進(jìn)行賦值初始化,如:性別,定義為字符型變量,M代表男,F(xiàn)代表女;又如:對(duì)教師的研究成果,是以字符來(lái)進(jìn)行賦值的,涵蓋了發(fā)表的論文、編著的書(shū)籍、科研成果等等,這些分別按照級(jí)別予以打分,進(jìn)行累加,最后全部總和即為該教師的研究成果的成績(jī),然后對(duì)該成績(jī)進(jìn)行加權(quán)求值,按照求值分別賦以A、B、C等字符。對(duì)每一位教職工和學(xué)生進(jìn)行賦值,并錄入到數(shù)據(jù)倉(cāng)庫(kù)中。創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)的工具我們可以選擇Microsoft SQL Server 。需要注意的是,SQL Server “企業(yè)管理器”中控制臺(tái)根目錄中SQL Server組名稱(chēng)應(yīng)與其他名字一致,例如分析服務(wù)器是LINLIN2006,它也應(yīng)該是LINLIN2006。

2 決策樹(shù)算法

決策樹(shù)提供了一種展示類(lèi)似在什么條件下會(huì)得到什么值這類(lèi)規(guī)則的方法。如圖4-1,針對(duì)學(xué)生畢業(yè)成績(jī)影響因素進(jìn)行數(shù)據(jù)挖掘后的一棵決策樹(shù),從中我們看到,決策樹(shù)的基本組成:節(jié)點(diǎn)、分支和葉子。

圖4-1決策樹(shù)

圖4-1中“入學(xué)成績(jī)=好”這個(gè)條件是樹(shù)的根,即決策樹(shù)的根節(jié)點(diǎn)。對(duì)條件的不同回答產(chǎn)生了“是”和“否”兩個(gè)分支;而是否“學(xué)習(xí)勤奮”是根節(jié)點(diǎn)的子節(jié)點(diǎn)(子節(jié)點(diǎn)的個(gè)數(shù)與決策樹(shù)算法有關(guān));如果分支下無(wú)節(jié)點(diǎn),則到樹(shù)尾,稱(chēng)為葉子,圖中“畢業(yè)成績(jī)=壞”就是其中的一個(gè)葉子。從樹(shù)根到每一片葉子的過(guò)程就是利用決策樹(shù)進(jìn)行分類(lèi)的過(guò)程,通常稱(chēng)這個(gè)過(guò)程為“遍歷”。

決策樹(shù)算法是數(shù)據(jù)挖掘中常用的一種算法,常用于數(shù)據(jù)分析和預(yù)測(cè)。決策樹(shù)的構(gòu)造結(jié)果是一棵二叉樹(shù)(即每個(gè)節(jié)點(diǎn)有兩個(gè)分支)或多叉樹(shù)(節(jié)點(diǎn)可以包含多于兩個(gè)的子節(jié)點(diǎn))。構(gòu)造決策樹(shù)的過(guò)程,即樹(shù)的生長(zhǎng)過(guò)程是把條件數(shù)據(jù)不斷切分的過(guò)程,每次切分對(duì)應(yīng)一個(gè)問(wèn)題(即一個(gè)節(jié)點(diǎn)),二叉樹(shù)的內(nèi)部節(jié)點(diǎn)(非葉子)一般表示為一個(gè)邏輯判斷,如圖4-1。對(duì)每個(gè)切分的要求是分組之間的“差異”盡量最大。各種決策樹(shù)算法之間的主要區(qū)別就是對(duì)這個(gè)“差異”衡量方式的區(qū)別。我們只需要把切分看成是把數(shù)據(jù)信息分成幾份,每份數(shù)據(jù)信息之間盡可能不具有相同或相似的屬性,而同一份內(nèi)的數(shù)據(jù)盡量具有相同的屬性,即屬于同一類(lèi)別。

對(duì)于教育管理決策者來(lái)說(shuō),決策樹(shù)的構(gòu)造,即在其生長(zhǎng)過(guò)程中沒(méi)有必要太“茂盛”。因?yàn)檫@樣會(huì)大大降低樹(shù)的易理解性和易用性,而且也使決策樹(shù)本身對(duì)原始數(shù)據(jù)產(chǎn)生較大的依賴(lài)性,換句話(huà)說(shuō),這樣的決策樹(shù)可能對(duì)于原始數(shù)據(jù)非常準(zhǔn)確,但當(dāng)有新的數(shù)據(jù)信息加進(jìn)的時(shí)候,準(zhǔn)確性就會(huì)急劇下降,這種情況被稱(chēng)之為訓(xùn)練過(guò)渡。為了使得到的決策樹(shù)所蘊(yùn)含的規(guī)則具有普遍性,我們必須有效避免訓(xùn)練過(guò)度,同時(shí)減少訓(xùn)練的時(shí)間。常用的方法是限制決策樹(shù)的過(guò)度成長(zhǎng),即預(yù)先設(shè)定決策樹(shù)的最大高度(層數(shù));此外也可以通過(guò)設(shè)定每個(gè)節(jié)點(diǎn)必須包含的最少記錄數(shù)來(lái)限制,當(dāng)節(jié)點(diǎn)中記錄的個(gè)數(shù)小于這個(gè)數(shù)值時(shí)就停止切分。

1 使用VB對(duì)算法進(jìn)行編程,實(shí)現(xiàn)各個(gè)模塊的功能

通過(guò)VB來(lái)進(jìn)行圖形應(yīng)用界面設(shè)計(jì)及核心程序編程。菜單的設(shè)計(jì)如下:導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)、選擇數(shù)據(jù)倉(cāng)庫(kù)、任務(wù)確立、選擇因素、開(kāi)始運(yùn)行、查看結(jié)果、保存結(jié)果、翻譯規(guī)則、保存規(guī)則、退出。主要通過(guò)表單及命令來(lái)實(shí)現(xiàn)各功能。樣本空間指的是由教職工、學(xué)生數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)所構(gòu)成的數(shù)據(jù)空間。

2 測(cè)試

根據(jù)軟件測(cè)試的要求,必須對(duì)該系統(tǒng)進(jìn)行數(shù)據(jù)測(cè)試,即用手中所擁有的檔案資料與數(shù)據(jù)挖掘的結(jié)果對(duì)比,進(jìn)行測(cè)試。

首先,假定某學(xué)校教師部分檔案資料如下(受篇幅限制,僅有部分):

其次,我們使用表中的數(shù)據(jù)來(lái)檢測(cè)樹(shù)形結(jié)構(gòu)中每條枝葉的正確性。如果大部分吻合,那么該決策支持系統(tǒng)是成功的,軟件和算法都是正確的;否則就得檢查改正。這個(gè)測(cè)試以及測(cè)試結(jié)果比較的工作量是非常巨大的。

四、進(jìn)行數(shù)據(jù)挖掘時(shí)應(yīng)考慮的問(wèn)題

1 確定問(wèn)題,即用數(shù)據(jù)挖掘解決什么樣的問(wèn)題,它是核心,偏離了這個(gè)主題,最終只能導(dǎo)致失??;

2 海量數(shù)據(jù)的問(wèn)題,一方面是源數(shù)據(jù)的挖掘,一方面是數(shù)據(jù)的提煉;另外非標(biāo)準(zhǔn)格式的數(shù)據(jù)、多媒體數(shù)據(jù)、面向?qū)ο髷?shù)據(jù)處理問(wèn)題;從而保證數(shù)據(jù)的質(zhì)量和時(shí)效性;

3 各種算法的使用;

4 變化的數(shù)據(jù)和知識(shí)問(wèn)題;

5 枝葉――規(guī)則的易懂性問(wèn)題;

6 與其他系統(tǒng)的集成問(wèn)題,如果可能的話(huà),本系統(tǒng)可以嵌入到學(xué)校網(wǎng)絡(luò)協(xié)同辦公平臺(tái)之中;

這些都是在具體實(shí)施時(shí)應(yīng)該注意的,也關(guān)系著基于數(shù)據(jù)挖掘的教育管理決策支持系統(tǒng)模型成功與否。

五、展望未來(lái)

隨著信息化不斷向前發(fā)展,基于數(shù)據(jù)挖掘的教育管理決策支持系統(tǒng)也將涵蓋人才培養(yǎng)、人力資源、教學(xué)評(píng)估、教育經(jīng)濟(jì)等幾個(gè)大的方面,也將逐漸發(fā)展為教育管理數(shù)據(jù)挖掘應(yīng)用平臺(tái)?;跀?shù)據(jù)挖掘的教育管理決策支持系統(tǒng)也將發(fā)揮越來(lái)越重要的角色。

參考文獻(xiàn):

[1][加]Jiawei Han,Micheline Kamber(著)范明,孟小峰等譯 《數(shù)據(jù)挖掘概念與技術(shù)》 北京機(jī)械工業(yè)出版社

[2][中國(guó)]張堯庭,謝邦昌,朱世武(編)《數(shù)據(jù)采掘入門(mén)及應(yīng)用――從統(tǒng)計(jì)技術(shù)看數(shù)據(jù)采掘》中國(guó)統(tǒng)計(jì)出版社

[3][美]John W.Fronckowiak,David J.Helda(著)全剛,楊領(lǐng)峰,申耀軍,張濤(譯)高長(zhǎng)劍(審校)《MS VB6.0 數(shù)據(jù)庫(kù)編程大全》電子工業(yè)出版社