數(shù)學建模聚類算法范文
時間:2024-01-02 17:43:02
導語:如何才能寫好一篇數(shù)學建模聚類算法,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。
篇1
【關鍵詞】物流配送;雙向物流;物流路徑優(yōu)化;蟻群算法;減法聚類
Two-way Logistics Path Optimization Problems Based on Clustering Analysis Research
LIU Yan-qiu YANG Yong
(Shenyang University of Technology, Shenyang Liaoning 110000, China)
【Abstract】According to the characteristics of two-way logistics, this paper focus on analysis and research the vehicles distribution. In order to better coordinate the vehicle path selection and the relationship between transport costs, and better conditions for considering comprehensive factors and the choice between nodes, study of two-way logistics path problem method, established the mathematical model of optimal path minimization. Finally based on path optimization method and the research situation, adopted the cluster analysis and the ant colony algorithm, and it has been verified by the simulation, the results reasonable and effective.
【Key words】Logistics distribution; Two-way logistics; Logistics path optimization; Ant colony algorithm; Subtraction clustering
0 引言
物流配送在物流管理中占有重要地位,它是指按照客戶的訂貨需求,在配送中心進行分貨、配貨,并調(diào)度車輛及時為客戶配送貨物[1]。車輛路徑問題(vehicle routing problem,VRP)是車輛配送研究中最核心的問題,一直是組合優(yōu)化領域的熱點和前沿問題[2],而雙向物流路徑優(yōu)化問題(vehicle routing problem with simultaneous delivery and pickup,VRPSDP)是VRP問題中的一個典型,它是指同時帶送貨取貨的物流車輛路徑優(yōu)化問題,既考慮了客戶需要的貨物從配送中心送到各個客戶,又需要把客戶需要回送的貨物運回到配送中心,要求取貨送貨同時進行,因此比單向物流問題還要復雜,也是一種NP-hard難題,所以求解復雜度較高,計算量較大。本文在前人研究的基礎上通過聚類分析方法和蟻群算法對雙向物流路徑優(yōu)化問題進行了求解。
1 雙向物流配送的數(shù)學模型
1.1 問題描述
雙向物流路徑優(yōu)化問題可以這樣描述:
已知有C個客戶點,給定每個客戶的坐標點和需求量,貨車從配送中心出發(fā),將貨物送到各個客戶,并同時把客戶供應的貨物帶回到配送中心。車輛應在條件允許下進行服務,當完成任務或者不存在能滿足約束條件的情況下,返回配送中心,直到所有的客戶的送取貨任務完成,整個流程結束。物流路徑優(yōu)化要求在滿足約束的條件下,合理安排貨車的配送路線,使得運輸成本最小。由于運輸成本很大程度上是由貨車的路徑長度決定的,因此本文求解VRPSDP問題的目標函數(shù)的最優(yōu)解就是要求路徑最短。
1.2 數(shù)學模型的建立
1.2.1 參數(shù)說明
1.2.2 數(shù)學模型
根據(jù)上面對VRPSDP問題的描述和已設定的數(shù)學參數(shù),加之針對該問題所需要考慮的約束條件,對此問題進行了建模,將服務完所有客戶點后所有車輛的行駛總路程定義為目標函
2 VRPSDP模型的求解
本文中求解模型的方法,首先是通過FCM聚類,把需要提供服務的城市進行分類,然后再用蟻群算法在滿足約束的情況下對每個分類進行求解最優(yōu)路徑,具體做法如圖1所示。
圖1 求解流程圖
3 實例仿真
為了檢驗上述雙向物流路徑優(yōu)化方法的有效性,本文采用實例數(shù)據(jù)對其進行性能分析。設車輛從配送中心出發(fā),為各個客戶提供服務,配送中心坐標位置是(0km,0km),車輛在滿足約束的情況下向 30 個客戶配送貨物。
首先經(jīng)matlab仿真得到的30個城市的聚類圖如圖2所示。
圖2 經(jīng)FCM聚類的城市坐標圖
然后經(jīng)過蟻群算法對每個聚類進行路徑優(yōu)化,得到的車輛配送路徑圖如圖3所示。
圖3 車輛配送路線圖
4 結論
本文針對雙向物流的特點,首先給出了問題的相關描述,然后通過抽象建模,給出了帶路程和負載量約束的雙向物流路徑優(yōu)化模型。根據(jù)給出的VRPSDP問題模型,用基于FCM聚類和蟻群算法的混合算法對模型進行求解。最后通過仿真實驗,證明了本文混合算法求解雙向物流路徑優(yōu)化問題的的正確性和有效性。
【參考文獻】
[1]楊燕霞,伍岳慶,姚宇,等.帶時間窗車輛調(diào)度問題的啟發(fā)式算法研究與應用[J].計算機應用,2013,33(S1):59-61.
篇2
鋰離子寬的電壓平臺和嚴重的兩端極化不利于SOH的估算,但電池的健康狀態(tài)對電池壽命有著重要的影響。為了解決鋰離子電池壽命預測困難的問題,通過對鋰離子電池外特性進行的分析,在安時積分法的基礎上,采用BP神經(jīng)網(wǎng)絡算法對鋰離子電池進行建模,并將此模型帶入K-均值算法中。系統(tǒng)的實現(xiàn)功能是對電池健康狀況進行準確的評估。經(jīng)過實驗數(shù)據(jù)的驗證,證明了這種算法的準確度,為電池管理系統(tǒng)穩(wěn)定工作提供保證。
關鍵詞:
電動汽車;鋰離子電池;健康狀態(tài);K-均值算法
隨著世界汽車人均持有量的不斷攀升,能源危機越來越威脅著人類,巨大的環(huán)境問題和能源問題已成為世界關注的焦點。為了解決這些問題,世界各國特別是汽車工業(yè)發(fā)達的國家,正致力于“零污染交通工具”的開發(fā),最終電動汽車被推向了歷史的舞臺。然而電動汽車能否得到大力的推廣,很大程度上受到了動力電池的限制[1]。SOH(state-of-health)是用來描述電池壽命的重要參數(shù)之一,進而,電池健康狀態(tài)的預測則是其中一個非常重要的部分。為了在使用安全性的基礎上,充分發(fā)揮出動力電池的動力性能[2],因此研究鋰離子電池的健康狀態(tài)具有十分重要的意義。近年來,我國也在積極開展汽車鋰離子電池的研究,且在電池研制和電池評估方面取得了一定的成果。本文將分為5個章節(jié)來闡述對電池健康狀態(tài)的預測。
1K-均值算法
將物理或抽象對象的集合分成由類似的對象組成的多個類的過程被稱為聚類。由聚類生成的一組數(shù)據(jù)對象的結合被稱為簇[3]。這些對象不同于其他簇中的對象,但是和同一個簇中的對象彼此相似。K-均值(K-Means)聚類算法是著名的劃分聚類分割方法[4]。劃分的原理是:隨機從數(shù)據(jù)集中選取K個點,每個點初始的代表每個簇的中心,然后計算剩余各個樣本到聚類中心的距離,將它賦給最近的簇,隨后重新計算每一個簇的平均值,不斷重復,直到相鄰兩次調(diào)整沒有明顯變化,此時聚類形成的簇已經(jīng)收斂。算法終止條件:①沒有對象被重新分配給不同的聚類。②聚類中心不在變化。③誤差平方和局部最小如式。
2建立電池的BP人工神經(jīng)網(wǎng)絡模型
國內(nèi)外對鋰離子電池的阻抗狀態(tài)也有相關研究。電池的老化過程伴隨著電池內(nèi)阻的變化,一般認為電池由于在充放電的過程中發(fā)生不可逆的化學變化導致反應的鋰離子損失,再加上內(nèi)部結構的鈍化,比如說SEI膜的形成并且增厚,正極和負極的變換等等。因此本文可以通過預測內(nèi)阻來估算電池的健康狀況如式。
2.1神經(jīng)網(wǎng)絡模型的建立人腦中有1000億個神經(jīng)元,結構異常復雜。正因為人腦結構錯綜復雜才使得被抽象出來的人工神經(jīng)網(wǎng)絡具有信息并行處理的能力,自學能力和推理能力。人工神經(jīng)網(wǎng)絡由大量的神經(jīng)元連接而成,通過模擬人的大腦神經(jīng)處理信息的方式,進行信息平行處理和非線性轉(zhuǎn)換的網(wǎng)絡系統(tǒng)。在其多重分類當中,BP人工神經(jīng)網(wǎng)絡(BPArtificialNeuralNetworkAlgorithm)是一種多層前饋神經(jīng)網(wǎng)絡,它的名字源于網(wǎng)絡訓練中,通過調(diào)整網(wǎng)絡訓練權值的訓練算法是反向傳播算法(BP神經(jīng)網(wǎng)絡學習算法)。神經(jīng)網(wǎng)絡模型的結構一般分為輸入層(輸出實驗數(shù)據(jù))、輸出層(輸出預測數(shù)據(jù))以及隱含層(對實驗數(shù)據(jù)的加權處理)。上下層之間實現(xiàn)全連接,在相同層直接無連接,介于輸入層于隱含層神經(jīng)元之間為網(wǎng)絡的權值,表現(xiàn)為兩個神經(jīng)元的鏈接強度。通常還在整合信息的過程中添加一個閥值,主要模仿生物必須達到一定的閥值才能被觸發(fā)的原理,然后將整合過的信息作為該神經(jīng)元的輸入。當樣本被提供給神經(jīng)元后,神經(jīng)元的輸出值從輸入層經(jīng)過中間層(隱含層)向輸出層傳播,在輸出層各個神經(jīng)元獲得輸入響應,遵照減少網(wǎng)絡輸出與實際輸出樣本之間的誤差的方向,從輸出層反向經(jīng)過各個中間層回到輸入層,逐步修正各個鏈接權值,這種算法被稱為“誤差反向傳播算法”,也叫做BP神經(jīng)網(wǎng)絡算法[7]。通過以上介紹,本文建立一個典型的3輸入2輸出的人工神經(jīng)網(wǎng)絡。如果利用電池的外特性參數(shù)來充當輸入層,則可以得到基于人工神經(jīng)網(wǎng)絡的鋰離子電池BP神經(jīng)網(wǎng)絡模型。如圖1所示為建立的BP神經(jīng)網(wǎng)絡拓撲結構[8]。
2.2BP人工神經(jīng)網(wǎng)絡模型的特點BP人工神經(jīng)網(wǎng)絡充分利用了神經(jīng)網(wǎng)絡的非線性,自學習性等特點,結合實驗數(shù)據(jù)來建立各種參數(shù)之間的關系。BP神經(jīng)網(wǎng)絡的訓練機制,不僅適用于機器學習的算法方面,在眾多其他領域也有重要應用,比如用BP網(wǎng)絡解析個人成才歷程,有利于多角度思考問題,避免思維狹隘和定勢,在知識點交叉的十字路口,甚至有意想不到的收獲。
3鋰離子電池的健康評估
根據(jù)對鋰離子電池所做的實驗數(shù)據(jù),再根據(jù)安時積分法算出SOC值,導入到算法中去得到輸出值。然而任何方法得到的結果都會與實際健康狀態(tài)結果存在的差距就是預測誤差,預測誤差應該反應出結果的準確性。
3.1鋰離子電池輸入?yún)?shù)的確定對鋰離子電池進行如圖2放電實驗,以5A左右的電流進行放電試驗。利用安時積分法如式(3),算出電池的SOC如圖3。得到電池外特性數(shù)據(jù)后進行建模。其中,SOC0為充放電起始狀態(tài);CN為電池的額定容量;I為電池電流;η為充放電效率,根據(jù)經(jīng)驗公式,此處取1。
3.2BP人工神經(jīng)網(wǎng)絡建模結果將電流(I)、SOC、放電深度(DOD)輸入建好的神經(jīng)網(wǎng)絡模型中預測出開路電壓(OCV)和電池電阻r如圖5-圖10所示??梢杂^測到預測輸出和期望輸出的開路電壓(OCV)和內(nèi)阻誤差都很小。當電池老化以后,安時積分法的試用范圍沒有變化,但是對于BP神經(jīng)網(wǎng)絡算法的影響較大,因為所建立的電池模型參數(shù)隨著電池老化的改變而改變,尤其是成組的實驗電池模型產(chǎn)生的累積誤差會使得實驗準確性下降。
3.3利用K-均值算法進行預測將建模以后的輸出開路電壓值和內(nèi)阻阻值帶進已經(jīng)編好的K-均值算法里得到如圖11。得到兩個聚類點ctrs1(0.006246,3.2293)和ctrs2(0.006278,3.2343)。
4檢驗預測精度
取100組實驗獲得的內(nèi)阻數(shù)據(jù),利用得到的聚類點放入實驗數(shù)據(jù)中。觀察聚類的準確度,結果如圖12所示。通過放入的實驗數(shù)據(jù)和預測的聚類點的組合,發(fā)現(xiàn)聚類點可以精確聚類出所要得到的兩個簇。
5結論
針對電池的健康狀態(tài)難以評估這個問題,本文設計開發(fā)了電動汽車健康評估系統(tǒng)。運用神經(jīng)網(wǎng)絡建立電池模型,K-均值進行預測。可為目前電動汽車基于外特性來評估健康狀況提供更為準確的條件,從而有效的解決了健康狀態(tài)難以評估的問題,同時提供了準確快速的預測方法。①隨著電池不斷地放電實驗,內(nèi)阻不斷的增大,SOH不斷增大。為了得到準確的SOH值,可以通過預測內(nèi)阻的變化來預測SOH。②我們觀察到神經(jīng)網(wǎng)絡建立電池模型誤差能達到0.2%,所以運用神經(jīng)網(wǎng)絡可以很準確的建立電池模型。③通過實驗數(shù)據(jù)對得出聚類值的檢驗可以得出,運用K-均值算法可以對電池SOH進行準確預測。
參考文獻:
[1]陳三省.基于動態(tài)貝葉斯網(wǎng)絡的鋰離子電池SOH估計[D].杭州電子科技大學,2014.
[2]Zou,Zhongyue,Xu,Jun,Mi,Chris,Cao,Binggang,Chen,Zheng,“EvaluationofModelBasedStateofChargeEstimationMethodsforLithium-IonBatteries”,ENERGIES,5065-5082,Aug2014.
[3]陶新民,徐晶,楊立標,劉玉.一種改進的粒子群和K均值混合聚類算法[J].電子與信息學報,2010,01:92-97.
[4]劉靖明,韓麗川,侯立文.基于粒子群的K均值聚類算法[J].系統(tǒng)工程理論與實踐,2005,06:54-58.
[5]卓金武MATLAB在數(shù)學建模中的應用[M].二版.北京:北京航天航空大學出版社,2014.
[6]ZhengChen,BingXia,ChrisMi,andRuiXiong,“LossMinimizationBasedChargingStrategyResearchforLithium-ionBattery”,IEEETransactionsonIndustryApplications,Mar.2015.
[7]譚曉軍電動汽車動力電池管理系統(tǒng)設計[M].廣州:中山大學出版社,2011.
篇3
關鍵詞:灰色理論;灰色預測;灰色建模
中圖分類號: O369 文獻標識碼:A
1 灰色理論及實現(xiàn)方法
1.1 灰關聯(lián)度分析
關聯(lián)度分析是灰色系統(tǒng)最主要也是目前在地球物理勘探開發(fā)領域應用最廣泛的方法之一。它主要用于分析不同數(shù)據(jù)項之間相互影響、相互依賴的關系,根據(jù)事物序列(母序列和子序列)曲線幾何形狀的相似程度,定量的評判事物(因素)間的關聯(lián)程度.兩條曲線的形狀彼此越相似,關聯(lián)度就越大,反之,則關聯(lián)度越小。其中的關鍵是對灰關聯(lián)矩陣進行分析,找出其中起主導作用的因素.
1.2灰色聚類
灰色聚類是以灰色關聯(lián)度為基礎的聚類方法,實質(zhì)上是將聚類對象歸納成若干個灰色系統(tǒng)類型,以判斷該聚類對象屬于哪一類灰色類型.它能給出定量的評價,比定性的地質(zhì)分析更具客觀性。
1.3灰色預測和灰色建模
灰色預測通過原始數(shù)據(jù)的處理和灰色模型的建立,發(fā)現(xiàn)和掌握系統(tǒng)發(fā)展的規(guī)律,對系統(tǒng)的未來狀態(tài)做出科學的定量預測.灰色理論認為,原始地震數(shù)據(jù)本身就是一種多因素的組合作用的結果。與其進行因素的多層剖析,不如就以原始依據(jù)進行預測.在地震資料的預測處理中這是一種新的思想、新的角度。
2灰色理論的發(fā)展歷程及研究現(xiàn)狀
灰色理論把一般系統(tǒng)論、信息論、控制論的觀點和方法延伸到社會、經(jīng)濟、生態(tài)等抽象系統(tǒng),結合運用數(shù)學方法形成了一套解決信息不完備系統(tǒng)的理論和方法。從思維邏輯的發(fā)展來看,灰色理論是從“黑箱”、“灰箱”概念演進而來的。1953年英國科學家艾什比首先使用黑箱一詞,用來定義那些內(nèi)部結構、特性、參數(shù)全部未知,只好從對象外部信息來研究的一類事物.然而在現(xiàn)實中,面對的常常是對其有了部分了解的“系統(tǒng)”,艾什比稱之為“部分可察黑箱”或“灰箱”。1982年鄧聚龍在灰箱概念的基礎上首次提出了灰色系統(tǒng)的概念,主張從事物內(nèi)部去研究系統(tǒng)。鄧聚龍在提出灰色系統(tǒng)概念以后,對其經(jīng)過逐步的完善和發(fā)展,漸漸形成了灰色系統(tǒng)理論。1992年召開的灰色系統(tǒng)學術會議引起了廣大學者重視,由此將灰色理論和實際應用推向了一個。灰色理論從上世紀80年代問世,經(jīng)90年代的迅速發(fā)展,到21世紀的廣泛應用,雖然只有20多年的發(fā)展歷程,但卻引起了人們的高度重視和極大關注。目前灰色理論已基本建立起灰色朦朧集為基礎的理論體系,灰色關聯(lián)空間為依托的分析體系,灰色序列生成為基礎的方法體系,灰色模型(GM)為核心的模型體系。它作為一門新興學科廣泛的應用于地球物理勘探開發(fā)的各個方面。
3灰色理論在地球物理勘探開發(fā)中的應用
3.1地震解釋
灰色理論在地震資料解釋中的應用主要包括層位標定、巖性分析以及地震剖面的異常值提取等。其中層位標定和巖性分析作為地震解釋的基礎環(huán)節(jié)和描述地層地質(zhì)情況的重要信息,一直倍受關注。當然也是灰色理論在地震資料解釋中應用的重點.其典型的方法是從測井資料中提取與層位、巖相有關的信息,將地層剖面、巖性分成若干個測井評價參數(shù)范圍,然后采用這些測井地質(zhì)評價參數(shù)與巖心錄井剖面進行詳細對比,統(tǒng)計確定出地質(zhì)評價參數(shù)的標準,最后用參數(shù)特征值白化灰色系統(tǒng),以達到精細劃分地層層位和巖性的目的。這種做法最大優(yōu)點就是使測井資料得到了充分的利用,同時這也是灰色理論在地震資料解釋中應用的最顯著的一個特點。
3.2儲層評價
儲層評價所涉及的內(nèi)容很多,應用范圍也相當廣泛,但目前儲層評價還沒有一套公認的評價標準和工作規(guī)范,各家的評價方法都不盡一致如模糊判別法和專家打分法等。這些方法往往要求數(shù)據(jù)量較大,而且還要求數(shù)據(jù)間存在典型的統(tǒng)計規(guī)律,實際計算是很困難的?;疑碚撛趦釉u價中的應用則有效的克服了上述方法的不足。它的基本思路是通過選取儲層的各評價參數(shù)特征值,利用灰色理論的基本方法去白化儲層系統(tǒng)發(fā)展的態(tài)勢,確定評價指標和實際數(shù)據(jù)之間的關聯(lián)度,據(jù)此定量描述儲層的特征,具有數(shù)據(jù)量小、模型簡單等優(yōu)點,很好地滿足了實際生產(chǎn)的需要.另外,灰色理論是一個動態(tài)的預測過程,對于油氣井的儲量、儲層產(chǎn)能等這樣每時每刻都在發(fā)生變化的預測目標,不僅能夠很好的預測出油氣井以及儲層儲量長期的情況,而且還能進行時時的監(jiān)控預測。
4灰色理論的發(fā)展方向
4.1加強基礎理論的研究
灰色理論基本方法的研究深度不足,數(shù)學證明不夠完善。比如灰關聯(lián)分析不適用于負相關序列的分析和計算;由灰色關聯(lián)系數(shù)構成的灰色關聯(lián)度不滿足灰色關聯(lián)公理中的整體性和偶對對稱性原則;灰色建模方法的累加生成不能減弱原始數(shù)列的隨機性時,用一階微分方程作為預測模型必然存在原理性誤差等問題,都是灰色理論基本方法中存在的問題,都直接間接地影響了最終的預測結果.特別是灰色理論的一些核心內(nèi)容,如累加生成數(shù)列能夠提高預測精度等結論,在現(xiàn)有的灰理論專著中均末經(jīng)予嚴格的數(shù)學證明.而這些結論作為灰色理論的核心內(nèi)容正廣泛地應用于地球物理勘探開發(fā)的各個方面,對最終的預測結果和精度的影響很大。
4.2拓寬應用范圍
從目前的研究成果來看,灰色理論在地球物理勘探開發(fā)中的應用主要集中在地震資料解釋、地質(zhì)評價和測井解釋三個方面,歸根到底還是主要應用在解釋方面,應用領域過于單一,解決實際問題的能力還不足,且灰色理論在儲層預測中的應用目前尚限于單系列預測,存在著一定的風險。另外,灰色理論主要研究方法的應用范圍也還十分有限。如:利用灰色建模、灰色關聯(lián)分析作為研究工具的例子較為普遍,其它方法的應用則相對較少。
4.3與其它方法相結合
由于灰色理論自身的理論基礎這不夠完善,解決勘探開發(fā)中出現(xiàn)的各種問題的能力稍顯不足。近年來雖然出現(xiàn)了將灰色理論與分形、神經(jīng)網(wǎng)絡、模糊理論等方法聯(lián)合應用的實例,但應用的范圍和深度都還遠不能滿足實際需要??梢試L試將其與其他優(yōu)化、仿真方法相結合,如遺傳算法、混合離散變量多目標尋優(yōu)算法以及小波變換、最小二乘方法等。
參考文獻
[1]劉思峰,郭天榜.黨耀國等.灰色系統(tǒng)理論及其應用[M].北京:科學出版社,2000.
篇4
關鍵詞: 公共自行車;聚類分析;綜合評價
0 引言
隨著城市汽車數(shù)量的迅猛發(fā)展,許多城市出現(xiàn)了交通擁堵、汽車尾氣排放、霧霾等一系列的“城市病”。在國家提倡“低碳”、“環(huán)?!笨沙掷m(xù)的發(fā)展理念下,公共自行車在解決城市交通“兩難”,公交“最后一公里”和緩解大氣污染和全民健身方面起著不可或缺的作用。
而在我國,越來越多的城市開始重視自行車在城市交通中的作用,積極發(fā)展城市公共自行車租賃系統(tǒng)。公共自行車租賃系統(tǒng)的發(fā)展對減輕交通擁堵、減少尾氣排放有著重要意義。
公共自行車服務系統(tǒng)在車輛數(shù)量、鎖樁數(shù)量、借還時間等方面的設置上是否還存在問題,本文通過對某城市公共自行車服務系統(tǒng)所產(chǎn)生的具體數(shù)據(jù)進行收集整理分析來評價該系統(tǒng)并提出合理化建議。
1 聚類分析
我們首先對原始數(shù)據(jù)中相同借車站不同還車站的數(shù)據(jù)進行聚類,將相同借出車站歸為一類。
1.1 定義站點間距離模型 首先,用平均時間來進行度量距離。平均時間越小,則說明兩個站點距離越??;平均時間越大,則說明兩站點的距離越大。在算平均時間時,時長里幾個數(shù)據(jù),會有一個與其它幾個數(shù)據(jù)有很大的差別。從實際情況來看,從a辦事處到b住宅區(qū)的距離是1.2公里,一般借車者使用的時間是3-4分鐘,但數(shù)據(jù)里出現(xiàn)了40分鐘,因此與實際情況不符,便把它們進行了剔除。并且算出時長的極差和方差,極差越大,則就會有一個較大的與實際情況不相符的數(shù)據(jù)。說明這兩個站點之間距離數(shù)據(jù)越不可靠,而方差越小,數(shù)據(jù)越穩(wěn)定,則說明兩站點的距離也就越小。
根據(jù)公式,可以求出從第i個借車站點到第j個還車站點的均方差。
可以求出從a街道辦事處到c大廈和b住宅區(qū)的時長平均、方差、平均數(shù)、眾數(shù)(表1)。
從這些數(shù)據(jù)中進行比較,這樣可以得到一個從不同的借車站到不同的歸還車站的最短距離比較表和最長距離比較表。
經(jīng)過分析比較,我們得到從不同的借車站到不同的還車站的最短距離和最長距離。
2 綜合評價模型
2.2 借還平衡度模型 用借車數(shù)量減去還車數(shù)量得出一個數(shù)值,把平衡度分為-20%,-40%,-60%,-80%,90%,80%,60%,40%,20%,9個級別(正負號在平衡度中不表示大?。?。用數(shù)據(jù)中借自行車次數(shù)最多的的一天,進行處理規(guī)定出“借還平衡度的范圍表”(表2)。
由表2我們可以看出當度數(shù)為負數(shù)時,借車的數(shù)量小于還車的數(shù)量,說明鎖樁數(shù)不足;當度數(shù)為正數(shù)時,借車數(shù)量大于還車的數(shù)量,說明站點的車數(shù)太少。而且度數(shù)越小這種情況越嚴重。
對自行車服務系統(tǒng)的評價需要看使用者對該系統(tǒng)的使用態(tài)度。把數(shù)據(jù)進行進一步的滿意度分析,即用后一天的不同借車卡數(shù)(借車人數(shù))ci比上前一天的不同借車卡數(shù)(借車人數(shù))ci-1來表示前一天的滿意度,表示如果借車人對該系統(tǒng)滿意下次還會借車否則不會借車,然后把滿意度累加,最后再比上總天數(shù)i+1來表示總滿意度C,因此得到借車人滿意度模型C:C=×100%。
2.3 站點分布與鎖樁數(shù)量平衡度模型 站點的分布和鎖樁的數(shù)量是否合理,建立平衡度模型進行分析。當各站點的使用度與借車人的滿意度相近時,站點的分布和鎖樁的數(shù)量越合理,否則就不合理。以此用站點的使用度C比上借車人的滿意度A得到合理度D:C=×100%。
2.4 綜合評價指數(shù)模型 根據(jù)以上定義,對自行車服務系統(tǒng)站點設置和鎖樁的數(shù)量的配置重要程度的不同,通過給ω進行賦值如表3。
最后根據(jù)總公式得出對自行車服務系統(tǒng)站點設置的綜合評價指數(shù):W=AωA+BωB+CωC+DωD,得出W=83.037%。
3 模型的分析與結論
對城市公共自行車模型的建立與求解,其實就是進行大量數(shù)據(jù)處理的過程,并把海量的數(shù)據(jù)進行聚類分析。時間在很大程度上決定了借還兩個站點的距離,時間越長,借還站點距離越遠。而綜合評價模型需要對四項指標進行計算,每一項指標都對綜合評價指數(shù)起著至關重要的作用。模型建立充分利用自行車租賃系統(tǒng)的數(shù)據(jù),并結合當?shù)貙嶋H交通情況進行分析,為發(fā)展公共租賃交通提供了實際意義。
參考文獻:
[1]韓中庚.數(shù)學建模競賽-獲獎論文精選與點評[M].科學出版社,2008.
[2]韓中庚.數(shù)學建模競賽方法及其應用[M].二版.高等教育出版社,2009.
[3]溫州市鹿城公共自行車[DB/OL].溫州市鹿城區(qū)公共自行車管理中心網(wǎng)站:http:// 2013-9-15.
[4]劉登濤,方文道,章堅民,郭明澤.公共自行車交通系統(tǒng)調(diào)度算法[J].計算機應用系統(tǒng),2011(9).
篇5
【關鍵詞】 數(shù)據(jù)挖掘;數(shù)據(jù)庫;中醫(yī)學
數(shù)據(jù)收集和數(shù)據(jù)存儲技術的快速進步使得各組織機構可以積累海量數(shù)據(jù)。然而,提取有用的信息已經(jīng)成為巨大的挑戰(zhàn)。通常,由于數(shù)據(jù)量太大,無法使用傳統(tǒng)的數(shù)據(jù)分析工具和技術處理它們。有時,即使數(shù)據(jù)集相對較小,由于數(shù)據(jù)本身的非傳統(tǒng)特點,例如像中醫(yī)的證候信息,也不能使用傳統(tǒng)的方法處理。在另外一些情況下,需要回答的問題不能使用已有的數(shù)據(jù)分析技術來解決。因此,就需要開發(fā)新的方法。數(shù)據(jù)挖掘是一種技術,它將傳統(tǒng)的數(shù)據(jù)分析方法與處理大量數(shù)據(jù)的復雜算法相結合。數(shù)據(jù)挖掘為探查和分析新的數(shù)據(jù)類型以及用新方法分析舊的數(shù)據(jù)類型提供了令人振奮的機會[1]。中醫(yī)學界的研究者正在快速積累大量數(shù)據(jù),這些數(shù)據(jù)對獲得有價值的新發(fā)現(xiàn)至關重要。然而,由于這些數(shù)據(jù)的規(guī)模、噪聲和高維性,傳統(tǒng)的方法常常不適合分析這些數(shù)據(jù)集,需要新的數(shù)據(jù)分析方法。數(shù)據(jù)挖掘開發(fā)的技術可以幫助中醫(yī)研究人員解決這些問題。
1 數(shù)據(jù)挖掘概念
數(shù)據(jù)挖掘是在大型數(shù)據(jù)存儲庫中,自動地發(fā)現(xiàn)有用信息的過程。數(shù)據(jù)挖掘技術用來探查大型數(shù)據(jù)庫,發(fā)現(xiàn)先前未知的有用模式。數(shù)據(jù)挖掘還具有預測未來貫徹結果的能力,例如,預測一位向心性肥胖的人出現(xiàn)乏力、多飲,但目前測量血糖、血脂、血壓都正常,在未來半年內(nèi)是否發(fā)生2型糖尿病。數(shù)據(jù)挖掘是數(shù)據(jù)庫中知識發(fā)現(xiàn)(knowledge discovery in database,KDD)不可缺少的一部分,而KDD是將未加工的數(shù)據(jù)轉(zhuǎn)換為有用信息的整個過程,如圖1所示[2]。該過程包括一系列轉(zhuǎn)換步驟,從數(shù)據(jù)的預處理到數(shù)據(jù)挖掘結果的后處理。
圖1 數(shù)據(jù)庫知識發(fā)展(KDD)過程(略)
數(shù)據(jù)挖掘利用了來自如下一些領域的思想:(1)來自統(tǒng)計學的抽樣、估計和假設檢驗。(2)人工智能、模式識別和機器學習的搜索算法、建模技術和學習理論。數(shù)據(jù)挖掘也迅速地接納了來自其他領域的思想,這些領域包括最優(yōu)化、進化計算,信息論、信號處理、可視化和信息檢索[2]。通常,數(shù)據(jù)挖掘任務分為兩大類:一類是預測任務,這些任務的目標是根據(jù)其他屬性的值,預測特定屬性的值;另一類是描述任務,這類任務的目標是導出概括數(shù)據(jù)中潛在聯(lián)系的模式(相關、趨勢、聚類、軌跡和異常)。描述性數(shù)據(jù)挖掘任務通常是探查性的,并且常常需要后處理技術驗證和解釋結果。
2 在中醫(yī)研究中的探索
(1)預測建模,涉及以說明變量函數(shù)的方式為目標變量建立模型。有兩類預測建模任務:分類,用于預測離散的目標變量;回歸,用于預測連續(xù)的目標變量。預測建??梢杂脕斫鉀Q中醫(yī)脈診的客觀化指標確定問題。為進行這一任務,我們需要一個數(shù)據(jù)集(脈名,相對客觀指標1,相對客觀指標2,……)??陀^指標相對化是指因測量者的體質(zhì)不同而進行的修正,脈名的確定應該有權威的中醫(yī)專家確定。由此可以確定不同脈的客觀化指標的范圍,但需要后處理技術檢驗。(2)關聯(lián)分析,用來發(fā)現(xiàn)描述數(shù)據(jù)中強關聯(lián)特征的模式。關聯(lián)分析在中醫(yī)中的應用包括找出某一疾病患者出現(xiàn)的各種癥狀和體征之間的聯(lián)系,方劑的配伍規(guī)則。對中醫(yī)古代文獻中復雜的定性描述進行關聯(lián)分析,揭示其規(guī)律實現(xiàn)標準化[3]。(3)聚類分析,旨在發(fā)現(xiàn)緊密相關的觀測值組群,使得與屬于不同簇的觀測值相比,屬于同一簇的觀測值相互之間盡可能類似。中醫(yī)標準化診斷和治療是現(xiàn)今研究的熱點,而標準化要解決的第一個問題就是經(jīng)西醫(yī)確診后的疾病的中醫(yī)證候分類問題[4]。例如,代謝綜合征到底有哪些證型,要解決這個問題需要的觀測值特別多,而且具有高維性,聚類分析可以進行初步的篩選和分類。(4)異常檢測的任務是識別其特征顯著不同于其他數(shù)據(jù)的觀測值,目標是發(fā)現(xiàn)真正的異常點,而避免錯誤地將正常的對象標注為異常點。換言之,一個好的異常檢測器必須具有高檢測率和低誤報率。異常檢測的應用包括疾病的不尋常模式,藥物的不典型副作用。由此可見,對中醫(yī)觀測數(shù)據(jù)的挖掘應采用多種方法分批、多層次的挖掘,對結果應該綜合分析,并且得到專家的一致共識,才有參照意義。
3 適合中醫(yī)的數(shù)據(jù)挖掘算法的研究設想
以上所論及的挖掘算法都并非專為中醫(yī)開發(fā)的,它們的適應范圍廣,中醫(yī)研究是可以借鑒的[5]。如果根據(jù)中醫(yī)自身特點而研發(fā)的挖掘算法,則可以更好解決中醫(yī)研究中遇到的問題。筆者認為在這方面醫(yī)圣張仲景已經(jīng)樹立了榜樣,他的《傷寒論》就應用了數(shù)據(jù)挖掘技術。他分析的數(shù)據(jù)就是大量臨床病例,分析數(shù)據(jù)所使用的方法來源有三,其一是他精通中國古代數(shù)學;其二是他鉆研《素問》、《九卷》、《八十一難》、《陰陽大論》、《胎臚藥錄》等典籍,從中得出的術數(shù)模型;其三是一些統(tǒng)計學方法。他得出的模式是六經(jīng)辨證模式,此模式成為中醫(yī)臨床最重要的辨證模式。六經(jīng)辨證模式解決了中醫(yī)外感病的分類與治療問題,外感病傳變、轉(zhuǎn)屬等諸多問題。以上雖有杜撰之嫌,但也的確能給研究者一些啟示。
參考文獻
[1]ZhangHui Tang,著.高 升,譯.數(shù)據(jù)挖掘原理與應用[M].北京:清華大學出版社,2007:24.
[2]PangNing Tan,著.范 明,譯.數(shù)據(jù)挖掘?qū)д摚跰].北京:人民郵電出版社,2006:14.
[3]秦雪君,施 誠.數(shù)據(jù)挖掘技術在中醫(yī)藥領域的應用[J].醫(yī)學信息,2006,19(5):945947.
[4]張 琴,劉 平,張文彤.數(shù)據(jù)挖掘技術在中醫(yī)證候?qū)W研究中的應用[J].上海中醫(yī)藥雜志,2006,40(3):35.
篇6
關鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)庫;遺傳算法;神經(jīng)網(wǎng)絡
中圖分類號:TP392文獻標識碼:A文章編號文章編號:1672-7800(2013)012-0129-02
基金項目:佛山科學技術學院重點項目(2010)
作者簡介:劉曉莉(1961-),女,佛山科學技術學院副教授,研究方向為應用數(shù)學。
1遺傳算法基本特征
遺傳算法是模擬達爾文的遺傳選擇和自然淘汰的生物進化過程的計算模型,是一種具有廣泛適用性的通用優(yōu)化搜索方法。遺傳算法主要借用了生物遺傳學的觀點,通過自然選擇、遺傳和變異等作用機制來產(chǎn)生下一代種群,如此逐代進化,直至得到滿足要求的后代即問題的解,是一種公認的全局搜索能力較強的算法。
遺傳算法有良好智能性,易于并行,減少了陷于局部最優(yōu)解的風險。遺傳算法的處理對象不是參數(shù)本身,而是對參數(shù)集進行了編碼的個體,可以直接對集合、隊列、矩陣、圖表等結構進行操作。同時,在標準的遺傳算法中,基本上不用搜索空間的知識或其它輔助信息,而僅用適應度函數(shù)值來評估個體,并在此基礎上進行遺傳操作; 遺傳算法不是采用確定性規(guī)則,而是采用概率的變遷規(guī)則來指導它的搜尋方向。正是這些特征和優(yōu)點,使得遺傳算法在數(shù)據(jù)挖掘技術中占有很重要的地位,既可以用來挖掘分類模式、聚類模式、依賴模式、層次模式,也可用于評估其它算法的適合度。
2神經(jīng)網(wǎng)絡基本特征
神經(jīng)網(wǎng)絡是人腦或自然神經(jīng)網(wǎng)絡若干基本特征的抽象和模擬,是以大量的、同時也是很簡單的處理單元(神經(jīng)元)廣泛地互相連接形成的復雜非線性系統(tǒng)。人工神經(jīng)網(wǎng)絡本質(zhì)上是一個分布式矩陣結構,它根據(jù)樣本的輸入輸出對加權法進行自我調(diào)整,從而近似模擬出輸入、輸出內(nèi)在隱含的映射關系。建模時,不必考慮各個因素之間的相互作用及各個因素對輸出結果的影響機制,這恰好彌補了人們對各個因素及對輸出結果的機制不清楚的缺陷,從而解決眾多用以往方法很難解決的問題。
神經(jīng)網(wǎng)絡具有大規(guī)模的并行處理和分布式的信息存儲,有良好的自適應、自組織性,學習能力很強,有較強的聯(lián)想功能和容錯功能,在解決機理比較復雜、無法用數(shù)學模型來刻畫的問題,甚至對其機理一無所知的問題等,神經(jīng)網(wǎng)絡方法特別適用,是一種用于預測、評價、分類、模式識別、過程控制等各種數(shù)據(jù)處理場合的計算方法,其應用已經(jīng)滲透到多個領域,在計算機視覺、模式識別、智能控制、非線性優(yōu)化、信號處理、經(jīng)濟和機器人等方面取得了可喜的進展。
3遺傳算法與神經(jīng)網(wǎng)絡混合算法在數(shù)據(jù)挖掘中的應用
作為一種有效的優(yōu)化方法,遺傳算法可以應用于規(guī)則挖掘,可以單獨用于數(shù)據(jù)倉庫中關聯(lián)規(guī)則的挖掘,還可以和神經(jīng)網(wǎng)絡技術相結合,建立基于神經(jīng)網(wǎng)絡與遺傳算法的數(shù)據(jù)挖掘體系,用于數(shù)據(jù)挖掘中的分類問題。
學習能力是神經(jīng)網(wǎng)絡中最引人矚目的特征,學習算法的研究一直占據(jù)重要地位??梢詫⑦z傳算法應用于神經(jīng)網(wǎng)絡的學習過程中,這樣可以避免傳統(tǒng)的神經(jīng)網(wǎng)絡算法容易陷入局部極小的問題。有研究者提出了一種基于遺傳算法的神經(jīng)網(wǎng)絡二次訓練方法,可以提高神經(jīng)網(wǎng)絡的模糊處理能力,有效解決神經(jīng)網(wǎng)絡陷入局部極小的缺點,加快收斂速率,提高學習效率。也有研究者探究了基于基因重組的遺傳算法優(yōu)化神經(jīng)網(wǎng)絡的方法,通過訓練權值來實現(xiàn)分類,可以提高神經(jīng)網(wǎng)絡數(shù)據(jù)分類的準確性。因此,采用遺傳算法與神經(jīng)網(wǎng)絡模型相結合方法,可以解決多維非線性系統(tǒng)及模型未知系統(tǒng)的預測、評價與優(yōu)化等問題,其成功案例有很多,下面是其中的幾例。
一些研究者針對當前專家系統(tǒng)知識獲取瓶頸的難題,提出了基于神經(jīng)網(wǎng)絡與遺傳算法的汽輪機組數(shù)據(jù)挖掘方法。該方法首先將汽輪機組歷史故障數(shù)據(jù)進行模糊化及離散化處理后,建立神經(jīng)網(wǎng)絡模型,然后再利用遺傳算法對神經(jīng)網(wǎng)絡進行優(yōu)化,實現(xiàn)了基于神經(jīng)網(wǎng)絡與遺傳算法相結合的汽輪機組數(shù)據(jù)挖掘和故障診斷仿真系統(tǒng),其診斷正確率達到了84%。
綜合運用人工智能、計算智能(人工神經(jīng)網(wǎng)、遺傳算法) 、模式識別、數(shù)理統(tǒng)計等先進技術作為數(shù)據(jù)挖掘工具,可以建立可靠、高效的數(shù)據(jù)挖掘軟件平臺,已在很多工業(yè)控制和優(yōu)化中得到應用和實驗驗證,并取得了滿意的應用效果。例如,某鋁廠根據(jù)以往不同原料成分和原料的不同配比與產(chǎn)品質(zhì)量關系記錄的數(shù)據(jù)庫,應用數(shù)據(jù)挖掘軟件平臺,可以挖掘出適應不同原料成分的最佳配比規(guī)律,從而提高產(chǎn)品質(zhì)量的穩(wěn)定性。又如,以往在化工產(chǎn)品優(yōu)化配方、催化劑配方優(yōu)化或材料工藝優(yōu)化等研究中,基本上都是采用試驗改進的方式,需經(jīng)過多次試驗才能達到預期目的,但也有可能失敗。為降低消耗, 少做試驗就能達到預期目的,可采用神經(jīng)網(wǎng)絡對產(chǎn)品配方實驗數(shù)據(jù)建模,在此基礎上,再應用遺傳算法對配方模型進行優(yōu)化,得到優(yōu)化配方。
正是遺傳算法與神經(jīng)網(wǎng)絡等算法的支撐以及計算機技術的發(fā)展,目前,數(shù)據(jù)挖掘廣泛地應用于天文、地理、生物信息學、金融、保險、商業(yè)、電信、網(wǎng)絡、交通等眾多領域。例如,應用在地理數(shù)據(jù)庫上,主要挖掘地質(zhì)、地貌特征,為尋找礦產(chǎn)或進行城市規(guī)劃等提供參考依據(jù);在電信Web服務器方面,可以挖掘Web日志,根據(jù)用戶興趣動態(tài)鏈接Web頁面,統(tǒng)計頁面鏈接及權威主頁等,對檢索頁面進行聚類,方便用戶找到需要的信息;在生物醫(yī)學信息和DNA數(shù)據(jù)分析方面,進行遺傳、疾病等數(shù)據(jù)特征的挖掘,為疾病診斷、治療和預防研究提供科學依據(jù);對金融數(shù)據(jù)進行挖掘,可以分析客戶信用度;在CRM(客戶關系模型)上使用數(shù)據(jù)挖掘,獲得客戶群體分類信息、交叉銷售安排及開發(fā)新客戶和保留老客戶的策略;在電信業(yè)中使用挖掘技術,以預防網(wǎng)絡欺詐等;應用在商業(yè)問題的研究包括:進行客戶群體劃分、背景分析、交叉銷售等市場行為分析,以及客戶流失性、信用度分析與欺詐發(fā)現(xiàn);在電子商務方面,從服務器以及瀏覽器端的日志記錄中發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式信息,了解系統(tǒng)的訪問模式以及用戶的行為模式,作出預測性分析等等。
4結語
神經(jīng)網(wǎng)絡和遺傳算法作為數(shù)據(jù)挖掘技術,也有一些不足和缺陷。遺傳算法除了要進一步改進基本理論和方法外,還要采用和神經(jīng)網(wǎng)絡、模擬退火、最近臨規(guī)則等其它方法相結合的策略,提高遺傳算法的局部搜索能力,從而進一步改善其收斂速度和解的品質(zhì),提高數(shù)據(jù)挖掘技術。特別是對于單調(diào)函數(shù)或單峰函數(shù),遺傳算法在初始時很快向最優(yōu)值逼近,但是在最優(yōu)值附近收斂較慢;而對于多峰函數(shù)的優(yōu)化問題,它往往會出現(xiàn)“早熟”,即收斂于局部極值。因此,研究如何改進遺傳算法,采用合適的算法加快尋優(yōu)速度和改善尋優(yōu)質(zhì)量,無論在理論上還是在實踐上都有重要意義。神經(jīng)網(wǎng)絡的神經(jīng)計算基礎理論框架以及生理層面的研究仍需深入與加強,如何提高神經(jīng)網(wǎng)絡的可理解性問題,以及研究遺傳算法、神經(jīng)網(wǎng)絡技術與其它人工智能技術更好地結合,從而獲得比單一方法更好的效果等問題,值得進一步探索。
雖然數(shù)據(jù)挖掘技術已得到了廣泛應用,但現(xiàn)有的數(shù)據(jù)挖掘方法并不能完全適應所面臨的具有多樣性的海量數(shù)據(jù)分析的現(xiàn)實,急需解決的問題是:如何研究并行處理和抽樣的方法,來處理大規(guī)模的數(shù)據(jù)以獲得較高的計算效率;如何利用統(tǒng)計、模糊數(shù)學來確定隱含變量及依賴關系,開發(fā)容噪的挖掘方法,以解決異質(zhì)數(shù)據(jù)集的數(shù)據(jù)挖掘問題;如何更好地進行文本數(shù)據(jù)挖掘、Web數(shù)據(jù)挖掘、分類系統(tǒng)、可視化系統(tǒng)、空間數(shù)據(jù)系統(tǒng)和分布式數(shù)據(jù)挖掘等新技術的應用。因此,未來數(shù)據(jù)挖掘的研究表現(xiàn)在數(shù)據(jù)挖掘功能、工具、方法(算法) 的拓展與理論創(chuàng)新,其應用的范圍和深度會進一步加強。
參考文獻參考文獻:
[1]孟曉明.淺談數(shù)據(jù)挖掘技術[J].計算機應用與軟件,2004 (8).
[2]李慧芳,姚躍華,陳一棟.改進的遺傳算法對神經(jīng)網(wǎng)絡優(yōu)化的分類[J].微計算機信息,2008(15).
[3]王東龍,李茂青.基于遺傳算法的數(shù)據(jù)挖掘技術應用[J].南昌大學學報, 2005(1).
[4]宋仁國.鋁合金工藝優(yōu)化的遺傳算法[J].材料科學與工程,1998(1).
[5]韓力群.催化劑配方的神經(jīng)網(wǎng)絡建模與遺傳算法優(yōu)化[J].化工學報,1999(4).
[6]郭崇慧,陸玉昌.預測型數(shù)據(jù)挖掘中的優(yōu)化方法[J].工程數(shù)學學報,2005(1).
[7]楊杰.用于建模、優(yōu)化、故障診斷的數(shù)據(jù)挖掘技術[J].計算機集成制造系統(tǒng),2000(10).
篇7
關鍵詞: 數(shù)據(jù)挖掘;建模;SQL Server2008;樸素貝葉斯
0 引言
圖書館作為高校的一個重要組成部分,其管理方式的信息化亦是高校管理信息化的重要體現(xiàn)。圖書館圖書借閱資料繁多,很多的數(shù)據(jù)需要管理。若采取手工方式對圖書資料和圖書借閱情況進行管理,由于資料繁多,手工處理的工作量大,整體管理效率低下,也不方便讀者對圖書資料的查閱。如今,雖然大多數(shù)的圖書館都采用了數(shù)據(jù)庫管理系統(tǒng),但是數(shù)據(jù)挖掘功能還沒有被充分利用。SQL Server2008是一款非常重要數(shù)據(jù)庫管理系統(tǒng),其中的數(shù)據(jù)挖掘功能,可以挖掘出圖書管理系統(tǒng)中大量有價值的信息,為管理者提供參考,為讀者提供更加個性化的服務。
1 數(shù)據(jù)挖掘的概念
簡單地說,數(shù)據(jù)挖掘就是從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的以及最終可理解的模式的非平凡過程。數(shù)據(jù)挖掘通過對查詢內(nèi)容進行模式的總結和內(nèi)在規(guī)律的搜索,幫助管理者分析歷史數(shù)據(jù)及當前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關系和模式,進而預測未來可能發(fā)生的行為,從而為決策行為提供有利的支持。數(shù)據(jù)挖掘技術還能夠用于信息管理、查詢處理和過程控制等。它與傳統(tǒng)的數(shù)據(jù)分析(查詢、報表、聯(lián)機應用分析)的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在沒有明確假設的前提下去挖掘信息、發(fā)現(xiàn)知識。
2 數(shù)據(jù)挖掘的方法[1]
數(shù)據(jù)挖掘方法分為統(tǒng)計方法、機器學習方法、神經(jīng)網(wǎng)絡方法和數(shù)據(jù)庫方法。統(tǒng)計學的方法是數(shù)據(jù)挖掘的經(jīng)典方法。統(tǒng)計方法中包括回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數(shù)判別等)、聚類分析(系統(tǒng)聚類、動態(tài)聚類等)、探索性分析(主元分析法、相關分析法)等;機器學習方法中包括歸納學習方法(決策樹、規(guī)則歸納等)、基于范例學習、遺傳算法、粗糙集等。
3 數(shù)據(jù)挖掘建模應用圖書構建中
3.1 挖掘工具的選擇
SQL Server2008中的數(shù)據(jù)挖掘組件是數(shù)據(jù)挖掘工具的典型代表,系統(tǒng)中引入了多個新的數(shù)據(jù)挖掘算法,與傳統(tǒng)的數(shù)據(jù)挖掘工具相比,SQL Server2008數(shù)據(jù)挖掘功能具備很多優(yōu)勢,因為它與所有SQL Server產(chǎn)品實現(xiàn)了集成,包括SQL Server、SQL Server Integration Services和Analysis Services。SQL Server2008數(shù)據(jù)挖掘功能具有實用性、可伸縮性和可擴展性等特點,同時它包含簡單而豐富的API。基于SQL Server2008有著非常實用的數(shù)據(jù)挖掘功能,所以選擇完整表達出圖書類別的信息作為數(shù)據(jù)挖掘的工具。[2]
3.2 數(shù)據(jù)的收集及整理
本學校采用計算機管理圖書的時間還不長,系統(tǒng)功能還較簡單,相關數(shù)據(jù)整理起來也相對比較雜:
1)在服務器端導出Excel格式的圖書信息表、借書記錄表。因為系統(tǒng)功能比較簡單,圖書信息表格中只有類別編號,沒有類別名稱,不能完整表達出圖書類別的信息,所以需要人工將數(shù)據(jù)導出來之后,進行數(shù)據(jù)匯總。
2)啟動SQL Server2008 Management Studio,在對象資源管理器中新建一個數(shù)據(jù)庫“l(fā)ibrary”數(shù)據(jù)庫,然后建立“l(fā)ib”表,將數(shù)據(jù)填寫在表中,如圖1。ID:編號,yxzy:是否是醫(yī)學專業(yè),sjlx:書籍類型,js:借書情況,xj:是否續(xù)借,jdrs:接待人數(shù)。
3.3 對library數(shù)據(jù)庫進行數(shù)據(jù)挖掘,建立模型
1)啟動SQL Server Business Intelligence Development
Studio,新建一個商業(yè)智能項目。
2)新建數(shù)據(jù)源(DS),把library數(shù)據(jù)庫添加進來。
3)新建一個數(shù)據(jù)庫數(shù)據(jù)源視圖(DSV)。
4)使用數(shù)據(jù)挖掘向?qū)Ы?shù)據(jù)挖掘結構和挖掘模型。
5)處理挖掘模型。
6)使用挖掘模型進行分析、預測。
3.4 對挖掘的信息進行分析匯總
1)該表通過數(shù)據(jù)匯總之后,摘錄了18條有代表性的記錄,進行分析。按是否是醫(yī)學專業(yè)類別分書籍,共為兩類:是和否;借書情況分為三類:好、一般、差。是否續(xù)借,分為兩類:是和否;接待人數(shù)分為三類:200。以100和200為基準的原則是按照各個系別的人數(shù)劃分,有些醫(yī)學專業(yè)的人數(shù)比較多,例如臨床醫(yī)學,有些則適中如解剖,有些則是非醫(yī)學專業(yè)的人數(shù)比較少,如:計算機。
2)采用Microsoft Naive Bayes數(shù)據(jù)挖掘技術繼續(xù)分析。Naive Bayes是數(shù)據(jù)挖掘十大經(jīng)典算法之一,在眾多分類方法中,應用最廣泛的有決策樹模型和樸素貝葉斯(Naive Bayes)。本表分析則采用的是樸素貝葉斯,樸素貝葉斯分類器(Naive Bayes Classifier,后NBC)發(fā)源于古典數(shù)學理論,有著堅實的數(shù)學基礎,以及穩(wěn)定的分類效率。同時,NBC模型所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感,算法也比較簡單。Microsoft Naive Bayes算法對dbo.lib,得出如下結果,如圖2和圖3。
圖2和圖3直接給圖書館管理人員提供了決策依據(jù),為以后的工作提供了理論依據(jù)。比如根據(jù)圖2依懶關系網(wǎng)絡圖,可以發(fā)現(xiàn),書籍的是否續(xù)借直接和該書籍接待人數(shù)和是否借書的情況有關系。根據(jù)圖3發(fā)現(xiàn),接待人數(shù)多的則是醫(yī)學專業(yè)的人比較多,而非醫(yī)學專業(yè)的人則少,可能是因為這方面的圖書太少,相關書目更新速度太慢,沒有新的書籍,還有就是這些專業(yè)是學校新興的學科,沒有及時的購買書籍。但是非醫(yī)學專業(yè)的書籍,如文學類的圖書被借閱的次數(shù)最多,這也是讓非醫(yī)學專業(yè)接待人數(shù)在其中占一個大比例的原因,應該把該類圖書置于易于存放的位置,以便為讀者提供更人性化的服務等。同時也應該增加一些圖書館中,書籍的種類。
4 結語
圖書館管理引進數(shù)據(jù)庫系統(tǒng)以后,節(jié)約了大量的人力、物力,提高了圖書管理員的辦事效率,使用數(shù)據(jù)挖掘技術可以挖掘出大量讀者借閱記錄中存在的隱含的信息,通過這些信息可以為管理者提供更直觀的決策依據(jù),采取更及時有效的措施,為讀者提供更加人性化的服務。
參考文獻:
篇8
其次使用編網(wǎng)法[23],如下圖所示,可將輸入變量分為兩類,從而可以確定模糊規(guī)則數(shù)。 圖1 編網(wǎng)法 模糊規(guī)則如下: 規(guī)則1:if x高 and x低, 則y1=c10+c11x高+c12x低 規(guī)則2: if x中, 則y2=c20+c21x中 ①前件參數(shù)辨識 模型前件參數(shù)辨識即是確定前件中隸屬度函數(shù),這里使用高斯函數(shù),即令 (5)
這里ρ為均值,σ為方差 可分別獲得x高、x中、x低的隸屬度函數(shù):
由這些隸屬度函數(shù)可以根據(jù)公式(3)得到各條規(guī)則的權重,分別為: ②后件參數(shù)辨識 模型的后件參數(shù)辨識使用最小二乘法,我們知道最小二乘法可以用來處理一組數(shù)據(jù), 可以從一組測定的數(shù)據(jù)中尋求變量之間的依賴關系, 這種函數(shù)關系稱為經(jīng)驗公式。這里我們假定在正常情況下的輸出曲線為拋物線型。假定為y=x2。利用最小二乘法,每次只計算一條規(guī)則后件參數(shù)。最后使用極值原理令總偏差最小獲得方程組,解得各規(guī)則的系數(shù),得到各規(guī)則后件的線性表達式: y1=-0.4491+1.3561x高+3.2343x低 y2=0.0322+0.025x中 則最終根據(jù)公式(2)得出軸承故障的t-s模型的總輸出: 3.2 基于故障模型的計算機仿真 matlab軟件maths works公司1984年推出的一套高性能的數(shù)值計算和可視化軟件,它集數(shù)學計算、圖形計算、語言設計和模糊邏輯等30多個工具為一體,具有極高的編程效率,由于它是一個開放環(huán)境,已經(jīng)成為國際控制界廣泛使用的語言之一。本文采用t-s模型動態(tài)逼近非線性系統(tǒng),利用matlab軟件中的模糊控制工具箱,以異步電機軸承的故障模型的仿真實驗,驗證了該方法的有效性。
(a)正常數(shù)據(jù)仿真對比曲線
篇9
Abstract: Exchange rate forecasting is an important subject in financial market. This article applies both parametric (group method of data handling, GMDH) and nonparametric (analog complexing, AC) self-organising modelling methods for exchange rate forecasting. The AC method used the data themselves to identify patterns with similar characteristics. The GMDH algorithm is used to combine the analog patterns and identify an optimum ensemble which has similar characteristics with the modelling object. The empirical results show that the combined method can well forecast exchange rate.
關鍵詞: 自組織建模;相似體合成算法;分組數(shù)據(jù)處理;預測
Key words: self-organising modelling;analog complexing;GMDH;forecasting
中圖分類號:F830.91 文獻標識碼:A 文章編號:1006-4311(2013)23-0148-02
0 引言
20世紀70年代布雷頓森林體系解體后,國際貨幣體制發(fā)生了根本改變,浮動匯率制取代固定匯率制成為了世界上主要的匯率制度,匯率變化顯現(xiàn)出了復雜化和動態(tài)化的特征。匯率的波動使國際經(jīng)濟秩序和金融市場的穩(wěn)定性受到影響,國際經(jīng)濟交易中的不確定性和風險大大增加。2005年中國人民銀行宣布人民幣實行有管理的浮動匯率制度,這使得人民幣匯率更能有效的反映市場供求狀況,但同時也導致人民幣匯率的波動。因此匯率研究日益成為經(jīng)濟學的一個重要課題。
傳統(tǒng)的匯率預測方法以現(xiàn)有的匯率決定理論(如購買力平價假說、國際收支學說、利率平價假說、資產(chǎn)市場假說等)為基礎,在匯率與影響匯率的各種經(jīng)濟變量之間建立線性模型[1]-[3]。但是基于線性研究模式的傳統(tǒng)匯率決定模型無法解釋現(xiàn)實中的很多異像,如統(tǒng)計分布的“尖峰厚尾”性、波動的集群性等[4]-[5]。越來越多的研究表明匯率系統(tǒng)具有復雜的非線性特征,因此,近年來越來越多的非參數(shù)、非線性方法被應用到匯率預測的研究中,比如神經(jīng)網(wǎng)絡(Artificial Neural Network,ANN)、支持向量機(Support Vector Machine,SVM)、最小二乘支持向量機(Least squares support vector machine,LSSVM)、分組數(shù)據(jù)處理(Group Method of Data Handling,GMDH)、小波分析、遺傳算法、混沌時序預測方法等等[6]-[9]。
本文提出一種結合參數(shù)自組織建模與非參數(shù)自組織建模的混合模型來預測匯率。參數(shù)自組織建模即多層迭代的GMDH算法,非參數(shù)自組織建模即相似體合成算法(Analog complexing,AC),用AC算法選擇與當前時期有相同特征的相似體,再用GMDH算法將相似體進行加權組合,選擇最優(yōu)模式,用于預測當前時期的發(fā)展趨勢。以上兩種算法按照順序組合起來,利用各自的優(yōu)勢,可以提高預測的精度,優(yōu)于單一模式。將該混合模型用于實證分析外匯市場上的人民幣(RMB)兌美元(USD)、人民幣兌港幣(HKD)兩種匯率,并與單一的ANN模型和GMDH模型對比,結果表明該模型較具有較好的預測效果。
1 預測模型
1.1 GMDH算法原理
GMDH算法由Ivakhnenko于1967年提出,利用多層神經(jīng)網(wǎng)絡,借助自組織原理,由計算機利用數(shù)據(jù)相對客觀地選擇變量之間的關系,用外準則選取最優(yōu)模型,實現(xiàn)對研究對象內(nèi)部結構的模擬[10]-[12]。GMDH算法是神經(jīng)網(wǎng)絡的一種改進,將黑箱思想、生物神經(jīng)元方法、歸納法、概率論等方法有機地結合起來,實現(xiàn)了自動控制與模式識別理論的統(tǒng)一,減少了認識過程中的人為參與行為,更具有客觀性與公正性。GMDH算法對有噪聲的小數(shù)據(jù)樣本有較強的預測能力,可以避免神經(jīng)網(wǎng)絡過擬合的缺點,同時神經(jīng)網(wǎng)絡不能給出顯示模型,而GMDH算法則可以建立顯示模型,便于結構分析。
GMDH算法首先將樣本集 W 分為學習集 A(training set) 和檢測集 B(testing set)(W=A+B)。建立參考函數(shù)表示輸入變量和輸出變量之間的一般函數(shù)關系y=f(xi,xj),通常采用二元二次Kolmogorov-Gabor(簡稱K-G多項式)作為參考函數(shù),建立初始模型,其表達式為
y=a0+a1xi+a2xj+a3xixj+a4x■■+a5x■■ (1)
其中,y為輸出向量,x1,x2,…,xn為輸入向量,a是系數(shù)。選擇一個外準則(如最小偏差準則)作為中間模型的判斷標準。
具體步驟如下:
將自變量x1,x2,…,xn作為輸入變量,兩兩組合,根據(jù)參考函數(shù)(1),在第一層產(chǎn)生C■■個輸出變量,經(jīng)外準則判斷,選擇n1?燮C■■個變量再兩兩組合進入第二層……重復以上步驟,直到最后外準則值達到最優(yōu),模型結構不能再改善,此時沿最后一層的輸出變量逐層回推就可以得到最優(yōu)模型的參數(shù)及模型結構。
1.2 AC算法原理
AC算法是對復雜對象的預測、聚類和分類的一種序列模式識別方法,該方法假定時間序列在一段時期的情形會以某種形式重復,即當前的發(fā)展狀態(tài)在歷史上存在一個或多個相似時期。這樣就可以將歷史上相似時期的發(fā)展趨勢通過變換組合,用來推斷和預測當前狀態(tài)的發(fā)展趨勢。AC算法假設被研究的對象滿足以下四個假設:①系統(tǒng)是多維過程;②過程的長期觀測值是有效的;③多維過程的數(shù)據(jù)集由系統(tǒng)的基本變量生成;④過程的行為一般將在一段時間內(nèi)相似地重復。
具體的算法步驟為:
①產(chǎn)生待選模式;
②轉(zhuǎn)換相似體;
③根據(jù)模式的相似度選擇最相似的模式;
④將相似模式的延拓進行組合用于預測。
1.3 結合AC算法與GMDH算法的混合模型
在AC算法中,GMDH算法通過數(shù)據(jù)挖掘發(fā)現(xiàn),在歷史上與建模的當前狀態(tài)具有相同特征的相似體一定存在,并識別出最佳的相似體。盡管金融市場存在進化現(xiàn)象,但仍然認為相似體的延拓與建模對象的延拓有類似的特征。另外,在預測時,訓練集的質(zhì)量會影響神經(jīng)網(wǎng)絡的泛化能力,而GMDH算法在系統(tǒng)的輸入維數(shù)和歷史數(shù)據(jù)的長度之間的比例是相對較小的,因此是待定系統(tǒng)建模最好的算法。使用GMDH算法,將已經(jīng)選出來的相似模式的延拓加權組合起來,同時給出組合時的最優(yōu)權重,用線性的輸入輸出GMDH模型,可求出當前狀態(tài)的發(fā)展趨勢。AC算法不需要預先對輸入變量的發(fā)展趨勢進行估價或作假設,完全由已知的數(shù)據(jù)給出預測,是真正意義上的預測。GMDH算法則由數(shù)據(jù)根據(jù)最優(yōu)復雜度原則客觀地選擇最優(yōu)模式,避免人為干預,符合數(shù)據(jù)特征。這樣,將非參數(shù)的自組織方法AC算法和參數(shù)的自組織方法GMDH算法結合起來,使各個方法的優(yōu)點充分利用,提高預測精度。
2 實證分析
本文實證分析外匯市場上的人民幣(RMB)兌美元(USD)、人民幣兌日元(JPY)兩種匯率,取當日收盤價,數(shù)據(jù)來自CCER中國經(jīng)濟金融數(shù)據(jù)庫??紤]到中國于2005年7月21日才開始實行浮動匯率,選擇2005年7月25日至2011年12月30日匯率數(shù)據(jù),剔除無效數(shù)據(jù),共1590個數(shù)據(jù)。其中2005年7月21日到2010年6月18日共1200個樣本作為訓練集,其余作測試集。
將混合參數(shù)與非參數(shù)的自組織方法與單一的GMDH算法和神經(jīng)網(wǎng)絡ANN模型作一比較,用均方誤差MSE作為評判標準,MSE=■,預測結果如表1。
由上述結果可見,根據(jù)MSE的值,結合參數(shù)與非參數(shù)的自組織方法預測效果最好,GMDH算法的預測效果次之,神經(jīng)網(wǎng)絡ANN的效果最差。
3 結論
由于金融模型能夠較準確地進行預測,因而吸引了眾多投資者的注意,但是匯率市場的多變性和復雜性使得預測工作變得非常困難。由于金融市場的快速發(fā)展和其具有的非參數(shù)的特性,非參數(shù)建模方法逐步替代參數(shù)方法成為一個更好的預測方法。因此,非參數(shù)自組織方法如AC算法被用于匯率預測。進一步的工作表明,非參數(shù)和參數(shù)方法結合使用時,預測的結果相比單一的方法更有效更一致,能使模型的預測性能顯著改善。因此,結合參數(shù)與非參數(shù)的自組織方法可以作為匯率預測的一個有效工具。
參考文獻:
[1]姜波克,陸前進,匯率理論和政策研究[M].上海:復旦大學出版社,2000.
[2]姜波克,楊長江.國際金融學(第二版)[M].北京:高等教育出版社,2004,
[3]施建淮.匯率經(jīng)濟學研究[M].北京 : 中國社會科學出版社,2010.
[4]D.A. Hsieh, “Testing for Nonlinear Dependence in Daily Foreign Exchange Rates,” Journal of Business, Vol. 62, No. 3, 1989, pp. 329-368.
[5]J. A. Frankel, “Monetary and Portfolio Balance Models of the Determination of Exchange Rates,” In: J. A. Frankel, Ed., On Exchange Rates, MIT Press, Cambridge, 1993, pp. 95-116.
[6]M. Alvarez-Diaz and A. Alvarez, “Forecasting Exchange Rates Using an Evolutionary Neural Network,” Applied Financial Economics Letters, Vol. 3, No. 1, 2007, pp. 5-9.
[7]Shan-Chang Huang, Pei-Ju Chuang, Cheng-Feng Wu. Chaos-based support vector regressions for exchange rate forecasting [J]. Expert Systems with Applications. Vol. 37, Issue 12, December 2010,pages 8590-8598.
[8]Jussi Nikkinen, Seppo Pynnonen, Mikko Ranta, Sami Vahamaa, Cross-dynamics of exchange rate expectations: a wavelet analysis[J]. International Journal of Finance & Economics. Vol 16, Issue 3, pages 205-217, July 2011.
[9]Bahram Adrangi, Mary Allender, Arjun Chatrath and Kambiz Raffiee. Nonlinearities and Chaos: Evidence from Exchange Rates[J].Atlantic Economic Journal, 2010, vol. 38, issue 2, pages 247-248.
[10]Ivakhnenko A.G. Heuristic self-organization on problems of engineering cybernetics [J].Automatic.1970, 6(3):207-219.
篇10
Abstract: Laser scanning point cloud data can be projected using a specific intuitive program to help understand the structure of the data in the building. Such procedures have been widely used in automated building modeling. The method derives a building orientation from the analysis of a high-degree histogram bin and uses the azimuth to generate an orthogonally two-dimensional projection of the point cloud, where the roof plane is the line of the point cloud. The line segments representing these planes are extracted by a line tracking algorithm. In the subsequent processing steps, the line segments are stretched and the plane is used to analyze deviations from the rectangular shape. Two or more adjacent planes are grouped to generate a three-dimensional building model. Existing 2D GIS data can be used in this process to provide reliable partitioning of the onboard laser scan dataset and generate hypotheses that support realistic building modeling.
關鍵詞: LiDAR;點云數(shù)據(jù);分割;建筑模型建模
Key words: LiDAR; point cloud data;segmentation;building model reconstruction
中圖分類號:TP391.4 文獻標識碼:A 文章編號:1006-4311(2017)14-0147-03
0 引言
激光雷達Lidar在最近十年間嶄露頭角并逐漸進入主流的一種遙感技術,它實用性強,比如用于DEM提取和三維建模等。甚至國外已經(jīng)用Lidar實現(xiàn)了城市三維模型建立。Lidar直接測得帶有地理坐標的密集點云,并不能直觀地給人們描述其所需要認識的研究對象,為此往往需要對點云進行一系列的處理,然后方能提取出人們想要得到的信息。
目前,關于點云的處理已經(jīng)有多種的流程和框架,其中點云分割技術就是期間重要的一步。通常只有在完成點云分割技術處理之后才能再進行建模、三維建模。本研究中涉及的點云數(shù)據(jù)的建筑物重建技術,從高度直方圖面元的分析中導出建筑物方位,并利用該方位產(chǎn)生點云的正交二維投影,其中屋頂平面作為點云的線。通過線跟蹤算法提取表示這些平面的線段。最后矯正偏差,重建模型[1]。
1 基于二維GIS數(shù)據(jù)的分割
良好的機載激光掃描點云數(shù)據(jù)集分割是應用3D建筑模型生成方法的關鍵前提?;旧希す鈷呙椟c云數(shù)據(jù)的分割可以基于數(shù)據(jù)本身進行,或者結合其他信息源,例如現(xiàn)有的2D GIS數(shù)據(jù)或高分辨率航空影像。
在理想條件下,可以在激光點云數(shù)據(jù)中檢測建筑物,執(zhí)行簡單的高度閾值處理,結合對數(shù)據(jù)集的每個點的第一個和最后一個的間隔差進行分析。假設建筑物和樹木有著顯著大于地形的高度,第一個和最后一個點的間隔差在高植被覆蓋區(qū)域?qū)⒋嬖诿黠@差異[1]。如果應用于原始數(shù)據(jù),則可通過TIN結構中的連續(xù)性分析來檢測和分割建筑物。如果應用于被壓縮到規(guī)則格網(wǎng)下的激光掃描儀的高度數(shù)據(jù),則該過程可以生成掩模用于數(shù)據(jù)中表示各個建筑物的切割點云。在具有非平坦地形的區(qū)域總,閾值處理的首位間隔差分法可以應用于歸化數(shù)字表面模型,該模型基于濾波數(shù)字表面模型[2]。
如果只基于激光掃描儀數(shù)據(jù)獲得的分割質(zhì)量會受到數(shù)據(jù)集的復雜性限制。在具有相當復雜地形的地區(qū),靠近建筑物的密集植被覆蓋區(qū)域或內(nèi)城區(qū),這類方法的成功率較低,從而限制了3D建筑模型自動生成方案的適用性。用于分割處理的信息主要來自于2D GIS數(shù)據(jù)。在大多數(shù)地區(qū),這類數(shù)據(jù)可以通過地籍數(shù)據(jù)或從數(shù)字化地圖獲得。該類型數(shù)據(jù)交互操作時已將注視加入原始數(shù)據(jù)源中,可靠性較高。另一方面,這種技術受限于地區(qū)二維GIS數(shù)據(jù)的完整性、精確性和可靠性以及更新頻率。此外,大部分基于此類數(shù)據(jù)的分割過程將不能用恢復,并且多數(shù)不考慮房屋的突出部分。
在瑞士,分米級精度的數(shù)字二維地類數(shù)據(jù)可以在大多數(shù)地區(qū)使用。該數(shù)據(jù)用于研究區(qū)域內(nèi)機載激光掃描數(shù)據(jù)的分割。通過單獨處理每棟建筑物地平面多邊形并在多邊形中測試其包含的數(shù)據(jù)點來實現(xiàn)分割。由于研究區(qū)域的特點是建筑物具有大的屋頂懸垂,在每個多邊形周圍定義一個5米的緩沖區(qū),以便懸掛區(qū)域的屋頂點不被處理成噪音點(圖1)。同時,緩沖^域允許建模程序從包含地面在內(nèi)的泛化效應恢復。該過程可通過ArcMap插件實現(xiàn)。在實際建筑物建模時消除包括緩沖區(qū)在內(nèi)的附加地面或植被點。接地點可以在建模時用于定義地形級別。連接的區(qū)段需要切斷緩沖區(qū),只有鄰近建筑物附近地面點可以在兩個區(qū)段之間共享。
2 基于二維GIS數(shù)據(jù)的方位分析
除了區(qū)域數(shù)據(jù)對點云數(shù)據(jù)進行分割之外,還可以從實驗區(qū)域數(shù)據(jù)中到處支持建筑物建模過程的附加信息[3]。以及使用一種分割復雜實驗區(qū)域并使用這些部分來限制搜索區(qū)域并進行三維霍夫變換以提取屋頂平面的技術[4]。
屋頂平面通過分割點云的特定正交二維投影和隨后的線檢測過程來檢測。這種方法需要建筑物方向的信息,其可以通過對高度直方圖元中的線搜索的結果分析,從激光掃描儀數(shù)據(jù)本身導出[5]。(圖2)。
在具有許多上部結構的屋頂情況下,該過程可能產(chǎn)生不理想的結果。在這些情況下,從建筑物實驗區(qū)域?qū)С龅慕ㄖ锶∠蚩梢灾С治蓓斀!榇?,?zhí)行長度加權的方位角聚類分析,產(chǎn)生由地平面圖(圖3)中的最長線定義的建筑物的主方向。
從地平面導出的該建筑物方位角可以僅用于進一步建模處理,或者可以用于驗證從高度直方圖面元分析導出的方位。由于上述過程在復雜地面計劃的情況下不會總是檢測到正確的主方向,因此后一種方法將產(chǎn)生更可靠的結果。在高度直方圖單元方向分析中的清晰最大值的情況下,最接近從高度單元導出的定向角的地平面取向被選擇為主要建筑物取向,而在高度直方圖單元方向分析的不理想結果的情況下,主要建筑方向是從實驗區(qū)域方向分析。
3 特定正交點云投影的建筑物建模
本文提出的三維建筑物模型自動建模的方法基本思想來源于注釋表示建筑物點云時,操作者的基本操作方式:用戶旋轉(zhuǎn)點云,正交投影平行于屋脊,來識別房屋結構。屋頂平面在該投影中投影成線,從而允許識別平面的寬度和傾斜。這種面向用戶的交互過程在相應的建筑建模方案中有細節(jié)描述[6]。
消除地面點噪音:
通過局部高度直方圖分析,利用在建筑物墻的高度范圍內(nèi)的直方圖最小值來消除來自分割過程的缺陷或從建筑物地平面周圍限定的緩沖器剩余的接地點,以導出高度閾值。
確定屋頂方向:
對于點云的特定正交2D投影所需的主要屋頂取向可以從高度直方圖面元分析或從如第3章中描述的地面平面的分析獲得。點云由建筑物旋轉(zhuǎn)方位并投影到XZ平面(圖4)。
通過與建筑物方位角相加90°來執(zhí)行進入YZ平面的第二正交投影。 當假定具有一個或兩個正交的屋脊方向的建筑物時,這兩個突起將以投影線顯示所有屋頂平面??蛇x擇性添加多個45°的投影以覆蓋更復雜的屋頂形狀。
2D投影中線的檢測:
在點云的2D投影中執(zhí)行線檢索,以便檢測表示屋頂面的線(圖5)。線檢索從接地點消除后的局部點云的最低點開始。如果在該點上方居中的框中,點的數(shù)量超過特定閾值,則使用魯棒性估計將線擬合到這些點中。 在下一步中,該線被外推以收集對該線有貢獻的附加點。如果最低點無法產(chǎn)生線,則返回并從下一點重新開始。
線的梯度和長度定義屋頂平面的傾斜度和寬度(圖6)。表示相鄰屋頂平面的線在點上相交。交叉點代表屋頂?shù)募?。在屋脊附近結束的提取線長度被縮短或延長到交點。
屋頂平面的生成:
屬于線的所有點旋轉(zhuǎn)屋頂傾角D,并投影到Y-Z平面中,在那里它們形成水平線。 該線的長度表示屋頂表面的長度。 圖7示出了從單個投影導出的屋頂面提取的3D多邊形。
非四邊形屋頂平面:
考慮到數(shù)據(jù)集的平均點密度(圖8),通過該過程產(chǎn)生的矩形屋頂面投影到X-Y平面內(nèi)點的條帶分析來檢查切除。
建筑模型生成:
在下一步驟中,各個平面可以結合屋頂結構。此時會有,共享脊線的相鄰屋頂平面相交(圖7)。此外,源自兩個正交投影的平面必須相交。這就是屋頂?shù)慕!?/p>
在下一步驟中,通過將屋頂邊緣投影到地形模型上來重建建筑物的墻壁。為了簡單起見,選擇建筑物附近的最低點來表示建筑物足點高度。為了視覺目的,可以在墻壁的重建中考慮屋頂突出。如果有土地規(guī)劃信息可用,屋頂懸垂的大小可以從屋頂輪廓和土地規(guī)劃之間的差異導出?;蛘?,可以從地平面本身重建墻壁。如果沒有可用的土地規(guī)劃信息,則可以假定為平均屋頂突出。
多邊形被分組到多面體建筑模型并被可視化(圖9)。
4 適用性檢測
第1-3部分所示的方法已在瑞士盧塞恩地形圖的激光掃描儀數(shù)據(jù)集上進行了實際測試。 數(shù)據(jù)集特征為每1.5平方米一點的平均點密度和高度20cm的標準偏差。該數(shù)據(jù)集中,選擇了六個探測器,總共250個建筑物代表不同類型的建筑類型和建筑布置。 2D數(shù)字地籍數(shù)據(jù)可用于整個測試區(qū)域并且用于如上所述的分割和建筑物取向確定。
5 結果分析
在分段激光咼璧閽頻奶囟ㄕ交投影中,2D線檢索的方法已被證明是用于從機載激光掃描器數(shù)據(jù)生成3D建筑模型的通用且強大的途徑?,F(xiàn)有的2D GIS數(shù)據(jù)可以用作將激光掃描器數(shù)據(jù)分割成要通過該方法建模的單個建筑物局部點云的可靠工具。 2D GIS數(shù)據(jù)也可以用于通過定向假設生成來支持3D建筑重建過程。
成功重建的建筑物成功率在具有復雜建筑物的地區(qū)中為40-50%,在新建住宅區(qū)中接近100%。未來將擴展2D GIS數(shù)據(jù)的使用,以確定屋頂懸垂,改進非四邊形屋頂平面的形狀確定和平面分組假設的生成。
參考文獻:
[1]鐘良.LiDAR同機影像輔助點云分類相關技術研究[J].武漢大學,2010,24(5).
[2]惠振陽.胡友健.基于LiDAR數(shù)字高程模型構建的數(shù)學形態(tài)學濾波方法綜述[J].激光與光電子學進展,2016(08).
[3]管海燕.LiDAR與影像結合的地物分類及房屋重建研究[D].武漢大學,2009.
[4]楊斌.機載LiDAR點元數(shù)據(jù)建筑物半自動提取方法研究[J].遼寧工程技術大學,2011.
[5]趙明波,何峻,田軍生,付強.基于改進的漸進多尺度數(shù)學形態(tài)學的激光雷達數(shù)據(jù)濾波方法[J].光學學報,2013(03).
[6]孫美玲,李永樹,陳強,蔡國林.基于迭代多尺度形態(tài)學開重建的城區(qū)LiDAR濾波方法[J].紅外與激光工程,2015(01).
[7]歐新良,匡小蘭,倪問尹.三維散亂點云分割技術綜述[J].湖南工業(yè)大學學報,2010,24(5).
[8]Shapiro L G,Sthockman G C,et puter Vision[M].Prentice Hall,2008.