云計算大數據挖掘體系構建分析
時間:2022-04-09 02:56:56
導語:云計算大數據挖掘體系構建分析一文來源于網友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
摘要:隨著移動互聯網、移動智能終端技術的快速發(fā)展,各種業(yè)務數據有了井噴式的增加,尤其是物聯網的快速發(fā)展,產生了海量的實時監(jiān)測數據。隨著數據量的增大和數據類型的豐富,產生了大數據挖掘和云計算技術,本文從大數據挖掘步驟為切入點,分析了大數據挖掘存在的問題以及利用云計算技術解決問題的過程。
關鍵詞:云計算;大數據挖掘
1引言
隨著互聯網技術的飛速發(fā)展以及各行業(yè)信息化的深入,業(yè)務數據從數量上還有類型上都發(fā)生了井噴式增長,特別是近幾年物聯網技術的普及,大量時序數據的產生標識著人類已經邁進了大數據時代。大數據不僅是數據量大,數據類型也極大的豐富。有傳統的結構化數據,也有文本、圖片、視頻等非結構化數據。大數據帶來的潛在價值隨著大數據挖掘技術的發(fā)展?jié)u漸凸顯出來。同時,基于云計算自身具備的計算存儲資源松耦合集成和彈性資源分配等特點,能夠在很大程度上支撐構建大數據挖掘體系所需的算力和存儲資源需求,降低運行成本,安全可靠。
2大數據挖掘技術介紹
隨著信息系統數字化和智能化的不斷推進,數據規(guī)模也將呈指數級趨勢增長。大數據挖掘將成為推動整個產業(yè)數字化升級的重要抓手和舉措。大數據顧名思義是指數量極大的數據匯聚而成,大數據包括業(yè)務系統產生的業(yè)務數據,電商交易數據,物聯網技術產生的時序數據,工業(yè)制造數據等等。這些數據中包含了極大的潛在價值有待開發(fā),大數據挖掘技術指的是從海量數據中利用合適的模型挖掘出有用的信息反饋給原來的系統,帶來更多的業(yè)務價值。大數據挖掘分成六個步驟:(1)定義問題:在進行數據挖掘之前,首先需要定義本次挖掘需要解決的問題是什么,也就是說要給本次數據挖掘定義明確的目標。根據大數據定義的問題選擇適合的模型,模型是否合適關系著本次挖掘是否成功。(2)建立大數據挖掘庫:大數據挖掘的根本就是用存在的歷史數據訓練選擇的模型,調整模型中可以改變的參數達到本次挖掘最好的效果,所以建立大數據挖掘庫至關重要。建立大數據挖掘庫首先要收集數據并對數據進行描述,通過ETL技術對數據進行清洗、轉化和加載。保證數據庫中的數據是有效數據。(3)分析數據:對準備好的數據進行分析,由于大數據的數據量非常巨大,用人工分析幾乎不可能。一般借助R語言或者Scala語言對數據進行分析,發(fā)現數據中對挖掘預測有影響的字段,為接下來的工作做好準備。(4)準備數據:通過數據分析后,可以鎖定對挖掘預測結果有明顯影響的字段,選擇這些數據并進行記錄,如果有進一步的需要,可以對這些數據進行函數轉化后創(chuàng)造新的變量,并對這些新的變量進行記錄,為后續(xù)的數據挖掘工作夯實數據基礎。(5)建立并訓練模型:根據過程開始定義的問題建立挖掘模型,建立挖掘模型是一個迭代的過程,首先考察不同的模型以判斷是否對定義的問題有用。先用一部分準備的數據對模型進行訓練,調整模型中的變量,然后在選擇另一部分數據對模型進行測試,如有需要,可以再選取一個數據集,對建立的模型進行驗證。(6)評價模型并進行實施:訓練好的模型要在實際的應用中進行推廣,這對模型是一次考驗。訓練模型中會存在某些假設的條件,如果這些條件與實現的應用中條件一致,模型的評價度將會更高。評價模型首先要在小規(guī)模范圍內進行實施然后分析預測的結果是否與實際情況相符。如果模型的評價度較高,則可以在大范圍內進行推廣。模型的實施一般有兩種使用方法,一種是給數據分析人員或者是業(yè)務系統作為工具,根據實際的數據對業(yè)務趨勢進行預測;二是把評價過的模型應用到不同的數據集合上。隨著近幾年互聯網的高速發(fā)展,業(yè)務數據量的急速增長,業(yè)務場景也變得越來越復雜,大數據挖掘過程中數據的存儲,數據的計算對計算機的要求變得越來越高,大數據挖掘需要的基礎資源的成本也隨之迅速上升。
3云計算助力大數據挖掘
云計算能夠為大數據挖掘提供低成本的算力和存儲環(huán)境。云計算主要是通過虛擬化技術將CPU計算資源、硬件存儲和網絡資源虛擬成多個環(huán)境,根據計算和存儲資源的需求情況進行動態(tài)彈性管理,從而最大限度提升物理資源的復用價值,有效降低大數據挖掘的運行成本。云計算能夠為大數據挖掘構建一個高可用的算力及存儲運行環(huán)境。為此利用云計算技術能夠完成大數據挖掘所需要的規(guī)模級數據存儲和計算功能。同時,云計算提供了一個高度安全可靠的運行環(huán)境,通??梢詫崿F99.9%的高可用計算性能,能夠為大數據挖掘提供實時計算和安全保障,最大限度避免因電路故障或其它故障導致大數據挖掘服務停止運行等問題。云計算能夠為大數據挖掘構建一個高擴展的算力及存儲運行環(huán)境。基于云計算自身的高度開放集成和擴展性等特點,能夠隨著大數據挖掘規(guī)模的變化來動態(tài)增減算力和存儲資源,從而使得整個應用集成系統構建具有較高靈活性,從而有效降低算力資源和存儲資源的浪費,極大提升大數據挖掘系統的經濟和環(huán)境效益。
4結束語
云計算技術的落地為大數據的存儲和計算提供了彈性的資源管理環(huán)境,按需分配大數據挖掘需要的資源,降低了大數據挖掘的成本。隨著云計算和大數據技術的不斷進步,云計算和大數據技術的融合越來越緊密,云計算為大數據挖掘的快速發(fā)展提供良好的資源支持。
參考文獻
[1]鄧仲華,劉偉偉,陸穎雋.基于云計算的大數據挖掘內涵及解決方案研究[J].情報理論與實踐,2015,38(07):103-108.
[2]饒正嬋,蒲天銀.云計算條件下的大數據挖掘內涵及解決方案[J].電子技術與軟件工程,2018(13):154-155.
[3]孫培鋒.基于云計算的大數據挖掘體系架構研究[J].信息技術與信息化,2018(09):167-169.
作者:肖婧 單位:山西潞安集團余吾煤業(yè)有限責任公司