數(shù)據(jù)挖掘在質(zhì)量管理系統(tǒng)中的應(yīng)用實(shí)例 |
發(fā)布時(shí)間: 2012/9/6 17:34:24 |
信息化管理不僅是企業(yè),也是任意一個(gè)政府部門適應(yīng)未來(lái)發(fā)展的必由之路,質(zhì)量監(jiān)管部門在企業(yè)數(shù)目不斷增加,產(chǎn)品數(shù)據(jù)飛速增長(zhǎng)的現(xiàn)實(shí)面前,傳統(tǒng)的數(shù)據(jù)管理手段顯得捉襟見肘。因此,將信息技術(shù)與企業(yè)質(zhì)量管理(尤其是全面質(zhì)量管理階段)有機(jī)的結(jié)合起來(lái),對(duì)于適應(yīng)我國(guó)經(jīng)濟(jì)社會(huì)發(fā)展具有十分重要的意義。數(shù)據(jù)挖掘技術(shù)為作為一種先進(jìn)的、極具價(jià)值的數(shù)據(jù)分析工具,為質(zhì)監(jiān)部門實(shí)現(xiàn)全面質(zhì)量監(jiān)控管理提供了全新的科學(xué)手段。
1 數(shù)據(jù)挖掘簡(jiǎn)介 1.1 數(shù)據(jù)挖掘的基本步驟 數(shù)據(jù)挖掘指的是從大型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中提取人們感興趣的知識(shí),這些知識(shí)是隱含的、事先未知的潛在有用信息。數(shù)據(jù)挖掘一般包括6個(gè)步驟,依次是定義問(wèn)題、準(zhǔn)備數(shù)據(jù)、瀏覽數(shù)據(jù)、生成模型、瀏覽和驗(yàn)證模型、部署更新模型,如圖1所示。 圖1 數(shù)據(jù)挖掘步驟 。1)定義問(wèn)題 清晰地定義出業(yè)務(wù)問(wèn)題,確定數(shù)據(jù)挖掘的目的。 。2)準(zhǔn)備數(shù)據(jù) 數(shù)據(jù)準(zhǔn)備包括:選擇數(shù)據(jù)——在大型數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)目標(biāo)中提取數(shù)據(jù)挖掘的目標(biāo)數(shù)據(jù)集;數(shù)據(jù)預(yù)處理——進(jìn)行數(shù)據(jù)再加工,包括檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性、去噪聲,填補(bǔ)丟失的域,刪除無(wú)效數(shù)據(jù)等。 。3)瀏覽數(shù)據(jù) 數(shù)據(jù)挖掘過(guò)程的第3步就是瀏覽已準(zhǔn)備的數(shù)據(jù),以便在創(chuàng)建模型時(shí)作出正確的決策。瀏覽技術(shù)包括計(jì)算最大值和最小值,計(jì)算平均偏差和標(biāo)準(zhǔn)偏差,以及查看數(shù)據(jù)的分布。瀏覽完數(shù)據(jù)之后,便可確定數(shù)據(jù)集是否包含缺陷數(shù)據(jù),然后制訂糾正這些問(wèn)題的策略。 。4)生成模型 根據(jù)數(shù)據(jù)功能的類型和和數(shù)據(jù)的特點(diǎn)選擇相應(yīng)的算法,在凈化和轉(zhuǎn)換過(guò)的數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘,生成模型。 。5)瀏覽和驗(yàn)證模型 對(duì)數(shù)據(jù)挖掘的獲得的模型進(jìn)行解釋和評(píng)價(jià),轉(zhuǎn)換成為能夠最終被用戶理解的知識(shí)。 (6)部署和更新模型 將性能最佳的模型部署到生產(chǎn)環(huán)境,更新模型是部署策略的一部分。 1.2 SQL Server數(shù)據(jù)挖掘和DMX Microsoft SQL Server Analysis Services(SSAS)提供了用于數(shù)據(jù)挖掘的工具,可以借助這些工具標(biāo)識(shí)數(shù)據(jù)中的規(guī)則和模式,從而確定出現(xiàn)問(wèn)題的原因并預(yù)測(cè)將來(lái)將要出現(xiàn)的問(wèn)題。Analysis Services可以使用來(lái)自關(guān)系數(shù)據(jù)庫(kù)和OLAP數(shù)據(jù)庫(kù)的數(shù)據(jù)集以及可用來(lái)調(diào)查數(shù)據(jù)的各種算法。SQL Server提供了各種可用于數(shù)據(jù)挖掘的環(huán)境和工具。 。1)數(shù)據(jù)挖掘向?qū)?/p> 在Business Intelligence Development Studio中,可以從數(shù)據(jù)挖掘向?qū)ч_始創(chuàng)建數(shù)據(jù)挖掘解決方案。該向?qū)в糜谥笇?dǎo)完成創(chuàng)建數(shù)據(jù)挖掘結(jié)構(gòu)和初始相關(guān)挖掘模型的過(guò)程,包括選擇算法類型和數(shù)據(jù)源以及定義事例表等任務(wù)。 在使用數(shù)據(jù)挖掘向?qū)俳送诰蚪Y(jié)構(gòu)和初始挖掘模型后,打開數(shù)據(jù)挖掘設(shè)計(jì)器。在該設(shè)計(jì)器中,可以管理挖掘結(jié)構(gòu),創(chuàng)建新的挖掘模型,部署、瀏覽、比較和創(chuàng)建基于現(xiàn)有挖掘模塊的預(yù)測(cè)。 (2)數(shù)據(jù)挖掘擴(kuò)展插件(DMX) 在SSAS中可以使用數(shù)據(jù)挖掘擴(kuò)展插件(DMX)語(yǔ)言創(chuàng)建和處理數(shù)據(jù)挖掘模型。通過(guò)使用DMX創(chuàng)建新數(shù)據(jù)挖掘模型的結(jié)構(gòu),使用DMX語(yǔ)句創(chuàng)建、處理、刪除、復(fù)制、瀏覽和預(yù)測(cè)數(shù)據(jù)挖掘模型,為這些模型定型并對(duì)其進(jìn)行瀏覽、管理和預(yù)測(cè)。DMX由數(shù)據(jù)定義語(yǔ)言(DDL)語(yǔ)句、數(shù)據(jù)操作語(yǔ)言(DML)語(yǔ)句以及函數(shù)和運(yùn)算符構(gòu)成。 。3)SQ L Server Management Studio 在創(chuàng)建了挖掘模型并將其部署到服務(wù)器上后,即可使用SQL Server Management Studio來(lái)執(zhí)行管理和瀏覽任務(wù),如查看和處理模型,以及創(chuàng)建針對(duì)這些模型的預(yù)測(cè)等。Management Studio也包含一個(gè)查詢編輯器,可使用該編輯器來(lái)設(shè)計(jì)和執(zhí)行數(shù)據(jù)挖掘擴(kuò)展插件(DMX)查詢。 。4)Integration Services數(shù)據(jù)挖掘任務(wù)和轉(zhuǎn)換 SQL Server Integration Services(SSIS)提供了一些工具來(lái)自動(dòng)完成常見的數(shù)據(jù)挖掘任務(wù),如處理挖掘模型和創(chuàng)建預(yù)測(cè)查詢等。例如,如果有一個(gè)根據(jù)潛在客戶的數(shù)據(jù)集生成的挖掘模型,那么,就可以創(chuàng)建一個(gè)Integration Services包,該包可在每次用新客戶更新數(shù)據(jù)集時(shí),自動(dòng)更新該模型。并且可以基于該包來(lái)創(chuàng)建預(yù)測(cè),將潛在客戶分入兩個(gè)表。一個(gè)表里中包含的是可能的客戶,另一個(gè)表中包含的是不可能購(gòu)買任何產(chǎn)品的客戶。 (5)SSAS的算法 Microsoft決策樹算法是由SSAS提供的分類和回歸算法,用于對(duì)離散和連續(xù)屬性進(jìn)行預(yù)測(cè)性建模。Microsoft Naive Bayes算法是SSAS提供的一種分類算法,用于預(yù)測(cè)性建模。該算法在假定列互不相關(guān)的前提下計(jì)算輸入列和可預(yù)測(cè)列之間的條件概率。Microsoft時(shí)序算法是SSAS提供的回歸算法,用于創(chuàng)建數(shù)據(jù)挖掘模型以預(yù)測(cè)連續(xù)列,如預(yù)測(cè)方案中的產(chǎn)品銷售額。時(shí)序模型的預(yù)測(cè)僅根據(jù)算法在創(chuàng)建模型時(shí)從原始數(shù)據(jù)集派生的趨勢(shì),而決策樹類算法依靠給定輸入列來(lái)預(yù)測(cè)可預(yù)測(cè)列的模型。Microsoft神經(jīng)網(wǎng)絡(luò)算法通過(guò)構(gòu)造多層感知器網(wǎng)絡(luò)創(chuàng)建分類和回歸挖掘模型,與Microsoft決策樹算法相類似,當(dāng)給定可預(yù)測(cè)屬性的每個(gè)狀態(tài)時(shí),神經(jīng)網(wǎng)絡(luò)算法可以計(jì)算輸入屬性的每個(gè)可能狀態(tài)的概率。并且可以基于這些概率預(yù)測(cè)被預(yù)測(cè)屬性的結(jié)果。 本文出自:億恩科技【www.cmtents.com】 服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |