1 橋梁監測數據預處理流程
橋梁監測(cè)原始數(shù)據采集並傳輸到數據中心後,這些數據伴有許多噪聲與異常問題,首先要這些數據進行可信(xìn)度評估、數據清洗工作,為了便於後麵的數據分析,一般還要做數據統計分析、特征創建和數據降維,這些都(dōu)是數據(jù)預處理(lǐ)要做(zuò)的工作(zuò)。
大致(zhì)可(kě)以分為:
①傳(chuán)感器數據的可信(xìn)度評估,也就是利(lì)用各種方法檢測出有問題的數據序(xù)列和采集這些據序列的傳感(gǎn)器,保證數據的正確性,確保可以用(yòng)來進行數據分析(xī)。
②數據(jù)的清洗,也即,對監測數據進(jìn)行異(yì)常數據剔除,然後進行插補
③監測數(shù)據的統計分析,也就是對具有連續性、時序性的橋(qiáo)梁監測數據統計或記錄(lù)一些對後麵數據分析有用的特征,如均值、方差、最大(dà)值和(hé)最小值等(děng)。有些監測係統還需要對監測數(shù)據進行數據概(gài)化(huà)和規範化。
④監測數據的特征創建,也就是用各種方法與模型對橋梁監測數據進行(háng)特征創建,代替原始的時序監測數據作為特征矢(shǐ)量,以便於後麵的(de)數據挖掘。
⑤數(shù)據降維,當數據(jù)維數或者(zhě)構建的特征數量過多時,如果把這些參數值都作為算法的輸入向量,會有可能會導致維災難,也會影響(xiǎng)算法的(de)效率和準確度。這時就要做數據(jù)降維,減少輸入向量的維數(shù),可采用主成分分析、奇異值分解、特征子集選擇等方(fāng)法。
預處理的主要工作集中在前三個部分,後麵兩個部分一般根據數據分析的需求來確定(dìng)是否需(xū)要。預(yù)處理(lǐ)的每個部分都是很重要的,但不是每個部分工作(zuò)是孤立的,就像傳感器數據的可(kě)信度評估,在可信度評估前(qián)要對數(shù)據做濾波去噪工作,做一些必要的數據(jù)處理工作,以便能準確的做傳感器數據的可信(xìn)度評估。還有(yǒu)在數據的特征創建的過程中,可能需要對監(jiān)測(cè)數據進行統計分析,以便(biàn)更科學的對監測數(shù)據做特征創建,本文(wén)主要研究前三個部分的工作:數據的可信度評估、數據清洗和監測數據的統計分析。
2橋梁監測數據預處理方法介紹
傳感器數據可信度評估的(de)評價方法如下。
1用傳感器返回的狀態標誌判斷數(shù)據的可信度,因為每個傳感器都有采集時的狀態標誌。
②對每個傳感器的數(shù)據建立曆史趨(qū)勢模型,橋梁監測(cè)數據都是時序數(shù)據,可用時序 序列分析技術建立曆(lì)史趨勢模型,建立模型的數據要用開始采集的(de)正常的據。建立(lì)模(mó)型後,可根據模型來預測數據,隻要是不在預測範圍的(de)都是(shì)不可(kě)信的數據。
③對同截麵、同類型的傳(chuán)感器(qì)建立模(mó)型。可以對同一個截麵的各類傳感器建立相關模型,判定一個傳感器數(shù)據時可以根據其他(tā)數據來確定是否可疑。也可以對同類型相的傳感器數據進行關聯度分析,確定關聯(lián)度閾值,然後根據關聯度分析計算得到的概率與閾值相比,若小(xiǎo)於閾值,則關聯性好,說明傳感器工作正常;否則關聯性不好,說明有傳感器工作不正(zhèng)常。
數據(jù)清洗要對監測數據進行濾波(bō)去噪、去除(chú)異常值(zhí)、數(shù)據插補。
1)濾波去噪的常見方法有平均值濾波、中值濾波、複合濾波等。近年(nián)來小波技術也被(bèi)常用於濾波去噪,並且展現了比較好的(de)性能
2)異常值一般分為單點異常值和連續異常值,針對單(dān)點異常值剔除(chú)方法有固定閾值法和(hé)基於樣本閾值方法。對於連續異常值得剔除方(fāng)法還沒有比較好的方法,也需要根據(jù)具體數據特性具(jù)體分析。
3)數據插補研(yán)究比較多所以方法也(yě)比較多,方法有均值插入(rù)法、時間序列移動平均模型插值法、拉格朗日插(chā)值法、神經網絡插補法等。
數(shù)據的統計分析就是(shì)利用數理統計的方法計算與記錄監測數據的特征。
1)橋梁監測係統所采集的監(jiān)測數據(jù)受到很多方麵因素的影響,橋梁監測數據也是(shì)一個連續、長時間的時序數據,統計橋梁(liáng)監測數據一段時間內的的均值、方差、絕對方差(chà)、最大值、最小值等(děng)特征(zhēng),可以反映橋梁(liáng)結構的變化(huà)。
2)數據概化(huà),對監測數據進行時間序列分析,獲得更有意義地結果,把數據采集時間通過數理統計概(gài)化到天、周、月、季度和年份,可以更好觀察監測數據的規律性。或者對一個時(shí)間段的不同監測參數做關(guān)聯性分析,將這(zhè)幾種監測數據的(de)數據融(róng)合存入一個數(shù)據表中
3)數據規範化,不同的橋梁監測參(cān)數取值範圍是不同,如溫度相對於撓(náo)度變化(huà)的數值區間較大,把不(bú)同監測參數的取值(zhí)區間規範到同一個區間
監測(cè)數據的特征創建的(de)方(fāng)法基本有 4 大類:基(jī)於統計方(fāng)法的特征創建,基於模型(xíng)的特征創建,基於變換的特征創建,基於分(fèn)形維數的特征創建。
1)基於統計方法的特征創建,對時域數據統計方(fāng)法有均值、極值(zhí)、方差等特征,對(duì)頻域信息采用功率密度比、功率(lǜ)譜(pǔ)、平均功率(lǜ)頻(pín)率等方法統計功率譜密度、熵值、平均功(gōng)率和中值頻率等特征(zhēng)。用統計方法提取了特征向量(liàng)後,可以采用構造分類器對(duì)提取出的特征(zhēng)向量分類;也可以(yǐ)采(cǎi)用(yòng)神經網絡對從監(jiān)測數據中提取的特征向量進行分(fèn)類此,這(zhè)樣可以(yǐ)達(dá)到比較好效果。它基於(yú)統(tǒng)計方法的特征創建比較適合統計特征比較明顯的時間序列數據。
2)基於模型的的特征創建的方(fāng)法是用合適的模型刻畫時(shí)序數據,然後計(jì)算提取模型的係書作為特征向(xiàng)量。對(duì)於平穩的(de)時間序列,常采(cǎi)用自回歸模型(AR 模型)、移動平均模型(MA 模(mó)型(xíng))、自回歸移動平均模型(ARMA 模型)等。對於非平穩時間序列,常采用(yòng) ARIMA 模(mó)型(差分自回歸移動平均(jun1)模型)。
3)基於變換的特征創建一(yī)般分為基於時頻變(biàn)換的(de)特征創(chuàng)建和(hé)基於線性變換的特征創建。基於時頻變換的特(tè)征創建(jiàn)是時域信息變換成頻域信息,在這變換的過程中提(tí)取出有用的特征向量。常采用的變換方法(fǎ)有傅裏葉變換、小波變換和倒譜係數等手段。橋梁監測數據一般來(lái)說都是時序數據,可能含(hán)有大量周(zhōu)期模式(shì),並且也很有可能存在(zài)大量(liàng)噪聲(shēng),在時域角度(dù)很(hěn)難檢測這些(xiē)模式,通過對時序數據實施傅裏葉變換,將它轉(zhuǎn)換成頻率數據信息明顯的表示,就能檢測到這些模(mó)式了。經過驗證(zhèng),對時(shí)間序列數據(jù)實施小波變換也非常有用。基於線性(xìng)變化常采用的變換手段有 PCA(主成分分(fèn)析)、小波變換、神經網絡等。
4)基於分形理論的特征創建,利用分(fèn)形理論的自相似現象的特點,用局部(bù)特征代替整體特征。分析理論(lùn)的真(zhēn)正發展不到 20 年,但應用於(yú)時間序列數(shù)據的特征提取已越(yuè)來越廣泛了。至於是否應用分析理論對(duì)時序數據進行特征創建,要看時間序列(liè)數(shù)據的(de)特征符合分析理論的自相似現象。
數據降(jiàng)維的目標就是(shì)降低輸入向量的維數,並且維數降低後沒有失去所需要的數據信息(xī)。常用的方法有主(zhǔ)成分分析(xī)、奇異值分解和特征子集選擇。主成(chéng)分分析是一種用於連續屬性的線性代數技(jì)術,它找出數據的新的屬性(主成(chéng)分),這些屬(shǔ)性是原屬性(xìng)的線性組合,是相互正交的(de),並且捕(bǔ)獲了數據的最大變差。奇異值分解,它與PCA有關,也適用於數據降維。