2017-02-15

開始以機器學習預測地震(1):預處理(Preprocess)數據

2017-02-15 南非德本站 Durban, South Africa Station 空氣2號 Air 2 (Arduino Uno + LF298N) - Analysis

2017-02-15 南非德本站 Durban, South Africa Station 空氣2號 Air 2 (Arduino Uno + LF298N)

這篇將會開始以機器學習預測地震。

以下先列出一些預測地震的參考資料:
關於我預測地震的方法,請參考:我的地震預測之道 My Way of Earthquake Prediction
關於我判讀地震訊號的方法,請參考:How to Read Quake Signals 如何判讀地震訊號
關於我預測地震的常見問題,請參考:常見問題
關於我開始預測地震的歷史,請參考:歷史回顧
也歡迎加入我成立的臉書社團:台灣地震預測研究所
我的臉書粉絲專頁:台灣地震預測研究所
我的臉書帳號:林湧森 (Dyson Lin)

好,以下進入正題。

地震訊號(Quake signals)有2種:垂直線形訊號(Vertical line signals)和山丘形訊號(Hill  signals)。
垂直線形訊號又可分為2種:單一垂直線形訊號(Single line)與多條垂直線形訊號(Multiple lines)。

我們將以2017-02-15 南非德本站空氣2號的山丘形訊號產生數據集,訓練模形。請參考我以人工預測的這篇地震預報:2017-02-15 15:20 UTC+8 南非德本站地震預報:紅:3日以內,印尼,M5+。南アフリカ ダーバン局地震予報:赤:3日以内に、インドネシア、M5+。Durban, South Africa Station Quake Forecast: Red: within 3 days, Indonesia, M5+.

圖中有6組訊號對應已經發生的地震,有1組訊號對應還沒發生的地震。

已經發生:
(1)紅:2017-02-08 00:03:56 UTC+2 巴基斯坦 M6.3。
(2)橙:2017-02-10 16:03:43 UTC+2 菲律賓 M6.5。
(3)黃:2017-02-10 18:43:38 UTC+2 馬拉威 M5.2。
(4)綠:2017-02-13 05:08:34 UTC+2 印尼 M5.2。
(5)藍:2017-02-13 09:17:12 UTC+2 阿拉斯加 M5.3。
(6)紫:2017-02-14 18:26:19 UTC+2 日本 M5.0。

我們將以這6組訊號做為訓練機器學習模形的數據。
等訓練好模形之後,再以模型預測剩下的那1組訊號對應的地震。

首先,預處理(Preprocess)數據。

(1)的訊號是不完整的,應該捨棄。
所以,剩下(2) ~ (6)這5組訊號。

接下來,把這5組訊號整理成下列表格:

ID Duration Height  Time    Location     Magnitude
 2       4         6          2     Philippines       6.5
 3       1         3.5       1        Malawi          5.2
 4       2         3          2      Indonesia        5.2
 5       1         2          1        Alaska           5.3
 6       1         3          1         Japan           5.0

至此完成預處理數據。
在機器學習的過程中,預處理數據往往是最花時間的。
從下一篇開始,我們將以這些預處理過的數據訓練模形。

台灣地震預測研究所 所長
林湧森
2017-02-15 16:54 UTC+8

沒有留言:

張貼留言