【簡介】
使用 XGBoost Regression Time Series 進行時序性資料的迴歸分析。
【介面的功能及說明】
• 資料集選單
下拉式選單顯示可以分析的資料集。
• 開啟資料集的資料夾位置
可以快速編輯與新增資料集。
• 說明文件和教學影片
開啟官方網頁,查看說明文件和教學影片。
• 程式流程
設定各個流程的參數,並且依照流程的順序執行。
【操作步驟及說明】
1. 選擇資料集
從下拉式選單中,選擇想要分析的資料集。
資料集介紹;
• sales-forecast-airline
航空公司乘客數量預測。
• stock
股價預測,輸入開盤、收盤、盤中最高、盤中最低、成交量,預測五天後的收盤價。
資料集準備:
• 訓練資料集
檔名:train_data.csv
檔案內容:
第一行為資料索引(Index),或是時序性資料的時間日期(date),這行在分析時會自動忽略。
前N行為輸入,最後一行為輸出(預測)。
以下圖為例,1代表資料索引或時間日期,2代表輸入,3代表輸出。
• 測試資料集
檔名:inference_data.csv
檔案內容:同訓練資料集。
2. 在流程區1. Prepare Train Data中,設定時間序列參數,並且按下Run,輸入的train_data.csv會依照設定的時間序列參數進行資料擴增,並且輸出train_data_time_series.csv。
參數設定:
• Time Sequence
時間序列的長度。
執行結果:
• 在console顯示訓練資料 (train_data.csv) 經過資料擴增後的大小
3. 在流程區2. Train中,編輯訓練參數,並且按下Run執行訓練
參數設定:
• Estimator
gradient boosted trees的數量 (預設為1000)。
執行結果:
• 在console顯示訓練的模型針對訓練數據集 (train_data_time_series.csv) 的Root Mean Squared Error和R-squared
• 訓練的模型針對訓練數據集 (train_data_time_series.csv) 的預測值和真實值的比較圖
• 訓練的模型針對訓練數據集 (train_data_time_series.csv) 的預測值和真實值的散佈圖
• 輸出預測值 (train_data_time_series_prediction.csv)
開啟train_data_time_series_prediction.csv檔案後,最後一行為訓練的模型針對訓練數據集 (train_data_time_series.csv) 的預測值
4. 在流程區3. Prepare Inference Data中,設定時間序列參數,並且按下Run,輸入的inference_data.csv會依照設定的時間序列參數進行資料擴增,並且輸出inference_data_time_series.csv。
參數設定:
• Time Sequence
時間序列的長度 (此參數的設定值必須和訓練時的時間序列長度相同)。
執行結果:
• 在console顯示測試資料 (inference_data.csv) 經過資料擴增後的大小
5. 在流程區4. Inference中,編輯訓練參數,並且按下Run執行推論
參數設定:
• Estimator
gradient boosted trees的數量 (預設為1000)。
執行結果:
• 在console顯示訓練的模型針對測試數據集 (inference_data_time_series.csv) 的Root Mean Squared Error和R-squared
• 訓練的模型針對測試數據集 (inference_data_time_series.csv) 的預測值和真實值的比較圖
• 訓練的模型針對測試數據集 (inference_data_time_series.csv) 的預測值和真實值的散佈圖
• 輸出預測值 (inference_data_time_series_prediction.csv)
開啟inference_data_time_series_prediction.csv檔案後,最後一行為訓練的模型針對測試數據集 (inference_data_time_series.csv) 的預測值。