[簡介]
可訓練自訂的語音資料集,推論並輸出類別,不需上網,即可達成邊緣端語音轉文字的功能。
[操作步驟及說明]
1. 準備 dataset
APP 所使用的 dataset 為 bed, cat, happy 三種單字的音檔,放在 english_word 資料夾中,在 Select Dataset 選擇 english _word。
若想要使用自己的 dataset,請把 english _word 資料夾複製一份,放在和 english _word 同一層位置(按資料夾一打開的位置),刪除 train 資料夾內所有檔案及資料夾,以各單字命名資料夾名稱,放入該名稱單字 Wav 音檔,各音檔長度需約 1 秒。
2. 訓練
按下 Train 開始訓練。
如果有需要設定不同的 Batch Size 或訓練次數,請自行填寫。
訓練的模型放在 model 資料夾內。
Load Weight 的勾選為是否載入權重。
如果為第一次訓練模型,或是有增加訓練的單字,例如從訓練 3 個單字變成 4 個單字,請不勾選。
如果已訓練出模型,但還想繼續訓練(限定 train 資料夾未新增類別),可選擇載入權重,縮短訓練時間。
若使用 Load Weight 時,選擇任一檔案後,Weight Path 只有出現 cp-XXX.ckpt 是正常現象,若使用者要自行輸入檔名,請務必參照此格式輸入,勿輸入 cp-XXX.ckpt.index 或是 cp-XXX.ckpt.data-00000-of-00001。
3. 推論
推論有分三種,推論單個音檔、推論資料夾、推論麥克風。
若需要選擇推論用的模型,請在 Inference Model Path 區域,選擇或輸入檔名。選擇任一檔案後,Weight Path 只有出現 cp-XXX.ckpt 是正常現象,若使用者要自行輸入檔名,請務必參照此格式輸入,勿輸入 cp-XXX.ckpt.index 或是 cp-XXX.ckpt.data-00000-of-00001。
(1) 推論單個音檔
按下圖案選擇想推論的 wav音檔。
(2) 推論資料夾
按下圖案,選擇要推論的 wav 音檔資料夾位置。
(3) 推論麥克風
按下圖案,開啟麥克風錄製 10 秒鐘,推論 10 秒內每秒的音檔內容。
錄製時間長短請在 Record Length 設定,以秒為單位。