[LEADERG AI ZOO]Jupyter-GPT2-Chinese

[簡介]

 

GPT-2 應用於輸入關鍵字來產生一篇中文的文章、文言文、對聯、詩詞、中文歌詞。

 

 

[操作步驟及說明]

 

主要流程為:

準備訓練資料 -> 訓練 -> 產生文章

 

資料準備:

解決方案的訓練資料準備分成兩種,

如果是短篇文章、文言文、對聯、詩詞、中文歌詞.......等,較短的文體,請將文章格式整理成以下例子,並將檔案命名為 train.json,存到 data 資料夾中。

文章格式範例:

範例1:["文章1", "文章2","文章3"]

範例2:["文言文1", "文言文2","文言文3","文言文4"]

 

如果是長篇文章,請將文章格式整理成以下例子,並將檔案命名為 train2.json,存到 data 資料夾中。

文章格式範例:

範例1:["一整篇長文章"]

範例2:["一整部神鵰俠侶"]

 

1. 1_delete_log.ipynb

刪除 log 檔資料夾。

 

2. 2_train_single.ipynb 或 2_train.ipynb

2_train.ipynb 主要用於訓練短篇文章、文言文、對聯、詩詞、中文歌詞 ...... 等,這裡使用的範例為許眾多維基百科內容進行訓練。

2_train_single.ipynb 主要用於訓練長篇文章,這裡使用金庸小說的其中一部進行訓練。

參數說明:

device: 使用 GPU 訓練,如果要使用兩顆 GPU,將 "0" 改成 "0,1"。

trainDataTxtPath: 訓練檔案路徑。

epochs: 訓練幾輪。

pretrained_model: 預訓練模型路型,若不使用則改成 pretrained_model = ''。

 

3. 3_kill_tensorboard.ipynb

在使用 tensorboard 之前,先關閉舊有的 tensorboard 。

 

4. 4_tensorboard.ipynb

開啟 tensorboard 查看訓練狀況。

看完訓練狀況後請再次執行 3_kill_tensorboard.ipynb,關閉 tensorboard。

 

5. 5_generate.ipynb

使用模型產生文章。

參數說明:

device: 使用多少 GPU ,如果要使用兩顆 GPU,將 "0" 改成 "0,1"。

grammarType: 使用哪種模型產生文章,繁體有繁體中文模型、金庸模型;簡體有通用中文小模型、文言文模型、對聯模型、通用中文模型、詩詞模型、中文歌詞模型。

length : 產生多少字的文章,例如多少字的繁體文章、多少字的中文歌詞......。

sampleNumber: 產生多少篇範例。

keyword: 輸入關鍵字作為開頭來產生文章。

 

GPT-2 Chinese.png

 


延伸閱讀

1.
LEADERG APP 基礎人工智能軟體 (No Code ,不用寫程式, APP 操作介面, Deep Learning, 深度學習, Machine Learning, 機器學習, Big Data, 大數據)

2.
LEADERG AI ZOO 先進人工智能軟體 (Low Code ,提供豐富範例程式, Jupyter Lab 操作介面, AI Model Zoo, Deep Learning, 深度學習, Machine Learning, 機器學習, Big Data, 大數據)

3.
LEADERG 人工智能電腦 (工作站、伺服器、筆電,GPU, computer, workstation, notebook, server, NVIDIA, RTX-3090-24G, RTX-A6000-48G, deep learning, 深度學習, machine learning, 機器學習, big data,

4.
LEADERG 人工智能教育訓練課程 (影像分析, 影像分類, 物件偵測, 影像切割, 資料分析, deep learning, 深度學習, machine learning, 機器學習, big data, 大數據)

購買方式

歡迎聯絡我們索取報價單,幫助您購買適合的產品。
客服信箱: leaderg@leaderg.com
客服電話: 02-2784-9788

感謝客戶們的支持

臺灣大學、清華大學、陽明交通大學、成功大學、臺北醫學大學、臺北護理健康大學、中興大學、暨南大學、宜蘭大學、聯合大學、國防大學、海軍軍官學校、逢甲大學、長庚大學、義守大學、實踐大學、台科大、北科大、臺中科大、雲林科大、勤益科大、虎尾科大、屏東科大、高雄科大、朝陽科大、明志科大、南臺科大、榮民總醫院、長庚醫院、慈濟醫院、義大醫院、中山科學研究院、國防部軍備局、法務部調查局、原子能委員會核能研究所、農業委員會特有生物研究保育中心、勞動部勞動研究所、金屬工業研究發展中心、台灣儀器科技研究中心、車輛測試中心、台灣自來水公司、台積電、聯電、南亞科、華邦電子、精材科技、華信光電、友達光電、群創光電、瀚宇彩晶、台塑、台塑網、南亞塑膠、台灣化學纖維、中國石油、羅技電子、義隆電子、隆達電子、達方電子、大聯大 - 世平興業、盟立自動化、迅得機械、南茂科技、順達科技、致伸科技、竹陞科技、研揚科技、敦陽科技、竑騰科技、先豐通訊、神達電腦、百佳泰、科音國際、鴻鵠國際等。