top of page

LSTM

​資料預處理

模型訓練

在資料集CSAT1.txt中,訂出所需欄位,將Valence, Arousal(VA)值轉成標籤​,其中20%為測試集資料、80%設為訓練集資料

  • 將VA值轉為標籤

  • 設定clean函數,將輸入文本中的特定詞性及瑣碎文字去除,只留下後續需要的部分

  • 對文本進行斷詞處理,斷詞有助於理解文本的句法和語法結構,文字中情緒通常受到上下文和語法結構的影響,因此透過斷詞提高情緒分析的準確性。

 
 
 
 
 
 
 
 
 
 
 
 
 
  1. train_test_split 函數將資料集分割成訓練集和測試集

  • Tokenizer 用於將文字轉換為數字陣列

  • fit_on_texts 將文字轉換為陣列

  • pad_sequences 函數用於將陣列變成相同的長度​

   2. 建立一個 Sequential 模型

  • ​​Embedding 用於將文字陣列映射為詞嵌入

  • MBEDDING_DIM 指定文字嵌入的地方

  • LSTM 用於處理陣列訊息

  • 使用 Compile編譯模型,指定損失函數、優化器和評估指標​​

​輸出結果:

 
 
 
 
 
 
 
 
 
 
 
 
 
螢幕擷取畫面 2023-11-23 232518.png
螢幕擷取畫面 2023-11-23 232636.png
bottom of page