top of page

LSTM
資料預處理
模型訓練
在資料集CSAT1.txt中,訂出所需欄位,將Valence, Arousal(VA)值轉成標籤,其中20%為測試集資料、80%設為訓練集資料
-
將VA值轉為標籤
-
設定clean函數,將輸入文本中的特定詞性及瑣碎文字去除,只留下後續需要的部分
-
對文本進行斷詞處理,斷詞有助於理解文本的句法和語法結構,文字中情緒通常受到上下文和語法結構的影響,因此透過斷詞提高情緒分析的準確性。
-
train_test_split 函數將資料集分割成訓練集和測試集
-
Tokenizer 用於將文字轉換為數字陣列
-
fit_on_texts 將文字轉換為陣列
-
pad_sequences 函數用於將陣列變成相同的長度
2. 建立一個 Sequential 模型
-
Embedding 用於將文字陣列映射為詞嵌入
-
MBEDDING_DIM 指定文字嵌入的地方
-
LSTM 用於處理陣列訊息
-
使用 Compile編譯模型,指定損失函數、優化器和評估指標
輸出結果:


bottom of page