top of page

工作內容

一、工作環境

Google meet開會一次,開會時會說明我們須完成的進度以及詳細地講解觀念,每周須完成的進度是固定的,可以根據自己的時間彈性安排並完成進度。

二、工作詳述

  • 摘要​:主要進行三個階段的工作,分別為光學字元辨識(OCR)、valence arousal(VA)量表的資料蒐集以及模型訓練。

​5~7月:VA量表蒐集與標記
螢幕擷取畫面 2023-11-24 024528.png
​3~4月:OCR標記

​階段一:OCR標記

由於OCR結果不會是100%正確,所以需人工協助更正。

  1. 本階段利用學長提供的資料,其中包含經過處理並轉換成的文字檔(OCR結果、正確結果);​而Image為辨識出/正確的畫面,為參考用,當有疑慮時可輔助判斷,最後將錯誤與正確部分的詞語或句子,利用Excel一一列出來,兩句為同一長度,如,圖1.。

 
 
圖1.將內容放入Excel
 
​​階段二:VA量表蒐集與標記
針對Valence和Arousal進行評分,透過手工標記,建立中文Valence-Arousal情感語料庫。此階段為標記情感分數,每題內容可能會是一句話,也可能會是一大段話,長短不一,其中有兩種分數,
  1. Valence(x軸):代表情感的正負維度,分數從1至9離散分佈,每0.5間格為一單位。1代表最負向的情緒,9代表最正向的情緒,中間值5代表中性沒有正負傾向的情緒。

  2. Arousal(y軸):代表情感的平靜與激動程度,分數也是1至9 離散分佈,每0.5間格為一單位。1代表最平靜,9代表最激動。

階段三:模型訓練

利用程式撰寫出可以讓機器依據階段二標記的VA分數集合進行訓練,自動找出有用的函數,加快標記速度以及減少人工處理時間。

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
螢幕擷取畫面 2023-11-23 161608.png

BERT

BERT模型的結構主要為Transformer這個經典NLP模型中的編碼器(Encoder),透過雙向(Bidirectional)設計讓模型能夠考慮文本字詞的前後關係,以增強模型對文本的理解,最後將理解的結果透過文字表徵(Representation)的方式輸出。整體而言,BERT的機制可分為三大部分:模型輸入、Encoder、最終輸出。

 
 
 
 
 

CNN

卷積神經網路(Convolutional Neural Network,簡稱CNN)是深度學習的一個神經網路架構,主要架構包含輸入層(Input Layer)、一個或多個卷積層(Convolution Layer)、池化層(Pooling Layer)以及頂部的全連接層(Fully Connected Layer)所組成。

 
 
 
 
 

LSTM

LSTM在每個時間步驟上的計算是相互獨立的,可以透過平行計算來加速訓練,提高模型的效率。

LSTM可以適應不同時間刻度的模式學習,從短期變化到長期趨勢都可以,在處理各種序列資料時更具優勢。

 
 
 
 
 
bottom of page