學習

OCR

光學字元辨識,Optical Character Recognition)，

Step1. 影像輸入：讀取平面文字。

Step2. 前期影像處理：將平面文件前後背景分開、留下黑色字體的前景，與白色的背景（二值化）、降噪處理後，再進行傾斜修正。

Step3. 分割字元：分析裝置將平面中的所有文字、數碼和標點符號分別切割。

Step4. 單字細線化：將字體線條變細，判讀字元結構，消除多餘的資料量，避免造成文字誤判。

Step5. 抓取單字的特徵點：分析裝置透過多種方法尋找字元中最具特徵的部分，判讀字元的意思，並進行編碼。

Step6.比對校正：將辨識編碼後的字元，與文字資料庫進行比對，找出最接近的文字。

Step7. 輸出辨識結果：完成整個分析辨識過程，再輸出OCR的文字檔案。

VA標記

說明：情感分析是分析數位文字的過程，以判斷訊息的情感是正面、負面還是中性以及情緒為機動還是平靜。情感分析工具可掃描大量文字資料，例如電子郵件、社交媒體意見和評論、法律判決書文本等等，自動判斷文字中想傳達的情感為何，可以以scatter plots(散點圖)表示，如下圖：

說明：給BERT兩個句子，讓BERT預測這兩個句子是否為連接在一起的句子。舉例來說，兩個句子，「醒醒吧」、「你沒有妹妹」，要讓BERT判斷第二個句子是否為第一句的下一句。
目的：

主要架構包含輸入層(Input Layer)、一個或多個卷積層(Convolution Layer)、池化層(Pooling Layer)以及頂部的全連接層(Fully Connected Layer)所組成。

輸入層（Input Layer）：輸入層是模型接受原始數據的地方，例如圖片的像素或文本的詞向量。我們的程式就是輸入文本的詞向量
卷積層（Convolution Layer）：卷積層是 CNN 的核心組件之一。它使用過濾器（filter）在輸入數據上滑動，計算卷積操作以提取特徵。這有助於捕捉圖像或文本中的局部特徵。卷積層的輸出被稱為特徵圖，其中每個元素代表一個學習到的特徵。
池化層（Pooling Layer）：池化層通常跟在卷積層之後，用於減少特徵圖的空間尺寸，同時保留重要的信息。最常見的是Max Pooling，它在每個區域中選擇最大值。這有助於提取最重要的特徵並降低計算複雜度；但有時過度的使用可能會使一些訊息被丟掉。
全連接層（Fully Connected Layer）：此層的主要目的是將矩陣形式的資料拉直排成一行向量。全連接層會將經過池化層運算後的輸出結果平坦化 (flattening)，接著轉換為一個一行多列的型態，方便作為適合輸入輸出層的輸入資料。

LSTM模型的特性是能夠捕捉和維持長期記憶，透過使用特殊的儲存單元和Gate機制，可以更有效地處理長序列資料。

分為三個Gate，分別是Forget Gate、Input Gate和Output Gate。這些Gate控制資訊的流動，使模型能夠選擇性地記住或遺忘之前的資訊。