使用說明

基本說明

泛用文字視覺化工具能夠簡單處理文字檔的視覺化。
支援的語言:繁體中文、英文以及所有使用空格分詞的語言。
使用繁體中文Jieba斷詞器,不保證簡體中文能夠正常使用。

參數

此工具提供 minRatiomaxRatio 兩個參數的設定
兩個參數代表相鄰兩個單詞(有被連接的單詞)之間的最大或最小比值
例如:maxRatio 為 0.8 時,代表兩個相鄰的單詞出現的頻率必須小於 0.8,否則單詞就不會被演算法選中。

輸入資料前處理

本工具會將輸入資料做預先處理。以中文語料為例,處理流程大致如下:

1. 斷句:使用中文的全形句號(。)及換行進行斷句

2. 斷詞並標記詞性:使用 Jieba 將每個句子分別斷詞,並標註其詞性

3. 過濾詞性:將英文及數字過濾,以免產生過多雜訊

停用詞

使用者可以編輯停用詞,被設定為停用詞的單詞,將不會被選擇到 sententree 中。

在輸入停用詞時,可以一次輸入多個停用詞,並使用空格(半形)分開。

Sententree 圖形

輸入一份文件,預設會產生2個 sententree 圖形,圖 1 為一個 sententree 的圖形

每個圖形中間最大的單詞為根單詞

其中第二個圖形中不會包含第一個圖形的根單詞

單詞之間的連線代表兩個單詞有在同一個句子中出現過

灰色連線代表演算法在搜尋時,兩個單詞屬於同一個階層(出現在相同的句子中)

橘色連線代表兩個單詞屬於不同階層

連線的粗細代表兩個單詞同時出現的比例

將滑鼠移到單詞上,能夠看到包含該單詞的完整句子(最多顯示 5 筆),如圖 2

圖 1:Sententree 圖形 圖 2:完整句子顯示