泛用文字視覺化工具能夠簡單處理文字檔的視覺化。
支援的語言:繁體中文、英文以及所有使用空格分詞的語言。
使用繁體中文Jieba斷詞器,不保證簡體中文能夠正常使用。
此工具提供 minRatio 和 maxRatio 兩個參數的設定
兩個參數代表相鄰兩個單詞(有被連接的單詞)之間的最大或最小比值
例如:maxRatio 為 0.8 時,代表兩個相鄰的單詞出現的頻率必須小於 0.8,否則單詞就不會被演算法選中。
本工具會將輸入資料做預先處理。以中文語料為例,處理流程大致如下:
1. 斷句:使用中文的全形句號(。)及換行進行斷句
2. 斷詞並標記詞性:使用 Jieba 將每個句子分別斷詞,並標註其詞性
3. 過濾詞性:將英文及數字過濾,以免產生過多雜訊
使用者可以編輯停用詞,被設定為停用詞的單詞,將不會被選擇到 sententree 中。
在輸入停用詞時,可以一次輸入多個停用詞,並使用空格(半形)分開。
輸入一份文件,預設會產生2個 sententree 圖形,圖 1 為一個 sententree 的圖形
每個圖形中間最大的單詞為根單詞
其中第二個圖形中不會包含第一個圖形的根單詞
單詞之間的連線代表兩個單詞有在同一個句子中出現過
灰色連線代表演算法在搜尋時,兩個單詞屬於同一個階層(出現在相同的句子中)
橘色連線代表兩個單詞屬於不同階層
連線的粗細代表兩個單詞同時出現的比例
將滑鼠移到單詞上,能夠看到包含該單詞的完整句子(最多顯示 5 筆),如圖 2
圖 1:Sententree 圖形 圖 2:完整句子顯示