|
|
|
@ -0,0 +1,46 @@
|
|
|
|
|
<!DOCTYPE html>
|
|
|
|
|
<html lang="en">
|
|
|
|
|
|
|
|
|
|
<head>
|
|
|
|
|
<meta charset="UTF-8">
|
|
|
|
|
<meta name="viewport" content="width=device-width, initial-scale=1.0">
|
|
|
|
|
<link href="/static/css/w3.css" type="text/css" rel="stylesheet">
|
|
|
|
|
<link href="/static/css/main.css" type="text/css" rel="stylesheet">
|
|
|
|
|
<title>使用說明</title>
|
|
|
|
|
</head>
|
|
|
|
|
|
|
|
|
|
<body>
|
|
|
|
|
<h1>使用說明</h1>
|
|
|
|
|
<h2>基本說明</h2>
|
|
|
|
|
<p>泛用文字視覺化工具能夠簡單處理文字檔的視覺化。<br>
|
|
|
|
|
支援的語言:繁體中文、英文以及所有使用空格分詞的語言。<br>
|
|
|
|
|
使用繁體中文Jieba斷詞器,不保證簡體中文能夠正常使用。</p>
|
|
|
|
|
<h2>參數</h2>
|
|
|
|
|
<p>此工具提供 <span style="color: red;">minRatio</span> 和 <span style="color: red;">maxRatio</span> 兩個參數的設定<br>
|
|
|
|
|
兩個參數代表相鄰兩個單詞(有被連接的單詞)之間的最大或最小比值<br>
|
|
|
|
|
例如:maxRatio 為 0.8 時,代表兩個相鄰的單詞出現的頻率必須小於 0.8,否則單詞就不會被演算法選中。
|
|
|
|
|
</p>
|
|
|
|
|
<h2>輸入資料前處理</h2>
|
|
|
|
|
<p>本工具會將輸入資料做預先處理。以中文語料為例,處理流程大致如下:</p>
|
|
|
|
|
<p>1. 斷句:使用中文的全形句號(。)及換行進行斷句</p>
|
|
|
|
|
<p>2. 斷詞並標記詞性:使用 Jieba 將每個句子分別斷詞,並標註其詞性</p>
|
|
|
|
|
<p>3. 過濾詞性:將英文及數字過濾,以免產生過多雜訊</p>
|
|
|
|
|
<h2>停用詞</h2>
|
|
|
|
|
<p>使用者可以編輯停用詞,被設定為停用詞的單詞,將不會被選擇到 sententree 中。</p>
|
|
|
|
|
<p>在輸入停用詞時,可以一次輸入多個停用詞,並使用空格(半形)分開。</p>
|
|
|
|
|
<h2>Sententree 圖形</h2>
|
|
|
|
|
<p>輸入一份文件,預設會產生2個 sententree 圖形,圖 1 為一個 sententree 的圖形</p>
|
|
|
|
|
<p>每個圖形中間最大的單詞為<span style="color:blue;">根單詞</span></p>
|
|
|
|
|
<p>其中第二個圖形中不會包含第一個圖形的根單詞</p>
|
|
|
|
|
<p>單詞之間的連線代表兩個單詞有在同一個句子中出現過</p>
|
|
|
|
|
<p>灰色連線代表演算法在搜尋時,兩個單詞屬於同一個階層(出現在相同的句子中)</p>
|
|
|
|
|
<p>橘色連線代表兩個單詞屬於不同階層</p>
|
|
|
|
|
<p>連線的粗細代表兩個單詞同時出現的比例</p>
|
|
|
|
|
<p>將滑鼠移到單詞上,能夠看到包含該單詞的完整句子(最多顯示 5 筆),如圖 2</p>
|
|
|
|
|
<img style="width: 100%;" src="/img/general_txt_help_g01.png">
|
|
|
|
|
<span>圖 1:Sententree 圖形</span>
|
|
|
|
|
<img style="width: 100%;" src="/img/general_txt_help_g02.png">
|
|
|
|
|
<span>圖 2:完整句子顯示</span>
|
|
|
|
|
</body>
|
|
|
|
|
|
|
|
|
|
</html>
|