淡江大學高等教育深耕專區-活動花絮

日期：2022-11-11

點閱：195

參考檔案：

「教師跨領域研究社群」-文字探勘與資料庫建置

SDGs：優質教育　夥伴關係　

唐大崙以同一篇新聞做詞頻分析對比於關鍵詞分析所做的文字雲顯示，有很大差異。

唐大崙分享自己過去耗費數年，從網路上爬取新聞文章，所建立的300多萬則新聞資料庫中，辛苦建立出來的、近60萬個中文詞的統計特徵資料庫，包括TF、IDF、分布標準差等資料，依據此資料庫便能輕鬆判斷一則新聞的關鍵詞究竟是哪一些詞彙，也可以依據關鍵詞與詞彙所在相對位置的權重調整，計算兩篇文章相似度。這種相似度計算結果，與人的主觀判斷相當接近，表示這個演算法可以被接受用來追蹤語意相似的文章。不過在語意追蹤計算之前，需要預先建立正確斷詞的過度檔案，這是比較複雜的過程。但是，這樣的資料庫是否適用於法律契約的文章? 仍是個必須真實嘗試才能確定的實徵性問題。因此，唐大崙與蔡明修老師約定下次再進一步拿真實契約文章來嘗試，也討論到先合作開設一個免費為人計算中文文章相似性的服務網站，等技術更精進，再進一步客製化為建築契約文件做語意追蹤的服務，這將可開啟另一種跨領域的合作範例。