マスコミ対応

SISU News Center, Office of Communications and Public Affairs

Tel : +86 (21) 3537 2378

Email : news@shisu.edu.cn

Address :550 Dalian Road (W), Shanghai 200083, China

『日本学研究におけるデータマイニング技術の応用と展開』講座内容の振り返り


30 May 2022 | By LIN | SISU

526日に毛文偉先生による『日本学研究におけるデータマイニング技術の応用と展開』を題とする講座がオンラインで開催された。講座内容は三つの部分よりなっている。具体的な内容は次のようである。

一、          データ発掘技術

データ発掘技術はビッグデータ時代に必要不可欠な能力である。15年や20年以前はデータ自体が稀な資源だったので、ビッグデータであれ、小データであれ、データがあれば比較的良い研究成果を出すことができた。しかし、データが膨大している今日、インターネットが非常に豊富な資源の宝庫となり、ネット検索によって大量のデータを得られるようになっている。データから法則性を見いだすことは非常に重要で、研究者や各社に求められる能力である。基本的なデータ分析能力を身につけるのは我々にとって大いに役立つと思われる。

二、          統計学に基づくデータマイニング方法及び実現手段

WordsmithAntConcSPSSKH CoderMTMineRなど既存のソフトや、PythonRなどのプログラミング言語を活用することで、実際のニーズに応じてデータ分析ツールが作れる。既存のソフトは簡単で使いやすいが、ソフト自体の機能に制限されたため、利用者の多元的なニーズに対応できない。プログラミング言語は比較的柔軟で効率的な一方、一定の技術能力を必要とする。

データ発掘の比較的簡単な方法として、語彙リストの比較が挙げられる。出現頻度の高い言葉を調べることで、テキストの規則性が発見できる。応用分野としては、高頻度語に基づいた企業イメージ研究、教科書研究、国の政策方針、中国文化の海外進出に関する中国のイメージ研究がある。

三、          高頻度語

高頻度語について、毛文偉先生はキーワードの共起ネットワークに基づいて情報を把握する方法を紹介した。キーワードの共起ネットワークは、テキストの中に登場した重要キャラ、組織、概念などを直観的に表示し、キーワードの間に存在する潜在的なつながりを明らかにする可視化手段である。この技術の基本的な原理は、言葉の頻度統計によってテキストでの高頻度語を抽出し、その対応関係に基づいて頻繁に共起する言葉を直線で結び、キーワード共起ネットワーク図を作成することにある。出現頻度が高いほど円が大きくなることから、テキストでの高頻度語とその相互関係を直観に見られる。高頻度語はつねにテキストの重要な内容を提示し、言葉間の空間的関係は内容の相互関係を反映している。高頻度語の情報獲得により、執筆時間の推定、著者の判別などの研究が可能になる。

最後に、毛文偉先生は感染症の間変わらず勤勉し続ける学生に祝福の意を寄せ、将来のために、1つでも多くの努力を払えば、それだけ多くの収穫が得られ、日本語学習に力を入れてほしいと励んだ。

共有:

マスコミ対応

SISU News Center, Office of Communications and Public Affairs

Tel : +86 (21) 3537 2378

Email : news@shisu.edu.cn

Address :550 Dalian Road (W), Shanghai 200083, China