現在のISDLレポートは,他のレポートへのリンクが少なく,レポート郡の繋がりが薄い.このレポート同士を関連性によってリンクすることで,レポート間の関係を明確にし,各レポートの位置関係を表せるのではないかと考える.
本レポートでは,このレポート同士の関連性を調べるためにレポート内に存在する単語の重みを評価し,それによりレポートとレポートの関連の強さを定量化する類似度計算を行う方法を検討する.
Table:1 の○と×は左の単語をレポートが含んでいるかいないかを示している.この表から,レポートAと最も一致しているのは,レポートBであることは明らかである.しかし,レポートCとレポートDではそれぞれ違った2単語がレポートAと一致しており,類似度を一致の度合いによって表現するならば,単語の数に着目しただけではレポートの類似度を評価することはできないことがわかる.
ここで単語の重みを考慮した一致度を計算することで,重要な単語を含んでいるレポートの類似度をより明確に評価することができる.
本研究では単語の重みを二つの角度から設定する.一つは研究室内で重要とされる単語を重要度という角度から重みを設定し,さらに検索エンジンにおいて検索された用語を注目度という角度から各単語の重みを評価する.この重要度と注目度によって評価された重みの平均によって最終的な単語の重みを決定する.
本研究室において,研究ごとに重要に捉えている単語を選定し重みを設定する.その方法は研究室の方針や方向性に基づいて主観的に行う.
アクセスされた検索用語をTF-IDF法により重みの評価を行う.TF-IDF法は文書において,単語の重みを計算する手法である.TF(Term Frequency)とは,文書d おける単語t の頻度であり,tf(t,d) と表記する.これは文書中で出現頻度が高い単語はその文書において重要であると考えるためである.しかし、多くの文書に出現する単語は、文書を特定する性質を持たないことが多い.単語がどのくらい特定性を持つかを重み付けに反映させているのがIDF(Inverse Document Frequency)である.IDFは文書の数N と、単語t が一回以上出現する文書の数によって式1 のように定義される。
単語t の文書d における重みw(t,d) として、TF とIDF の異なる観点を組み合わせた式2 で表記される手法がTF-IDF法である.
ここでいう類似度計算とは,各レポートの単語とその重みを利用して,レポートとレポートの関連の強さを定量化する手法である.そのアルゴリズムを説明する.レポートAとBは式3 のように表現する.i,j はレポートA,Bの単語数であり,(単語,重み)でレポートを表現している.
このとき,A,B の類似度は重みによる一致,式4 のように定義する.
本レポートでは,単語の重みを重要度と注目度という二つの角度に分けて求めることで,レポート同士の類似度を測る手法を提案した.実装に至っていないが,同一研究という関連性とは違う,より明確な類似度を出せるのではないかと考える.
Copyright (C) 2004 Tomoyuki Hiroyasu, All rights reserved. Copyright (C) 2004 Mitsunori Miki, All rights reserved. Copyright (C) 2004 Yuko Minowa, All rights reserved. No part of this document may be reproduced, copied, distributed, transferred, modified, or transmitted, in any form or by any means, without the prior written permission of the authors. In no event shall the authors be liable for any damages caused in any way out of the use of this document.