【文献調査】Webユーザの行動履歴解析のためのデータマイニング

千田 智治, 廣安 知之, 三木 光範

ISDL Report  No. 20071014003

2007年 8月 16日

Abstract

本報告では山田らによるWebユーザの行動履歴解析のためのデータマイニング[1]について文献調査を行った. 著者らは, インターネットユーザのWebアクセスログデータをクラスタリングし可視化することで, ユーザの興味が時間と共にどのように遷移しているのかを示した. また, クラスタリング手法の活用により, Webアクセスログに記録されたデータから有用であるユーザの興味の遷移パターンを抽出できることを示した.

1  はじめに

本研究では, 多目的遺伝的アルゴリズムを用いたクラスタリングの検討を行っている. Web上のユーザの行動を分析することで, ユーザ一人一人の嗜好に合わせた広告の配信ができると考えている. そこで, ユーザの行動を分析するためにデータマイニングの一種であるクラスタリングに注目している. 本報告では, クラスタリングを用いてWeb上のユーザの行動を分析する文献であるWebユーザの行動履歴解析のためのデータマイニング[1]について調査を行う.

2  文献調査

2.1  はじめに

インターネットの利用者の増加にともない, Weblog, インターネットオークション, SNSなど新しいサービスが生まれている. このようなサービスを利用しているユーザがどのようなことに興味があるのか, ユーザ間に形成させるコミュニティはどのようなものがあるかを発見する研究が行われている.

しかし, 一般的にユーザは様々なことに興味を持っており, 多様なWebページにアクセスしている. そのため, 特定のサイトにアクセスしているユーザの行動を分析しただけでは, インターネット上のユーザの活動を正しく捉えることは困難である.

そこで著者らは, インターネット上でのユーザがどのようなことに興味を持ち, どのような情報にアクセスしているのか, また, その時間的変化を理解することは, インターネットサービスの新しいモデルを構築する上で重要になると考えている. 本文献では, 長期間にわたり, 記録されたインターネット上でのユーザのアクセスログを解析し, ユーザの興味やアクセスしている情報が時間と共にどのように変化しているのかを抽出し, モデル化する方法を提案している.

2.2  インターネットユーザの行動解析

これまで, インターネット上でユーザの行動パターンを解析し, 新しいサービスの提案や利便性の高いWebサイトを構築することを目的として, Webのアクセスログから有益な情報の抽出を試みる研究が多数行われている. 特定のWebサイトにアクセスしたユーザの行動パターンやコミュニティを抽出するものや, より多様なインターネットユーザが閲覧している情報やその流入経路をアクセスログから解析する研究などがある.

従来の研究は, インターネットユーザの一般的な行動パターンの抽出や, 類似した興味や行動パターンを持つユーザコミュニティの抽出など, ユーザ群の振る舞いに着目した研究であり, 抽出した行動パターンやコミュニティの時間的変化を捉えようとする研究は少なかった. これに対し著者らの研究では, ユーザと情報の関係の時間的発展プロセスを抽出することを目的に, 各ユーザの興味やアクセスしている情報の種類が時間と共にどのように変化しているのか解析するためにデータマイニング手法を提案している.

2.3  WebPAC

ユーザのインターネット利用状況を解析するために, Webへのアクセス状況を記録したWebPACデータを用いる. WebPACデータは, ビデオリサーチ社が2002年11月に5946人のユーザを対象に実施したインターネット利用者の特性調査であり, ユーザの「Web視聴データ」と「ユーザ特性調査データ」から構成されている.

「Web視聴データ」は, 2003年5月26日から2003年6月30日までの1ヶ月間の各ユーザが閲覧したWeb履歴を記録したデータであり, アクセス時間, 閲覧時間, ウィンドウタイトル, URL, ドメインネームなどを記録している. ここからユーザがインターネット利用する目的, 頻度, 時間帯などを解析することができる. 一方, 「ユーザ特性調査データ」は, 各ユーザのプロファイルデータであり, 年齢, 性別, 職業, PCの利用状況, 情報源, 興味のあるブランドなどを記録している. 著者らは, WebPACデータの「Web視聴データ」の解析を行う.

2.4  Webアクセスログからのユーザ特徴抽出

ユーザのアクセスログをクラスタリング手法より解析を行い, アクセスしている情報や興味が時間と共にどのように 変化するのかを可視化する方法を説明する.

2.4.1  提案手法の概念

各ユーザが閲覧したWebページのウィンドウタイトルから, 単語を抽出し, 単語ベクトルを作成する. そして, この単語ベクトルにより各Webページの特徴を示し, 類似したWebページをクラスタリングすることでユーザの行動パターンを抽出する. しかし, ウィンドウタイトルから抽出した単語ベクトルは358,503語もあり, これよりWebページの特徴を抽出することは困難となる. 従って, クラスタリングで一般的に用いられるk-meansやk-NN法を直接利用することはできない.

Fig.1: 主成分分析による次元圧縮【参考[1]

そこで, Fig.1 に示すように, 主成分分析により次元を圧縮しクラスタリングを行う. また, ユーザが閲覧したWebページをいくつのクラスタに分割するのか予め決定することは困難であるため, 自動的にクラスタ数を決定するx-means[2]を用いる.

2.4.2  単語ベクトル

ユーザが閲覧したWebサイトの特徴を記述するために, ウィンドウタイトルから単語を抽出し, 単語ベクトルを作成する. ウィンドウタイトルを形態素解析ツールMeCabを用いて単語の抽出を行うという操作を, ユーザが閲覧した全てのWebサイトに対して行い, 単語ベクトルVを作成する. この単語ベクトルの次元はウィンドウタイトルから抽出された全単語数となる. そして, 各単語のTF-IDE値w(t,d)を次式により計算し, 各単語に重み付けを行う.

tf(t,d)は文書dにおける単語tの頻度であり, Nは全文書数, df(t)は単語tが1回以上出現する文書数である. ここでいう文書数とは, Webサイトの閲覧時間が30分以上ない場合を1つの文書とする. 以上の操作より個々のWebサイトの特徴を抽出する.

2.4.3  x-meansによる自動クラスタリング

自動クラスタリングの一種であるx-means[2]を用いて, ユーザの閲覧したWebサイトを分類し, 各Webサイトの特徴を抽出する方法について述べる. x-meansは, データ群がガウス分布に従っていると仮定し, データ群を二分割した場合の妥当性を情報量基準の一つであるBIC(Bayesian Information Criterion)により判断する. そして, 分割が妥当でないと判断されるまで二分割を繰り返す. 著者らは, 分割の妥当性をBICに加え, データ数が少なく分散が非常に小さいという状況に適するt検定を用いて判断をしている. x-meansの手順をFig.3 に, x-meansで用いる式を以下にまとめる.

Fig.2: x-means法の手順【出典:参考文献[1]より引用】

計算を簡単にするためにαiを(4-b)式で近似し, K(・)は標準正規分布の下側確率である. (5)式の[^(q)]i=[[^(m)]i,[^V]i]は, ガウス分布の最尤推定値であり, miは平均値ベクトル, Viは分散共分散行列である. また, qはパラメータ空間の次元数で, Viの共分散を無視した場合q=2p(pはデータの次元数), 無視しない場合q=p(p+3)/2である.

一方, (6)式の[^(q)]i=[[^(q1)]i,[^(q2)]i]は, 2つのガウス分布の最尤推定値である. また, q=2×2p=4p(pはデータの次元数), 無視しない場合q=2q=p(p+3)である. なお, niはCiに含まれるデータ数, L(・)は尤度関数である.

2.5  解析結果

ユーザのWebサイトでの遷移パターンを解析し, ユーザの興味が時間と共にどのように変化しているのかを抽出する.

2.5.1  WebPAC Viewerによる可視化

一般的に要素間の関係を記述する方法としてグラフ表現が用いられるが, グラフ表現は要素間の時間変化を可視化するには不向きである. そのため, 著者らは, WebPAC ViewerとTime Clip Viewerを作成し, Webサイトの遷移パターンを捉えることにした.

WebPAC Viewerは, Webサイトを表す単語ベクトルを主成分分析により2次元平面に射影し, z軸に時間をとりアクセスした時間毎にWebサイトをプロットしたものである. 左ウィンドウはユーザが閲覧したWebサイトの遷移過程を表示し, 一方右ウィンドウは左ウィンドウを観察している視点を示す. 左ウィンドウの各点にマウスオーバーすると下ウィンドウにそのWebサイトの詳細情報が表示される. Time Clip Viewerは, 左ウィンドウで時間幅を設定し, 右ウィンドウでユーザが時間幅でどのようなWebサイトにアクセスしたのかを表示する.

この可視化ツールを用いて, 性別, 年齢, 職業の類似した4人を, 2003年5月26日から2003年6月30日までの約一ヶ月間解析を行った. Table 1 に各ユーザが閲覧したWebサイト数, ウィンドウタイトルから抽出された単語数, 類似Webサイトとしてクラスタリングされたクラス数を示す.

Table 1: 各ユーザの閲覧したWebサイト数, 単語数, クラス数【出典:参考文献[1]より引用】
User サイト数 単語数 クラス数
UserA 19272 4235 99
UserB 343 193 3
UserC 3044 731 21
UserD 2063 1173 23

 

4人のWebサイトの遷移パターンより,各ユーザのインターネットの利用頻度や閲覧している情報の種類が異なっていることがわかる. 例えば, ユーザAとCはインターネットの利用頻度は高く, ユーザDは限られた種類のWebサイトのみを閲覧していることなどが読み取れる. また, 主成分分析により, 他のWebサイトでは使われていない単語を含んだWebサイトは, 離れた位置にプロットされる為, 普段とは異なるサイトを閲覧していることもわかる.

2.5.2  クラスタリングによるWebサイトの遷移パターン解析

Webサイトの特徴を表す単語ベクトルを利用して, 類似Webサイトをクラスタリングによって抽出した結果より以下のことがわかる.可視化した抽出結果は,類似した特徴を持つWebサイトのクラスを横軸に, アクセスした時間を縦軸に示している.

・ユーザAの場合:商品の内容によりクラス分けが行われ, 横軸の1から30のクラスはコンサートチケットやアミューズメントパークのチケットなどを示し, ユーザが定期的にこれらの情報を検索していることがわかる.

・ユーザBの場合:ネットオークションで検索した自動車のタイプやメーカーによりクラス分けされており, 5月末に自動車の購入を検討していたことが伺える.

・ユーザCの場合:ネットオークションの商品により横軸はクラス分けされており, 時間と共に検索している商品が変化していることがわかる. また, 10から14は趣味のページであり, 定期的に閲覧していることもわかる.

・ユーザDの場合:横軸の9から20は商品の価格を比較しているサイトであり, 商品によりクラス分けされている. これより, 商品の値段を定期的に比較していることがわかる. また, 20から23は健康関連のサイトを示しており, 一時的に健康に興味があったことがわかる.

よって, これにより類似したウィンドウタイトルが付けられたWebサイトのクラスタリングは, ユーザがどのような種類の情報にどのくらいの頻度でアクセスし, また, 時間と共にどのように変化するかを理解することが可能である.

2.6  問題点

提案したシステムではいくつかの問題点が残った. Webサイトのウィンドウタイトルだけを用いた場合, ウィンドウタイトルがなかったり, サイトの内容に合ったタイトルがついていないなどの問題がある. また, Webサイトへのアクセス時間では, 実際にユーザがどの程度そのサイトに興味を示したかがわからない.

3  まとめ

本報告では山田らによるWebユーザの行動履歴解析のためのデータマイニング[1]について文献調査を行った. 著者らは, インターネットユーザのWebアクセスログからユーザの興味の推移パターンを抽出するデータマイニング手法を提案し, その有効性を4人の被験者に実験してもらうことにより検証した.

本研究では, Web上でユーザの行動を分析する際に必要なツールや考え方, またその問題点についてさらに検討する必要があることがわかった. 特に, 類似したWebサイトのクラスタリング化のように, クラスタリングの利用できる要素がわかり, 今後の研究に活かすことができると考えられる.

References

[1]
山田 和明, 中小路 久美代, 上田 完次
Webユーザの行動履歴解析のためのデータマイニング, 電子情報通信学会ヒューマンコミュニケーショングループWI2研究会資料, pp.59-64, 広島, Sep, (2005).
[2]
石岡 恒憲
クラスター数を自動決定するk-meansアルゴリズムの拡張について, 応用統計学, Vol.29, No.3, pp.141-149, (2005).


Copyright (C) 2007 Tomoyuki Hiroyasu, All rights reserved.
Copyright (C) 2007 Mitsunori Miki, All rights reserved.
Copyright (C) 2007 Tomoharu Senda, All rights reserved.

No part of this document may be reproduced, copied, distributed,
transferred, modified, or transmitted, in any form or by any means,
without the prior written permission of the authors.
In no event shall the authors be liable for any damages caused in any way
out of the use of this document.




File translated from TEX by TTH, version 3.77.
On 16 Aug 2007, 17:31.

Back to Top