...

アクセスログを用いた Webサイト訪問者の行動分析

by user

on
Category: Documents
7

views

Report

Comments

Transcript

アクセスログを用いた Webサイト訪問者の行動分析
アクセスログを用いた
Webサイト訪問者の行動分析
∼Web サイト閲覧者の行動分析による
A社サイト改善の提案∼
東京理科大学工学研究科経営工学専攻
修士1年 岩渕隆亮
修士1年 村上尚隆
発表構成
I. 研究背景
II. 関連研究
III. 研究目的
IV. 分析手法
V. 分析結果,考察
VI. 総括,今後の課題
Appendix
1.
2.
Visual Mining Studioによる分析
S-PLUS,VMSの使用プログラミング
参考文献
2005/11/18
数理システムユーザーコンファレンス2005
2
Ⅰ.研究背景
研究背景
日本におけるインターネットの普及は2005年には
4000万世帯を突破すると予測[4]
高速通信設備の普及率の増大
2002年以降インターネット広告市場の急拡大
(億円)
25000
20000
15000
10000
5000
0
1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004
新聞
テレビ
雑誌
インターネット
2004年インターネット広告
費がラジオ広告費を超え
る(インターネット広告費
1814億円,ラジオ広告費
1795億円)[5]
ラジオ
図1.媒体ごとの広告費の推移
2005/11/18
数理システムユーザーコンファレンス2005
3
Ⅰ.研究背景
研究背景
BtoB-EC(企業間電子商取引),BtoC-EC(消費者向
け電子商取引)の市場規模は年々増加[3]
(兆円)
120.0
BtoB-EC市場規模の推移
BtoC-EC市場規模
(100億円)
15.0% 600
2.5%
100.0
12.5% 500
80.0
10.0% 400
60.0
7.5%
300
40.0
5.0%
200
20.0
2.5%
100
0.5%
0.0
0.0%
0
0.0%
2001
2002
BtoB-EC市場規模
2003
2004
2.0%
1.5%
1.0%
2001
電子商取引化率
2002
BtoC-EC市場規模
2003
2004
電子商取引化率
図2.EC市場規模の推移
Webサイトの訪問者の閲覧行動を分析する必要性
が高まる
2005/11/18
数理システムユーザーコンファレンス2005
4
Ⅱ.関連研究
関連研究
Webサイトの訪問者の閲覧行動を分析する必要性
アクセスログの分析・利用に関する研究が盛んになってきている
サイト構築者がサイト構造の見直しを図る
サイトに訪れたユーザの行動支援
Web Pageの閲覧者の行動履歴を用いて,閲覧者のクラスタリングを行う
[2](大浦勇亮, 喜連川優,2002)
閲覧者支援を目的とした閲覧者の問い合わせ拡張手法の提案[2] (大
浦勇亮, 喜連川優,2002)
2005/11/18
数理システムユーザーコンファレンス2005
5
Ⅲ.研究目的
研究目的
中規模商用サイトのWebアクセスログを用いて,
当該サイトの訪問者の閲覧傾向を分類
分類された各グループに対して
効果的なアプローチを提案
訪問者の閲覧傾向の分類,特徴づけに関しては主
成分分析を用いる
WebアクセスログのフィルタリングはVisual Mining
Studioを用いる(Appendix1)
2005/11/18
数理システムユーザーコンファレンス2005
6
Ⅳ.分析手法
分析手順
閲覧ページ数が2ページ以上の訪問者の
Webアクセスログを抽出
表2を元に分類したWebページと
セッションIDのクロス集計を行う
フィルタリングを行ったアクセスログデータを元に,
当該Webサイトのページを分類
VMS,S-PLUSを用いて主成分分析を行い
訪問者の閲覧傾向を捉える(Appendix1)
2005/11/18
数理システムユーザーコンファレンス2005
7
Ⅳ.分析手法
分析データ
本研究では株式会社環の協力の下,
貴社のWeb Pageのアクセスログを使用した.
閲覧者は,製品情報,製品の導入申し込み,会社概要,
サービス等の情報を閲覧することができる
期間:2005年5月1日から2005年5月31日
アクセス総数:7060件
表1.アクセスログデータ
項目名
年
月
日
曜日
時
分
秒
IPアドレス
ポート
ホスト名
2005/11/18
サンプル
2005
2
27
Sun
11
44
32
61.215.64.10
61330
bh10.ade.point.ne.jp
項目名
ユーザエージェント
リクエストURL
リファラURL
ユーザID
セッションID
UNIX時間
ユニークID
ディスプレイ縦
ディスプレイ横
色深度
訪問回数
サンプル
Mozilla/4.0 (compatible; MSIE 6.0;
http://www.nextechcorp.com/
http://search.yahoo.co.jp/bin/search?p=%A5
QiE0ED3T720AAGlH-Ww
QiE0ED3T720AAGlH-Ww
1109472272
QiE0ED3T720AAGlH-Ww
800
600
32
1
数理システムユーザーコンファレンス2005
8
Ⅳ.分析手法
Webアクセスログのフィルタリング
Webアクセスログは膨大な量存在する
意義あるものを得るためには,データマイニングを
行う必要がある
閲覧ページ数が2ページ以上の訪問者の
Webアクセスログを抽出
削除したデータ
閲覧ページが1ページの訪問者のアクセスログ
会社関係者のWebアクセスログ
2005/11/18
数理システムユーザーコンファレンス2005
9
Ⅳ.分析手法
対象Web Pageの分類
フィルタリングを行ったアクセスログデータを基に,
当該Webサイトのページを分類
表2.Webページの分類
対象Webページ
Webページ分類名
含まれる情報
H(Home)
トップページ
トップページ
P1(Product1)
製品概要
製品の特徴
P2(Product2)
製品の機能
製品の詳細な説明,機能の紹介
O1(Order1)
製品申し込みに関する情報
料金表,申し込みページ
O2(Order2)
申し込み完了
申し込み確認ページ(製品,サービス含む)
S1(Service1)
オプションサービス
解析レポート,コンサルティング
S2(Service2)
その他のサービス
サポート,メールマガジン,よくあるご質問,提携サービス
会社概要,プライバシーポリシー,What's New,プレスリリース
I(Information)
その他の情報
詳細に分類すると,訪問者の閲覧傾向が多様化してしまう
多様化した閲覧傾向では一定の傾向が捉えられない
2005/11/18
数理システムユーザーコンファレンス2005
10
Ⅳ.分析手法
クロス集計
表2を基に分類したWebページと
セッションIDのクロス集計を行う
表3.クロス集計結果(一部抜粋)
セッション名 H
セッション1
3
セッション2
2
:
:
セッション922 5
P1
11
1
:
6
P2
0
0
:
1
O1
2
4
:
6
O2
0
0
:
1
S1
4
0
:
3
S2
1
0
:
2
I
0
0
:
3
各セッション間で
何か傾向がある
のではないか?
各セッションで訪問者はWebサイトのページを何回閲覧してい
るか確認する
セッション1の訪問者はトップページを3回,製品概要を11回,製品の機
能を0回閲覧している
2005/11/18
数理システムユーザーコンファレンス2005
11
Ⅳ.分析手法
主成分分析による閲覧傾向の分類
VMS,S-PLUSを用いて主成分分析を行い
訪問者の閲覧傾向を捉える
主成分分析
データの中の多くの量的変数を特徴ある少数個の
総合的変数に集約し,データの類似関係を明確化
する方法
分散共分散行列を使用
データはクロス集計から得られた,各ページの閲覧
回数のみを使用
2005/11/18
数理システムユーザーコンファレンス2005
12
Ⅴ.分析結果,考察
累積寄与率
Relative Importance of Principal Components
0.638
5
Variances
10
15
第2主成分までの累
積寄与率は0.81なの
で第2主成分までの
検討で十分である
8次元のデータを持つ
情報のうち第2主成分
までで81%説明できる
0.81
0.912
0.946
0.969
0.986
1
Comp.5
Comp.6
Comp.7
Comp.8
0
0.87
Comp.1
Comp.2
Comp.3
Comp.4
図3.累積寄与率(Comp1:第1主成分)
2005/11/18
数理システムユーザーコンファレンス2005
13
Ⅴ.分析結果,考察
因子負荷量
図4.因子負荷量(第1主成分,第2主成分)
第1主成分
全体的に値は正,P2の因子負荷量が特に大きい
Webサイト全体を閲覧し,特に製品の詳細な情報を
求めている訪問者
第2主成分
P2の値が負,それ以外は全て正の値
S2の値が大きいことから,製品とは関係がないメールマガジ
ン等のその他のサービスに興味がある訪問者
2005/11/18
数理システムユーザーコンファレンス2005
14
Ⅴ.分析結果,考察
主成分得点の散布図
20
40
60
80
100
図5から当該Webサイトにおける
訪問者の閲覧傾向として
60
40
0.2
537
90
778
544 S2
-0.1
0.0
0.1
0.2
20
P2方向:詳細な製品情報に興
味がある訪問者
S2方向:会社のサービスに興
味がある訪問者
0
-20
0.0
0.1
650
524
750
716
O1
212
324
220
821
32895
223
727
367
835
536
I 295585
860
O2
264
256
889
506
618
816
35
H
625
350
451
379
S1
743
837
842
792
689
866
237
509
664
99
131
472
688
653
34
859
430
399
478
477
545
214
788
205
912
807
132
125
405
801
116
304
726
535
366
736 372
534
70
31
817
804
72
369
742
437
555
539
254
159
918
112
147
294
521
612
830
530
270
398
332
573
558
298
764
914
917
239
88
633
826
874
882
658
757
68
96
348
457
893
608
853
461
433
755
590
459
828
45
368
80
152
748
282
288
415
87
206
272
635
596
737
566
553
481
780
786
719
312
2
17
713
619
820
818
235
14
841
41
872
877
421
518
128
404
331
284
94
814
871
603
296
95
375
362
599
586
588
337
739
738
572
697
707
485
488
491
496
499
722
724
781
557
549
546
560
660
669
182
186
183
438
215
218
293
208
207
210
297
260
262
268
283
715
318
510
516
523
611
686
193
913
409
412
466
225
227
231
23
25
61
73
76
75
78
81
93
4
3
634
639
641
111
114
139
149
906
836
39
52
56
880
883
886
890
901
831
442
252
730
732
735
489
679
173
429
471
269
16
135
168
908
29
55
879
532
529
528
428
863
390
381
809
795
550
475
616
627
622
15
126
150
85
876
365
323
474
769
106
463
371
448
274
163
417
643
120
355
754
587
591
589
574
728
796
706
446
450
453
434
458
216
253
630
685
637
920
63
5
115
896
905
904
38
704
703
249
680
406
349
498
672
449
275
427
326
652
42
621
373
364
567
578
541
705
202
480
493
495
501
777
856
436
468
204
246
248
289
276
301
17
316
683
610
129
77
82
67
140
50
868
884
891
387
770
196
435
261
609
613
59
6273
551
343
752
454
211
286
303
302
512
107
852
473
464
419
425
224
79
71
127
138
153
164
844
907
888
484
783
787
655
772
9320
8673
628
48
749
674
385
384
389
388
394
397
396
336
340
339
344
351
744
756
606
594
575
580
584
329
486
497
799
798
790
794
797
570
556
561
563
540
543
542
657
659
671
699
198
445
476
209
250
267
281
280
718
775
774
766
785
314
319
514
513
681
651
192
195
176
408
432
460
424
467
469
226
230
229
232
243
277
18
24
97
69
640
133
144
146
155
165
849
416
238
240
13
30
84
89
91
82626
141
829
894
899
37
36
119
878
822
363
383
393
600
342
808
581
583
504
771
760
562
663
188
221
291
265
711
305
508
507
525
130
167
813
11
65
632
148
838
86
121
892
834
869
263
571
287
677
54
47
335
646
862
57
595
708
800
802
793
103
105
861
411
134
823
667
300
360
568
676
179
825
644
631
824
154
391
347
456
682
614
171
897
392
333
565
200
505
668
666
64
9418
601
617
110
910
857
623
855
605
184
440
670
615
345
401
353
598
330
729
805
569
577
564
325
554
700
203
494
721
773
784
761
548
665
661
191
190
189
180
858
290
278
285
709
307
309
517
522
166
169
160
162
851
850
410
413
462
234
241
26
28
83
62
7112
645
113
142
151
846
864
922
33
40
44
118
881
592
258
174
228
100
136
158
341
20
19
157
885
696
503
733
444
334
678
51
597
647
723
308
222
145
465
526
811
327
789
247
271
840
346
101
490
53
854
582
92
358
693
692
714
604
452
776
311
124
123
338
916
768
400
356
579
487
782
725
720
691
443
455
292
765
515
527
102
407
22
629
642
921
43
185
244
648
109
833
751
759
156
259
847
374
654
197
74
911
909
122
867
875
873
832
779
49
322
902
357
745
108
422
827
242
695
865 P1
734
117
315
624
10
812
137
900
382
378
426
143
483
803
395
328
791
675
187
620
887
402
746
439
245
233
58
810
702
251
819
236
386
740
219
531
717
175
257
511
66
359
607
470
684
170
414
441
310
161
710
354
552
199
482
687
638
500
447
181
519
380
492
313
306
377
712
753
104
903
46
701
870
194
763
21
845
376
533
420
636
361
593
767
255
690
815
741
576
762
731
698
919
694
479
559
213
656
843
747
649
403
915
266
317
177
431
898
172
547
201
602
27
299
662
423 178
806
758
520
321
279
50260
839352
370
-0.1
Comp.2
0.3
0.4
538
100
0
80
-20
848
0.3
P2
2方向に大別できると考えられる
0.4
Comp.1
図5.主成分得点の散布図
2005/11/18
数理システムユーザーコンファレンス2005
15
第1主成分に関する考察
第1主成分
全体の63.8%がサイト全体を閲覧し,特に製品の詳細情
報に興味がある訪問者
O1の因子負荷量も正の値であることから,Webサイトの
構造が訪問者を申し込みページまでうまく誘導できている
と考えられる
各Webページに無料キャンペーンの広告を記載し,申し込みペー
ジのリンクを貼っていることが大きな要因ではないか
O2の因子負荷量はあまり大きくない
申し込みページまでうまく誘導できているが,申し込みにはつな
がっていない
申し込みページ:Webサイト内で紹介している製品,サービスを訪問者が
購入,契約できるWebページ
表4.第1主成分の因子負荷量
H
P1
P2
O1
O2
S1
S2
I
第1主成分 0.133 0.254 0.849 0.271 0.072 0.128 0.303 0.104
2005/11/18
数理システムユーザーコンファレンス2005
16
第2主成分に関する考察
第2主成分
全体の17.2%が製品情報よりもその他のサービス(メルマ
ガ,提携サービス)に興味がある訪問者
O1の因子負荷量がS2に続いて大きな値である
O2の因子負荷量も正の値
申し込み確認ページにたどり着いていることから,製品,サービス
の申し込みを済ませている
初めてWebサイトに来て申し込みをするとは考えられにくいので,
再訪問である可能性が非常に高い訪問者であると考えられる
表5.第2主成分の因子負荷量
H
P1
P2
O1
O2
S1
S2
I
第2主成分 0.129 -0.032 -0.455 0.402 0.238 0.119 0.694 0.248
2005/11/18
数理システムユーザーコンファレンス2005
17
提案アプローチ
第1主成分で分類された訪問者に対して
製品情報には興味があるが,申し込みページまでうまく誘導できてい
ない
第1主成分で分類された訪問者はS2(製品の詳細な情報)に興味が
ある
ほぼ全てのページに貼り付けられた,無料キャンペーンの広告を,S2
に分類されたページにのみ貼り付け,よりインパクトを持たせることで
申し込みページに誘導する
第2主成分で分類された訪問者に対して
製品,サービスの情報に対して興味が低い
申し込みページにはうまく誘導できている
少数人数であることもあり新たなアプローチを必要としないと考えら
れる
2005/11/18
数理システムユーザーコンファレンス2005
18
Ⅵ.総括,今後の課題
総括,今後の課題
総括
各ページの閲覧回数のみをデータとして,主成分分析を用い
て,訪問者の閲覧行動に関する分析を行った
今後の課題
各ページの経路選択の問題に関して,本研究では触れなかった
経路選択により訪問者の行動は大きく変化するかどうか検証
細かなページ分類は行わなかった
ページ分類を細かに行うことで,コンバージョンに結びつくた
めに,どのようなサイト作りが必要かを詳細に検討できると考
えられる
第3主成分以下についての閲覧傾向に関しても考察を行うことで,
少数グループに対して効果的なマーケティングアクションを提案
する
2005/11/18
数理システムユーザーコンファレンス2005
19
Appendix 1
Visual Mining Studioによる分析
図6.Visual Mining Studioによるフロー
1. データの読み込み
2. 閲覧ページが1ページのみのセッションを削除
① セッションIDが1のものにフラグを立てる
② フィルタリング条件の設定
table(“ 閲覧ページ数 > 1 → T ”) = = “ T ”
2005/11/18
数理システムユーザーコンファレンス2005
20
Appendix 1
Visual Mining Studioによる分析
図6.Visual Mining Studioによるフロー
3. リクエストURLを分解
分類に使用したURLは以下の通りである(一部掲載)
トップページ: http://www.sibulla.com/index.html
製品概要 : http://www.sibulla.com/info/index.html
http://www.sibulla.com/info/feature.html
製品の機能: http://www.sibulla.com/site/index.html
http://www.sibulla.com/page/index.html
http://www.sibulla.com/etc/index.html
http://www.sibulla.com/seo/index.html
2005/11/18
数理システムユーザーコンファレンス2005
21
Appendix 1
Visual Mining Studioによる分析
リクエストURLの分解手順(例:http://www.sibulla.com/site/index.html)
i. http://www.sibulla.com/を除去
全リクエストURLに共通なので,先頭23文字を除去という文字列関数を用
いる
リクエストURLの文字列の長さを数える
tmp1(“フィルタ”) = strlen(log(“リクエストURL”))
リクエストURLの24文字目から最後の文字までを取り出す
tmp2(“リクエストURL2”) = substring(log(“リクエストURL”),24,tmp1(“フィル
タ”))
除去後はsite/index.htmlとなる
ii. site/index.htmlから製品の機能を表すpageという言葉だけを残す
/(スラッシュ)を元に,二つの語に分解する文字列関数を用いる
上で取り出した文字列を/を境に二つの文字列に分解する
tmp3(“リクエストURL3”,“リクエストURL4”) = split.str(tmp2(“リクエスト
URL2”),“/”,“”)
元データに列を付け加える
b = cbind(log,tmp3)
2005/11/18
数理システムユーザーコンファレンス2005
22
Appendix 1
Visual Mining Studioによる分析
図6.Visual Mining Studioによるフロー
4. 会社関係者のアクセスログを削除
5. Webページを分類
3.で得られた文字列に対して,表2のように分類
6. クロス集計
セッションIDと各分類とのクロス集計
7. 主成分分析
6 のクロス集計表を元に主成分分析をS-PLUSで行った
分析は,分散共分散行列から始めた
2005/11/18
数理システムユーザーコンファレンス2005
23
Appendix 2
S-PLUS,VMSの使用プログラミング
S-PLUSの主成分分析のプログラミング
データセット名はbody
pr1<- princomp(body)
plot(pr1) #累積寄与率を求める
loadings(pr1)[,1:3]
#第1から第3主成分までの因子負荷量を求める
biplot(pr1)
#主成分得点の散布図を描く
2005/11/18
数理システムユーザーコンファレンス2005
24
参考文献
[1]江尻俊章著, 稼ぐホームページ 損なホームページ ,株式
会社アスキー (2004)
[2]大浦勇亮,喜連川優 , Webアクセスログのクラスタリングに
よる問合わせ拡張支援に関する研究 ,東京大学生産技術
研究所(2002)
[3]経済産業省・ECOM・NTT データ経営研究所 共同, 平成16
年度電子商取引に関する実態・市場規模調査 ,次世代電
子商取引推進協議会(2005)
[4]株式会社情報通信総合研究所 報道発表資料,
http://www.icr.co.jp/info/press/press20020521.html , (最終
閲覧日2005年11月7日)
[5]株式会社 電通 ニュースリリース,
http://www.dentsu.co.jp/news/release/2005/20050060217.ht
ml , (最終閲覧日2005年11月7日)
2005/11/18
数理システムユーザーコンファレンス2005
25
Fly UP