Comments
Description
Transcript
アクセスログを用いた Webサイト訪問者の行動分析
アクセスログを用いた Webサイト訪問者の行動分析 ∼Web サイト閲覧者の行動分析による A社サイト改善の提案∼ 東京理科大学工学研究科経営工学専攻 修士1年 岩渕隆亮 修士1年 村上尚隆 発表構成 I. 研究背景 II. 関連研究 III. 研究目的 IV. 分析手法 V. 分析結果,考察 VI. 総括,今後の課題 Appendix 1. 2. Visual Mining Studioによる分析 S-PLUS,VMSの使用プログラミング 参考文献 2005/11/18 数理システムユーザーコンファレンス2005 2 Ⅰ.研究背景 研究背景 日本におけるインターネットの普及は2005年には 4000万世帯を突破すると予測[4] 高速通信設備の普及率の増大 2002年以降インターネット広告市場の急拡大 (億円) 25000 20000 15000 10000 5000 0 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 新聞 テレビ 雑誌 インターネット 2004年インターネット広告 費がラジオ広告費を超え る(インターネット広告費 1814億円,ラジオ広告費 1795億円)[5] ラジオ 図1.媒体ごとの広告費の推移 2005/11/18 数理システムユーザーコンファレンス2005 3 Ⅰ.研究背景 研究背景 BtoB-EC(企業間電子商取引),BtoC-EC(消費者向 け電子商取引)の市場規模は年々増加[3] (兆円) 120.0 BtoB-EC市場規模の推移 BtoC-EC市場規模 (100億円) 15.0% 600 2.5% 100.0 12.5% 500 80.0 10.0% 400 60.0 7.5% 300 40.0 5.0% 200 20.0 2.5% 100 0.5% 0.0 0.0% 0 0.0% 2001 2002 BtoB-EC市場規模 2003 2004 2.0% 1.5% 1.0% 2001 電子商取引化率 2002 BtoC-EC市場規模 2003 2004 電子商取引化率 図2.EC市場規模の推移 Webサイトの訪問者の閲覧行動を分析する必要性 が高まる 2005/11/18 数理システムユーザーコンファレンス2005 4 Ⅱ.関連研究 関連研究 Webサイトの訪問者の閲覧行動を分析する必要性 アクセスログの分析・利用に関する研究が盛んになってきている サイト構築者がサイト構造の見直しを図る サイトに訪れたユーザの行動支援 Web Pageの閲覧者の行動履歴を用いて,閲覧者のクラスタリングを行う [2](大浦勇亮, 喜連川優,2002) 閲覧者支援を目的とした閲覧者の問い合わせ拡張手法の提案[2] (大 浦勇亮, 喜連川優,2002) 2005/11/18 数理システムユーザーコンファレンス2005 5 Ⅲ.研究目的 研究目的 中規模商用サイトのWebアクセスログを用いて, 当該サイトの訪問者の閲覧傾向を分類 分類された各グループに対して 効果的なアプローチを提案 訪問者の閲覧傾向の分類,特徴づけに関しては主 成分分析を用いる WebアクセスログのフィルタリングはVisual Mining Studioを用いる(Appendix1) 2005/11/18 数理システムユーザーコンファレンス2005 6 Ⅳ.分析手法 分析手順 閲覧ページ数が2ページ以上の訪問者の Webアクセスログを抽出 表2を元に分類したWebページと セッションIDのクロス集計を行う フィルタリングを行ったアクセスログデータを元に, 当該Webサイトのページを分類 VMS,S-PLUSを用いて主成分分析を行い 訪問者の閲覧傾向を捉える(Appendix1) 2005/11/18 数理システムユーザーコンファレンス2005 7 Ⅳ.分析手法 分析データ 本研究では株式会社環の協力の下, 貴社のWeb Pageのアクセスログを使用した. 閲覧者は,製品情報,製品の導入申し込み,会社概要, サービス等の情報を閲覧することができる 期間:2005年5月1日から2005年5月31日 アクセス総数:7060件 表1.アクセスログデータ 項目名 年 月 日 曜日 時 分 秒 IPアドレス ポート ホスト名 2005/11/18 サンプル 2005 2 27 Sun 11 44 32 61.215.64.10 61330 bh10.ade.point.ne.jp 項目名 ユーザエージェント リクエストURL リファラURL ユーザID セッションID UNIX時間 ユニークID ディスプレイ縦 ディスプレイ横 色深度 訪問回数 サンプル Mozilla/4.0 (compatible; MSIE 6.0; http://www.nextechcorp.com/ http://search.yahoo.co.jp/bin/search?p=%A5 QiE0ED3T720AAGlH-Ww QiE0ED3T720AAGlH-Ww 1109472272 QiE0ED3T720AAGlH-Ww 800 600 32 1 数理システムユーザーコンファレンス2005 8 Ⅳ.分析手法 Webアクセスログのフィルタリング Webアクセスログは膨大な量存在する 意義あるものを得るためには,データマイニングを 行う必要がある 閲覧ページ数が2ページ以上の訪問者の Webアクセスログを抽出 削除したデータ 閲覧ページが1ページの訪問者のアクセスログ 会社関係者のWebアクセスログ 2005/11/18 数理システムユーザーコンファレンス2005 9 Ⅳ.分析手法 対象Web Pageの分類 フィルタリングを行ったアクセスログデータを基に, 当該Webサイトのページを分類 表2.Webページの分類 対象Webページ Webページ分類名 含まれる情報 H(Home) トップページ トップページ P1(Product1) 製品概要 製品の特徴 P2(Product2) 製品の機能 製品の詳細な説明,機能の紹介 O1(Order1) 製品申し込みに関する情報 料金表,申し込みページ O2(Order2) 申し込み完了 申し込み確認ページ(製品,サービス含む) S1(Service1) オプションサービス 解析レポート,コンサルティング S2(Service2) その他のサービス サポート,メールマガジン,よくあるご質問,提携サービス 会社概要,プライバシーポリシー,What's New,プレスリリース I(Information) その他の情報 詳細に分類すると,訪問者の閲覧傾向が多様化してしまう 多様化した閲覧傾向では一定の傾向が捉えられない 2005/11/18 数理システムユーザーコンファレンス2005 10 Ⅳ.分析手法 クロス集計 表2を基に分類したWebページと セッションIDのクロス集計を行う 表3.クロス集計結果(一部抜粋) セッション名 H セッション1 3 セッション2 2 : : セッション922 5 P1 11 1 : 6 P2 0 0 : 1 O1 2 4 : 6 O2 0 0 : 1 S1 4 0 : 3 S2 1 0 : 2 I 0 0 : 3 各セッション間で 何か傾向がある のではないか? 各セッションで訪問者はWebサイトのページを何回閲覧してい るか確認する セッション1の訪問者はトップページを3回,製品概要を11回,製品の機 能を0回閲覧している 2005/11/18 数理システムユーザーコンファレンス2005 11 Ⅳ.分析手法 主成分分析による閲覧傾向の分類 VMS,S-PLUSを用いて主成分分析を行い 訪問者の閲覧傾向を捉える 主成分分析 データの中の多くの量的変数を特徴ある少数個の 総合的変数に集約し,データの類似関係を明確化 する方法 分散共分散行列を使用 データはクロス集計から得られた,各ページの閲覧 回数のみを使用 2005/11/18 数理システムユーザーコンファレンス2005 12 Ⅴ.分析結果,考察 累積寄与率 Relative Importance of Principal Components 0.638 5 Variances 10 15 第2主成分までの累 積寄与率は0.81なの で第2主成分までの 検討で十分である 8次元のデータを持つ 情報のうち第2主成分 までで81%説明できる 0.81 0.912 0.946 0.969 0.986 1 Comp.5 Comp.6 Comp.7 Comp.8 0 0.87 Comp.1 Comp.2 Comp.3 Comp.4 図3.累積寄与率(Comp1:第1主成分) 2005/11/18 数理システムユーザーコンファレンス2005 13 Ⅴ.分析結果,考察 因子負荷量 図4.因子負荷量(第1主成分,第2主成分) 第1主成分 全体的に値は正,P2の因子負荷量が特に大きい Webサイト全体を閲覧し,特に製品の詳細な情報を 求めている訪問者 第2主成分 P2の値が負,それ以外は全て正の値 S2の値が大きいことから,製品とは関係がないメールマガジ ン等のその他のサービスに興味がある訪問者 2005/11/18 数理システムユーザーコンファレンス2005 14 Ⅴ.分析結果,考察 主成分得点の散布図 20 40 60 80 100 図5から当該Webサイトにおける 訪問者の閲覧傾向として 60 40 0.2 537 90 778 544 S2 -0.1 0.0 0.1 0.2 20 P2方向:詳細な製品情報に興 味がある訪問者 S2方向:会社のサービスに興 味がある訪問者 0 -20 0.0 0.1 650 524 750 716 O1 212 324 220 821 32895 223 727 367 835 536 I 295585 860 O2 264 256 889 506 618 816 35 H 625 350 451 379 S1 743 837 842 792 689 866 237 509 664 99 131 472 688 653 34 859 430 399 478 477 545 214 788 205 912 807 132 125 405 801 116 304 726 535 366 736 372 534 70 31 817 804 72 369 742 437 555 539 254 159 918 112 147 294 521 612 830 530 270 398 332 573 558 298 764 914 917 239 88 633 826 874 882 658 757 68 96 348 457 893 608 853 461 433 755 590 459 828 45 368 80 152 748 282 288 415 87 206 272 635 596 737 566 553 481 780 786 719 312 2 17 713 619 820 818 235 14 841 41 872 877 421 518 128 404 331 284 94 814 871 603 296 95 375 362 599 586 588 337 739 738 572 697 707 485 488 491 496 499 722 724 781 557 549 546 560 660 669 182 186 183 438 215 218 293 208 207 210 297 260 262 268 283 715 318 510 516 523 611 686 193 913 409 412 466 225 227 231 23 25 61 73 76 75 78 81 93 4 3 634 639 641 111 114 139 149 906 836 39 52 56 880 883 886 890 901 831 442 252 730 732 735 489 679 173 429 471 269 16 135 168 908 29 55 879 532 529 528 428 863 390 381 809 795 550 475 616 627 622 15 126 150 85 876 365 323 474 769 106 463 371 448 274 163 417 643 120 355 754 587 591 589 574 728 796 706 446 450 453 434 458 216 253 630 685 637 920 63 5 115 896 905 904 38 704 703 249 680 406 349 498 672 449 275 427 326 652 42 621 373 364 567 578 541 705 202 480 493 495 501 777 856 436 468 204 246 248 289 276 301 17 316 683 610 129 77 82 67 140 50 868 884 891 387 770 196 435 261 609 613 59 6273 551 343 752 454 211 286 303 302 512 107 852 473 464 419 425 224 79 71 127 138 153 164 844 907 888 484 783 787 655 772 9320 8673 628 48 749 674 385 384 389 388 394 397 396 336 340 339 344 351 744 756 606 594 575 580 584 329 486 497 799 798 790 794 797 570 556 561 563 540 543 542 657 659 671 699 198 445 476 209 250 267 281 280 718 775 774 766 785 314 319 514 513 681 651 192 195 176 408 432 460 424 467 469 226 230 229 232 243 277 18 24 97 69 640 133 144 146 155 165 849 416 238 240 13 30 84 89 91 82626 141 829 894 899 37 36 119 878 822 363 383 393 600 342 808 581 583 504 771 760 562 663 188 221 291 265 711 305 508 507 525 130 167 813 11 65 632 148 838 86 121 892 834 869 263 571 287 677 54 47 335 646 862 57 595 708 800 802 793 103 105 861 411 134 823 667 300 360 568 676 179 825 644 631 824 154 391 347 456 682 614 171 897 392 333 565 200 505 668 666 64 9418 601 617 110 910 857 623 855 605 184 440 670 615 345 401 353 598 330 729 805 569 577 564 325 554 700 203 494 721 773 784 761 548 665 661 191 190 189 180 858 290 278 285 709 307 309 517 522 166 169 160 162 851 850 410 413 462 234 241 26 28 83 62 7112 645 113 142 151 846 864 922 33 40 44 118 881 592 258 174 228 100 136 158 341 20 19 157 885 696 503 733 444 334 678 51 597 647 723 308 222 145 465 526 811 327 789 247 271 840 346 101 490 53 854 582 92 358 693 692 714 604 452 776 311 124 123 338 916 768 400 356 579 487 782 725 720 691 443 455 292 765 515 527 102 407 22 629 642 921 43 185 244 648 109 833 751 759 156 259 847 374 654 197 74 911 909 122 867 875 873 832 779 49 322 902 357 745 108 422 827 242 695 865 P1 734 117 315 624 10 812 137 900 382 378 426 143 483 803 395 328 791 675 187 620 887 402 746 439 245 233 58 810 702 251 819 236 386 740 219 531 717 175 257 511 66 359 607 470 684 170 414 441 310 161 710 354 552 199 482 687 638 500 447 181 519 380 492 313 306 377 712 753 104 903 46 701 870 194 763 21 845 376 533 420 636 361 593 767 255 690 815 741 576 762 731 698 919 694 479 559 213 656 843 747 649 403 915 266 317 177 431 898 172 547 201 602 27 299 662 423 178 806 758 520 321 279 50260 839352 370 -0.1 Comp.2 0.3 0.4 538 100 0 80 -20 848 0.3 P2 2方向に大別できると考えられる 0.4 Comp.1 図5.主成分得点の散布図 2005/11/18 数理システムユーザーコンファレンス2005 15 第1主成分に関する考察 第1主成分 全体の63.8%がサイト全体を閲覧し,特に製品の詳細情 報に興味がある訪問者 O1の因子負荷量も正の値であることから,Webサイトの 構造が訪問者を申し込みページまでうまく誘導できている と考えられる 各Webページに無料キャンペーンの広告を記載し,申し込みペー ジのリンクを貼っていることが大きな要因ではないか O2の因子負荷量はあまり大きくない 申し込みページまでうまく誘導できているが,申し込みにはつな がっていない 申し込みページ:Webサイト内で紹介している製品,サービスを訪問者が 購入,契約できるWebページ 表4.第1主成分の因子負荷量 H P1 P2 O1 O2 S1 S2 I 第1主成分 0.133 0.254 0.849 0.271 0.072 0.128 0.303 0.104 2005/11/18 数理システムユーザーコンファレンス2005 16 第2主成分に関する考察 第2主成分 全体の17.2%が製品情報よりもその他のサービス(メルマ ガ,提携サービス)に興味がある訪問者 O1の因子負荷量がS2に続いて大きな値である O2の因子負荷量も正の値 申し込み確認ページにたどり着いていることから,製品,サービス の申し込みを済ませている 初めてWebサイトに来て申し込みをするとは考えられにくいので, 再訪問である可能性が非常に高い訪問者であると考えられる 表5.第2主成分の因子負荷量 H P1 P2 O1 O2 S1 S2 I 第2主成分 0.129 -0.032 -0.455 0.402 0.238 0.119 0.694 0.248 2005/11/18 数理システムユーザーコンファレンス2005 17 提案アプローチ 第1主成分で分類された訪問者に対して 製品情報には興味があるが,申し込みページまでうまく誘導できてい ない 第1主成分で分類された訪問者はS2(製品の詳細な情報)に興味が ある ほぼ全てのページに貼り付けられた,無料キャンペーンの広告を,S2 に分類されたページにのみ貼り付け,よりインパクトを持たせることで 申し込みページに誘導する 第2主成分で分類された訪問者に対して 製品,サービスの情報に対して興味が低い 申し込みページにはうまく誘導できている 少数人数であることもあり新たなアプローチを必要としないと考えら れる 2005/11/18 数理システムユーザーコンファレンス2005 18 Ⅵ.総括,今後の課題 総括,今後の課題 総括 各ページの閲覧回数のみをデータとして,主成分分析を用い て,訪問者の閲覧行動に関する分析を行った 今後の課題 各ページの経路選択の問題に関して,本研究では触れなかった 経路選択により訪問者の行動は大きく変化するかどうか検証 細かなページ分類は行わなかった ページ分類を細かに行うことで,コンバージョンに結びつくた めに,どのようなサイト作りが必要かを詳細に検討できると考 えられる 第3主成分以下についての閲覧傾向に関しても考察を行うことで, 少数グループに対して効果的なマーケティングアクションを提案 する 2005/11/18 数理システムユーザーコンファレンス2005 19 Appendix 1 Visual Mining Studioによる分析 図6.Visual Mining Studioによるフロー 1. データの読み込み 2. 閲覧ページが1ページのみのセッションを削除 ① セッションIDが1のものにフラグを立てる ② フィルタリング条件の設定 table(“ 閲覧ページ数 > 1 → T ”) = = “ T ” 2005/11/18 数理システムユーザーコンファレンス2005 20 Appendix 1 Visual Mining Studioによる分析 図6.Visual Mining Studioによるフロー 3. リクエストURLを分解 分類に使用したURLは以下の通りである(一部掲載) トップページ: http://www.sibulla.com/index.html 製品概要 : http://www.sibulla.com/info/index.html http://www.sibulla.com/info/feature.html 製品の機能: http://www.sibulla.com/site/index.html http://www.sibulla.com/page/index.html http://www.sibulla.com/etc/index.html http://www.sibulla.com/seo/index.html 2005/11/18 数理システムユーザーコンファレンス2005 21 Appendix 1 Visual Mining Studioによる分析 リクエストURLの分解手順(例:http://www.sibulla.com/site/index.html) i. http://www.sibulla.com/を除去 全リクエストURLに共通なので,先頭23文字を除去という文字列関数を用 いる リクエストURLの文字列の長さを数える tmp1(“フィルタ”) = strlen(log(“リクエストURL”)) リクエストURLの24文字目から最後の文字までを取り出す tmp2(“リクエストURL2”) = substring(log(“リクエストURL”),24,tmp1(“フィル タ”)) 除去後はsite/index.htmlとなる ii. site/index.htmlから製品の機能を表すpageという言葉だけを残す /(スラッシュ)を元に,二つの語に分解する文字列関数を用いる 上で取り出した文字列を/を境に二つの文字列に分解する tmp3(“リクエストURL3”,“リクエストURL4”) = split.str(tmp2(“リクエスト URL2”),“/”,“”) 元データに列を付け加える b = cbind(log,tmp3) 2005/11/18 数理システムユーザーコンファレンス2005 22 Appendix 1 Visual Mining Studioによる分析 図6.Visual Mining Studioによるフロー 4. 会社関係者のアクセスログを削除 5. Webページを分類 3.で得られた文字列に対して,表2のように分類 6. クロス集計 セッションIDと各分類とのクロス集計 7. 主成分分析 6 のクロス集計表を元に主成分分析をS-PLUSで行った 分析は,分散共分散行列から始めた 2005/11/18 数理システムユーザーコンファレンス2005 23 Appendix 2 S-PLUS,VMSの使用プログラミング S-PLUSの主成分分析のプログラミング データセット名はbody pr1<- princomp(body) plot(pr1) #累積寄与率を求める loadings(pr1)[,1:3] #第1から第3主成分までの因子負荷量を求める biplot(pr1) #主成分得点の散布図を描く 2005/11/18 数理システムユーザーコンファレンス2005 24 参考文献 [1]江尻俊章著, 稼ぐホームページ 損なホームページ ,株式 会社アスキー (2004) [2]大浦勇亮,喜連川優 , Webアクセスログのクラスタリングに よる問合わせ拡張支援に関する研究 ,東京大学生産技術 研究所(2002) [3]経済産業省・ECOM・NTT データ経営研究所 共同, 平成16 年度電子商取引に関する実態・市場規模調査 ,次世代電 子商取引推進協議会(2005) [4]株式会社情報通信総合研究所 報道発表資料, http://www.icr.co.jp/info/press/press20020521.html , (最終 閲覧日2005年11月7日) [5]株式会社 電通 ニュースリリース, http://www.dentsu.co.jp/news/release/2005/20050060217.ht ml , (最終閲覧日2005年11月7日) 2005/11/18 数理システムユーザーコンファレンス2005 25