...

参考書 フリーソフト 参考文献

by user

on
Category: Documents
5

views

Report

Comments

Transcript

参考書 フリーソフト 参考文献
参考書
クラスタリングの基本をまとめた和書には [宮本 99] や [齋藤 06].前者はファジィクラスタリングに,後者は統
計理論に重点が置かれています.サーベイとしては拙著の [神嶌 03a, 神嶌 03b] もあります.
[Jain 88] は広範囲の話題を網羅した良書ですが,入手が難しくなっていますので,同じ著者のサーベイ [Jain 99]
を参照されてもよいでしょう.最近に出版された本としては [Xu 08] がバランスが良いと思います.近年のデータ
マイニング分野の方法については [Han 11] が良く網羅しています.
フリーソフト
基本的なクラスタリング手法を適用してみるには,データ分析の統合環境が便利でしょう.無料で利用できるも
のには,RapidMiner (http://rapid-i.com/), KNIME (http://www.knime.org/), Weka (http://www.
cs.waikato.ac.nz/ml/weka/) などがあります.
ライブラリとしては以下のものがあります.統計用のプログラミング言語 R (http://www.r-project.org/)
の stat ライブラリには kmeans や hclust などの関数があります.python の科学技術計算用モジュール scipy (http:
//www.scipy.org/) には scipy.cluster を用いて k-means 法や凝集型階層的クラスタリングが実行できます.C++
用ライブラリ dlib (http://dlib.net/) には k-means 法が実装されています.
参考文献
[Aggarwal 00] Aggarwal, C. C. and Yu, P. S.: Finding Generalized Projected Clusters in High Dimensional Spaces, in
Proc of The ACM SIGMOD Int’l Conf. on Management of Data, pp. 70–81 (2000)
[Aggarwal 03] Aggarwal, C. C., Han, J., Wang, J., and Yu, P. S.: A Framework for Clustering Evolving Data Streams, in
Proc. of the 29th Very Large Database Conf., pp. 81–92 (2003)
[Aggarwal 08] Aggarwal, C. C. and Yu, P. S. eds.: Privacy-Preserving Data Mining: Models and Algorithms, Springer
(2008)
[Agrawal 98] Agrawal, R., Gehrke, J., Gunopulos, D., and Raghavan, P.: Automatic Subspace Clustering of High Dimensional Data for Data Mining Application, in Proc. of the ACM SIGMOD Int’l Conf. on Management of Data, pp.
94–105 (1998)
[Batagelj 81] Batagelj, V.: Note on Ultrametric Hierarchical Clustering Algorithms, Psychometrika, Vol. 46, pp. 351–352
(1981)
[Cutting 92] Cutting, D. R., Karger, D. R., Pedersen, J. O., and Tukey, J. W.: Scatter/Gather: A Cluster-based Approach
to Browsing Large Document Collections, in Proc. of the 15th Annual ACM SIGIR Conf. on Research and Development
in Information Retrieval, pp. 318–329 (1992)
[Dempster 77] Dempster, A. P., Laird, N. M., and Rubin, D. B.: Maximum Likelihood from Incomplete Data via The
EM Algorithm, Journal of The Royal Statistical Society (B), Vol. 39, No. 1, pp. 1–38 (1977)
[Dubes 79] Dubes, R. and Jain, A. K.: Validity Studies in Clustering Methodologies, Pattern Recognition, Vol. 11, pp.
235–254 (1979)
[Dubien 79] Dubien, J. L. and Warde, W. D.: A Mathematical Comparison of the Members of an Infinite Family of
Agglomerative Clustering Algorithms, The Canadian J. of Statistics, Vol. 7, pp. 29–38 (1979)
[DuMouchel 99] DuMouchel, W., Volinsky, C., Johnson, T., Cortes, C., and Pregibon, D.: Squashing Flat Files Flatter,
in Proc. of the 5th ACM SIGKDD Int’l Conf. on Knowledge Discovery and Data Mining, pp. 6–15 (1999)
[Farris 69] Farris, J. S.: On the Cophenetic Correlation Coefficient, Systematic Zoology, Vol. 18, pp. 279–285 (1969)
1
[Forgy 65] Forgy, E. W.: Cluster Analysis of Multivariate Data: Efficiency vs. Interpretability of Classifications, Biometrics, Vol. 21, pp. 768–780 (1965)
[Han 11] Han, J., Kamber, M., and Pei, J.: Data Mining: Concepts and Techniques, Morgan Kaufmann, third edition
(2011)
[Jain 88] Jain, A. K. and Dubes, R. C.: Algorithms for Clustering Data, Prentice Hall (1988)
[Jain 99] Jain, A. K., Murty, M. N., and Flynn, P. J.: Data Clustering: A Review, ACM Computing Surveys, Vol. 31, No. 3
(1999)
[神嶌 03a] 神嶌 敏弘:データマイニング分野のクラスタリング手法 (1) — クラスタリングを使ってみよう! —, 人
工知能学会誌, Vol. 18, No. 1, pp. 59–65 (2003)
[神嶌 03b] 神嶌 敏弘:データマイニング分野のクラスタリング手法 (2) — 大規模データへの挑戦と次元の呪いの
克服 —, 人工知能学会誌, Vol. 18, No. 2, pp. 170–176 (2003)
[Lance 67] Lance, G. N. and Williams, W. T.: A General Theory of Classificatory Sorting Strategies, The Computer
Journal, Vol. 9, pp. 373–380 (1967)
[MacQueen 67] MacQueen, J. B.: Some Methods for Classification and Analysis of Multivariate Observations, in Proc.
of the Fifth Berkeley Symposium on Math, Statistics, and Probability, Vol. 1, pp. 281–297 (1967)
[宮本 99] 宮本 定明:クラスター分析入門 — ファジィクラスタリングの理論と応用, 森北出版 (1999)
[Murtagh 83] Murtagh, F.: A Survey of Recent Advances in Hierarchical Clustering Algorithms, The Computer Journal,
Vol. 26, pp. 354–359 (1983)
[Rand 71] Rand, W. M.: Objective Criteria for The Evaluation of Clustering Methods, Journal of The American Statistical
Association, Vol. 66, pp. 846–850 (1971)
[齋藤 06] 齋藤 堯幸, 宿久 洋:関連性データの解析法 — 多次元尺度構成法とクラスター分析法, 共立出版 (2006)
[Wagstaff 01] Wagstaff, K., Cardie, C., Rogers, S., and Schroedl, S.: Constrained K-means Clustering with Background
Knowledge, in Proc. of the 18th Int’l Conf. on Machine Learning, pp. 577–584 (2001)
[Xu 08] Xu, R. and Wunsch, D. C., II: Clustering, IEEE Press Series on Computational Intelligence, Wiley-IEEE Press
(2008)
[Zhang 96] Zhang, T., Ramakrishnan, R., and Livny, M.: BIRCH: An Efficient Data Clustering Method for Very Large
Databases, in Proc. of the ACM SIGMOD Int’l Conf. on Management of Data, pp. 103–114 (1996)
[Zhang 97] Zhang, T., Ramakrishnan, R., and Livny, M.: BIRCH: A New Data Clustering Algorithm and Its Applications,
Data Mining and Knowledge Discovery, Vol. 1, pp. 141–182 (1997)
2
Fly UP