...

OSSによるビッグデータシステム ~動向調査と選択方針について

by user

on
Category: Documents
26

views

Report

Comments

Transcript

OSSによるビッグデータシステム ~動向調査と選択方針について
OSSによるビッグデータシステム
~動向調査と選択方針について~
2014年9月16日
日本電気株式会社 中島 武史
株式会社日立製作所 中島 雅彦
Copyright 2014 Japan OSS Promotion Forum
1.はじめに
Copyright 2014 Japan OSS Promotion Forum
1
1. はじめに
 背景
「ソーシャルデータ」 、「センサデータ」、 「モバイル機器から生じるデータ」など、「ビッグデータ」
が増加かつ多様化している。
OSSの世界においては、 Hadoopをはじめ、それらビッグデータを処理するための多種多様な
技術が次々と生まれている。また従来技術も併せて進化し、それらが連携したシステムを形成
しつつある。
一方、企業においては、ビッグデータを利活用し、差別化や競争力の源泉とする試みが進ん
でいる。しかし、選択肢が増えるとともに、自社に適切なIT技術を選択することが難しくなって
いる。
 本資料の目的



ビッグデータ関連OSSを目的別に大きく区分し、それらを関係づけた「ビッグデータシステ
ム俯瞰図」により全体像を可視化する。
これにより、企業におけるビッグデータITシステム検討において必要なOSSを選択しやす
くする。
同時に、企業でOSSを活用する際に重要となる導入実績や品質の目安を提供する。
Copyright 2014 Japan OSS Promotion Forum
2
2.ビッグデータシステム俯瞰図
Copyright 2014 Japan OSS Promotion Forum
3
2-1. 本章の流れ
本章ではビッグデータ俯瞰図に必要なパーツを機能ごとに分け、全体像を示す。
全体像の各機能ごとに対応するOSSを洗い出し、そのOSSの中から主要なも
のを抽出し、ビッグデータ俯瞰図の中にマッピングを行う。
各機能ごとのOSS選定基準としては、ビッグデータ分野での知名度、実績、注
目度、システム構築上の要素となり得るもの、サポートベンダーの有無などを総
合的に判断のうえ抽出した。
Copyright 2014 Japan OSS Promotion Forum
4
2-2. ビッグデータ関連OSSシステム俯瞰図の全体像
ビッグデータからビジネス価値を生み出す流れ
データソース
データ収集・検知
Webデータ
クローラ
Webデータ収集
データ集合から知識、
ルールなどを導き出す
準リアルタイムクエリ
データ蓄積ファイルシステム
データ蓄積部分への
データのロード
ビッグデータに対する
アドホッククエリ
統計解析
データ集合に対して統計を行う
分析/可視化ツール
セキュリティ/認証 ※
収集
機械学習
並列分散処理基盤
スケールアウト可能なデータ蓄積基盤
構造化データ
(業務RDB)
解析ツール
並列分散処理
売上情報など
データロード
データ分析
ビッグデータ蓄積・貯蔵・その他
ビッグデータ蓄積基盤
に対するセキュリティ・認証
非構造化データの収集
データロード
ビッグデータ蓄積基盤から
RDBへのデータロード
BIツール
データを分析し、その結果を可視化する
センサデータ
分析用データ
CEP
定型業務RDB
高速化キャッシュ/スケールアウト
非構造化
データ
システムログ
音声
画像
発生したデータをその場で
リアルタイム処理
リレーショナル
データベース
インメモリDG/分散KVS
稼働監視・性能監視・ジョブ管理
などの管理系機能
メモリ上でのデータ管理
DWH・マートレスDB
NoSQLと呼ばれる領域
キーバリュー型、カラム型、ドキュメント
指向型などがある
運用管理・監視
インメモリDB
様々な角度から
分析するためのデータ倉庫
※データ蓄積ファイルシステムに対するセキュリティ/認証であるため
ビッグデータ蓄積・貯蔵・その他のカテゴリに分類
ビッグデータ関連OSSシステム俯瞰図は複数の機能コンポーネントが組み合わさっている
Copyright 2014 Japan OSS Promotion Forum
5
2-3.クローラ/データロード/収集
概要



主なOSS一覧
☑今回調査対象OSS



•
•



•
•



•
クローラ … Web上のデータを取得し、そのデータを保存するツー
ル
データロード … RDBなどからデータロード、ETLを行うツール
収集 … ログデータなどの非構造化データをデータ保存領域に格
納するツール
クローラ
ManifoldCF
Nutch
Anemone
wget
データロード
Sqoop
Talend
Apache Cocoon
Enhydra Octopus
収集
Fluentd
Flume
Scribe
Copyright 2014 Japan OSS Promotion Forum
6
2-4. CEP
概要
 発生したデータをその場でリアルタイムに処理する技術領域
主なOSS一覧
☑今回調査対象OSS





Storm
Apache S4
Jubatus ※
Esper
Drools Fusion
※Jubatusは機械学習フレームワークであるがオンライン処理で実施するためCEPのカテゴリに分類
Copyright 2014 Japan OSS Promotion Forum
7
2-5.データ蓄積ファイルシステム/並列分散処理
概要
 データ蓄積ファイルシステム … スケールアウト可能な分散ファイル
システムにより、ビッグデータの保存領域として対応できるデータ蓄積
基盤
 並列分散処理 … データ蓄積ファイルシステムを利用するなどして並
列分散処理を提供する基盤
主なOSS一覧
☑今回調査対象OSS





•




•
•
•
•
データ蓄積ファイルシステム
Hadoop HDFS
Lustre
GlusterFS
Ceph
XtreemFS
並列分散処理
Hadoop MR
Hadoop YARN
Spark
Tez
Giraph
OpenMPI
Mesos
Copyright 2014 Japan OSS Promotion Forum
8
2-6.準リアルタイムクエリ
概要
 Hadoopに対して準リアルタイムクエリを提供し、アドホックなクエリを
可能にするソフトウェア
主なOSS一覧
☑今回調査対象OSS
 Drill
 Hive(Stringer Initiative)
 Impala(Cloudera)
Copyright 2014 Japan OSS Promotion Forum
9
2-7.セキュリティ・認証
概要


主なOSS一覧
☑今回調査対象OSS


•
•
•
•
セキュリティ … 暗号化やアクセス制御関連のソフトウェア
認証 … 認証の基盤となるディレクトリサービスやそれらの管理ソ
フトウェア
セキュリティ
MIT Kerberos
OpenSSL
OpenVPN
SELinux
Iptables
 認証
 OpenLDAP
•
Apache Directory DS
•
Fedora Directory Server
•
LISM
•
OpenDS
Copyright 2014 Japan OSS Promotion Forum
10
2-8.高速化キャッシュ/スケールアウト分野
概要


主なOSS一覧
☑今回調査対象OSS

•

•
•

•

•


•
•
•
一般的に「NoSQL(Not only SQL)」や「NewSQL」と呼ばれる分
野であり、RDBMS以外の幅広いデータストアを指す
特に2000年代以降、多数のOSSが開発/公開され続けている
「キーバリュー型(KVS)」、「カラム指向型」、「ドキュメント指向型」な
ど、さまざまなタイプが存在し、それぞれ特長や特性が異なる
Cassandra
CouchDB
HBase
Hibari
Hypertable
Infinispan
Memcached
MongoDB
Neo4j
Redis
Riak
ROMA
Tokyo Cabinet/Tyrant
Voldemort
Copyright 2014 Japan OSS Promotion Forum
11
2-9.機械学習/統計解析
概要


主なOSS一覧
☑今回調査対象OSS
機械学習 … データ集合から、さまざまなアルゴリズムに基づいて、
有用なルール、知識、判断基準などを導き出すソフトウェア
統計解析 … ここでは統計解析プログラミング言語を調査対象とし
た
機械学習
 Apache Mahout
• KNIME
• Orange
• Rapid Miner
• scikit-learn
• Shogun toolbox
• Weka
統計解析
 R
Copyright 2014 Japan OSS Promotion Forum
12
2-10.BIツール
概要

主なOSS一覧
☑今回調査対象OSS
•


•
データを分析し、レポーティングやダッシュボード等の形式で可視化
するためのソフトウェア
Eclipse BIRT
Pentaho
Jasper Reports
SpagoBI
Copyright 2014 Japan OSS Promotion Forum
13
2-11.定型業務RDB/インメモリDB/DWH・マートレスDB
概要
定型業務RDB

従前から存在するリレーショナルデータベースソフトウェア
インメモリDB

データ管理を主にメモリ上で行うソフトウェア
NoSQLの中にもインメモリ型が存在するが、ここではインメモリ型のリレーショ
ナルデータベースを対象とした
DWH・マートレスDB

大量の業務データを統合して格納し、様々な角度から分析するためのデータ
倉庫として利用するソフトウェア
主なOSS一覧
☑今回調査対象OSS
定型業務RDB
•
Apache Derby
•
Firebird
•
MariaDB
 MySQL
 PostgreSQL
インメモリDB
 VoltDB
DWH・マートレスDB
•
RDBが活用されることが多く、当該分野に特化したOSSは見つからなかった
Copyright 2014 Japan OSS Promotion Forum
14
2-12.運用管理・監視
概要

主なOSS一覧
☑今回調査対象OSS
•
•

•
•
•
•

•
システムの稼働監視、性能監視、ジョブ管理などを行い、業務シス
テムを円滑に運用するためのソフトウェア
Ganglia
Groundwork Monitor
Hinemos
MRTG
Munin
Nagios
OpenNMS
Zabbix
Zenoss
Copyright 2014 Japan OSS Promotion Forum
15
2-13. ビッグデータ関連OSSのシステム俯瞰図
対応するOSSをマッピングしたシステム俯瞰図
データソース
データ収集・検知
Webデータ
売上情報など
ビッグデータ蓄積・貯蔵・その他
クローラ
Hadoop MR
Hadoop YARN
Spark
ManifoldCF
Nutch
準リアルタイムクエリ
データロード
構造化データ
(業務RDB)
Sqoop
Talend
データ蓄積ファイルシステム
Drill
Hive
Impala
Hadoop HDFS
Lustre
GlusterFS
Ceph
収集
センサデータ
セキュリティ/認証
Sqoop
MIT Kerberos
OpenLDAP
非構造化
データ
システムログ
音声
画像
Mahout
統計解析
R言語
BIツール
Pentaho
JasperReports
分析用データ
CEP
Storm
Apache S4
Jubatus
Esper
Drools Fusion
解析ツール
機械学習
分析/可視化ツール
データロード
Fluentd
Flume
データ分析
並列分散処理
定型業務RDB
高速化キャッシュ/スケールアウト
MySQL
PostgreSQL
インメモリDG/分散KVS
Cassandra
MongoDB
Infinispan
Redis
Riak
HBase
インメモリDB
VoltDB
DWH・マートレスDB
OSSで著名なものはない
運用管理・監視
Hinemos
Zabbix
※上記システム俯瞰図は商用OSSディストリビューションを除いて記載
Copyright 2014 Japan OSS Promotion Forum
16
3.OSS概要調査
Copyright 2014 Japan OSS Promotion Forum
17
3-1. 調査項目説明
俯瞰図における区分
分析項目
調査観点
機能概要
OSSの機能概要
開発主体
Apache Software Foundation, 企業, 純粋なコミュニティなど、開発実体の調査
マイナーリリース回数
2013/4~2014/3にリリースされたマイナーバージョンの回数
パッチリリース数
2013/4~2014/3にリリースされた個別パッチの回数
(個別パッチが公開されていない、もしくはJIRA投稿などに散在していて活用しにくく、マイナーバージョンリリースを利用すべき場合はそ
の旨記載)
ドキュメントの充実度(英語)
存在する英語ドキュメントの種類
ドキュメントの充実度(日本語)
存在する日本語ドキュメントの種類
書籍の充実度(英語)
Amazonに登録されている英語の関連書籍数(2014/5月時点)
書籍の充実度(日本語)
Amazonに登録されている日本語の関連書籍数(2014/5月時点)
サポートの充実度
サポートサービスを提供している企業
・複数の企業がサポートを提供し、日本の企業も存在する
・複数の企業がサポートを提供するが海外のみ
・単一の企業がサポートを提供(日本)
・単一の企業がサポートを提供(海外)
・サポート企業がない
実績
Linux Foundation SI Forum「2013年度オープン ソース ソフトウェア 活用動向調査」レポートにおける導入実績
http://www.linuxfoundation.jp/content/osssurvey
OSSサービスを提供している回答企業6社中
「導入多数」 ・・・・ 5社以上で導入実績あり
「導入あり」 ・・・・ 3社以上で導入実績あり
「検証多数」 ・・・・ 5社以上で検証実績あり
「検証あり」 ・・・・ 3社以上で検証実績あり
「ランク外」 ・・・・ 導入/検証実績なし
「掲載なし」 ・・・・ レポートに当該OSSの掲載なし
※アンケート対象はベンダー企業であり、対象OSSを用いたシステム構築/検証の実績有無をカウントしている。
ユーザコミュニティ
2013/4~2014/3のユーザメーリングリストの月ごとの投稿数または投稿スレッド数(1発言に対するレス群を1スレッドとカウント)
開発者コミュニティ
2013/4~2014/3の開発者メーリングリストの月ごとの投稿数または投稿スレッド数(1発言に対するレス群を1スレッドとカウント)
歴史
初回リリースとその後の主要バージョンリリース時期
商用ディストリビューションの有無
商用ディストリビュータの有無
OSSライセンス
OSSライセンス区分
Copyright 2014 Japan OSS Promotion Forum
18
データ収集・検知
[Webクローラ]
3-2. ManifoldCF
分析項目
調査観点
機能概要
サーバに保管されている文書ファイルやWebページなどコンテンツを収集し、検索エンジンに送るソフトウェア
開発主体
Apache Software Foundation
マイナーリリース回数
6回
パッチリリース数
マイナーリリースで代用
ドキュメントの充実度(英語)
・概要、互換性マトリックス、FAQ、APIドキュメント、Javadoc、ビルドディプロイ、チューニング、開発者リソース、エ
ンドユーザドキュメント
http://manifoldcf.apache.org/release/release-1.6.1/en_US/concepts.html
ドキュメントの充実度(日本語)
・概要、互換性マトリックス、開発者リソース、エンドユーザドキュメント
http://manifoldcf.apache.org/release/release-1.6.1/ja_JP/concepts.html
書籍の充実度(英語)
0冊
書籍の充実度(日本語)
0冊
サポートの充実度
単一の企業がサポートを提供(日本)
【日本】野村総研
実績
掲載なし
ユーザコミュニティ
833件
http://mail-archives.apache.org/mod_mbox/manifoldcf-user/
開発者コミュニティ
2766件
http://mail-archives.apache.org/mod_mbox/manifoldcf-dev/
歴史
MetaCarta, Inc.により開発され、5年間の間に開発/テストが繰り返された後、2009年12月にApache
Software Foundationにコードが寄贈
2012年5月に0.5.1でインキュベータを卒業
2014年5月時点で1.6が最新
商用ディストリビューションの有無
無
OSSライセンス
Apache License Version 2.0
Copyright 2014 Japan OSS Promotion Forum
19
データ収集・検知
[Webクローラ]
3-3. Nutch
分析項目
調査観点
機能概要
拡張性とスケーラビリティに優れたWebクローラ
開発主体
Apache Software Foundation
マイナーリリース回数
1系:2回
2系:2回
パッチリリース数
1系:57個
2系:35個
ドキュメントの充実度(英語)
・FAQ、Tutorial、API Docs
https://wiki.apache.org/nutch/FrontPage#What_is_Apache_Nutch.3F
ドキュメントの充実度(日本語)
コミュニティ上では英語のみ
書籍の充実度(英語)
7冊
書籍の充実度(日本語)
0冊
サポートの充実度
サポート企業がない
実績
掲載なし
ユーザコミュニティ
2661件
http://mail-archives.apache.org/mod_mbox/nutch-user/
開発者コミュニティ
5719件
http://mail-archives.apache.org/mod_mbox/nutch-dev/
歴史
HadoopやLuceneの作成者であるDoug Cutting氏により開発
複数台マシンでクロール、インデックス作成を行うためにMapReduceと分散ファイルシステムが開発され、これらが
Hadoopとしてスピンオフした
2005年1月にApacheのインキュベータとなり、2010年4月からApacheのトップレベルプロジェクト
2014年5月時点で1系:1.8、2系:2.2.1が最新
商用ディストリビューションの有無
無
OSSライセンス
Apache License version 2.0
Copyright 2014 Japan OSS Promotion Forum
20
データ収集・検知
[データロード]
3-4. Sqoop
分析項目
調査観点
機能概要
Hadoopとリレーショナルデータベースのような構造化データとの間のデータ転送を効率的に行うツール
開発主体
Apache Software Foundation
マイナーリリース回数
1系:1回
2系:2回
パッチリリース数
1系:35個
2系:マイナーリリースで代用
ドキュメントの充実度(英語)
・ユーザガイド、開発者ガイド、APIドキュメント
http://sqoop.apache.org/docs/1.4.4/index.html
・インストールマニュアル、アップグレードマニュアル、ビルドマニュアル、開発環境セットアップ、APIガイド、開発コネクタ、
REST APIガイド
http://sqoop.apache.org/docs/1.99.3/index.html
ドキュメントの充実度(日本語)
コミュニティ上では英語のみ
書籍の充実度(英語)
2冊
書籍の充実度(日本語)
0冊
サポートの充実度
複数の企業がサポートを提供し、日本の企業も存在する
【日本】Cloudera Japan
【海外】Cloudera、Hortonworks
実績
掲載なし
ユーザコミュニティ
1122件
http://mail-archives.apache.org/mod_mbox/sqoop-user/
開発者コミュニティ
4054件
http://mail-archives.apache.org/mod_mbox/sqoop-dev/
歴史
2009年5月~2010年4月:Hadoop Contrib Module
2010年4月~2011年6月:Cloudera GitHub
2011年6月~2012年3月:Apache Incubator
2012年3月~:Apache Sqoop
2014年5月時点で1系:1.4.4、2系:1.99.3が最新
商用ディストリビューションの有無
Cloudera Distribution including Apache Hadoop(以下CDH)(Cloudera)
Hortonworks Data Platform(以下HDP)(Hortonworks)
OSSライセンス
Apache License Version 2.0
Copyright 2014 Japan OSS Promotion Forum
21
データ収集・検知
[データロード]
3-5. Talend
分析項目
調査観点
機能概要
大容量、多様性に富むデータに対するロード、抽出、変換を行う
開発主体
Talend
マイナーリリース回数
2回
パッチリリース数
マイナーリリースで代用
ドキュメントの充実度(英語)
・インストール手順、アップグレード手順、スタートガイド、コンポーネントリファレンスガイド、ユーザガイド
https://help.talend.com/display/HOME/Talend+Open+Studio+for+Big+Data
ドキュメントの充実度(日本語)
英語、フランス語のみで提供
書籍の充実度(英語)
7冊
書籍の充実度(日本語)
0冊
サポートの充実度
単一の企業がサポートを提供(日本、海外)
【日本】Talend
【海外】Talend
実績
検証あり
ユーザコミュニティ
数千~1万件以上
ユーザ、開発者で分かれておらず、月ごとの集計もされていない
http://www.talendforge.org/forum/
開発者コミュニティ
同上
歴史
2012年2月Talend Open Studio for Big Dataがリリース
2014年5月時点で5.4.2が最新
商用ディストリビューションの有無
Talend Open Studio for Big Data(Talend)
OSSライセンス
Apache License version 2.0
Copyright 2014 Japan OSS Promotion Forum
22
データ収集・検知
[収集]
3-6. Fluentd
分析項目
調査観点
機能概要
データストリームを処理するために設計されたデータコレクタ
開発主体
Treasure Data
マイナーリリース回数
12回
パッチリリース数
マイナーリリースで代用
ドキュメントの充実度(英語)
・クイックスタートガイド、インストールガイド、FAQ
http://docs.fluentd.org/articles/quickstart
ドキュメントの充実度(日本語)
・クイックスタートガイド、インストールガイド、FAQ
http://docs.fluentd.org/ja/articles/quickstart
書籍の充実度(英語)
0冊
書籍の充実度(日本語)
0冊
サポートの充実度
単一の企業がサポートを提供(海外)
【海外】Treasure Data
実績
掲載なし
ユーザコミュニティ
約1000件
Google Groupで情報交換
月ごとの集計やユーザ、開発者の区分けはない
https://groups.google.com/forum/#!forum/fluentd
開発者コミュニティ
同上
歴史
Treasure Dataが中心となって開発
2014年5月時点で0.10.48が最新
商用ディストリビューションの有無
無
安定版パッケージのtd-agentがTreasure Dataによりメンテナンスされている
OSSライセンス
Apache License Version 2.0
Copyright 2014 Japan OSS Promotion Forum
23
データ収集・検知
[収集]
3-7. Flume
分析項目
調査観点
機能概要
大量のログデータを収集するためのツール
開発主体
Apache Software Foundation
マイナーリリース回数
1回
パッチリリース数
108件
ドキュメントの充実度(英語)
・ユーザガイド、開発者ガイド
http://flume.apache.org/documentation.html
ドキュメントの充実度(日本語)
英語版のみ
書籍の充実度(英語)
1冊
書籍の充実度(日本語)
0冊
サポートの充実度
複数の企業がサポートを提供し、日本の企業も存在する
【日本】Cloudera Japan
【海外】Cloudera、Hortonworks
実績
掲載なし
ユーザコミュニティ
1460件
http://mail-archives.apache.org/mod_mbox/flume-user/
開発者コミュニティ
4581件
http://mail-archives.apache.org/mod_mbox/flume-dev/
歴史
2012年7月の1.2.0のリリースでApache Incubatorプロジェクトを卒業し、Apacheのトップレベルプロジェクトに昇格
2014年5月時点で1.3.1が最新
商用ディストリビューションの有無
CDH(Cloudera)
HDP(Hortonworks)
OSSライセンス
Apache License Version 2.0
Copyright 2014 Japan OSS Promotion Forum
24
データ収集・検知
[CEP]
3-8. Storm
分析項目
調査観点
機能概要
分散リアルタイム処理システム
開発主体
Backtype、Twitter、Apache Software Foundation
マイナーリリース回数
1回
パッチリリース数
3件
ドキュメントの充実度(英語)
・チュートリアル、マニュアル、JavaDoc、FAQ
https://storm.incubator.apache.org/documentation/Home.html
ドキュメントの充実度(日本語)
英語版のみ
書籍の充実度(英語)
1冊
書籍の充実度(日本語)
0冊
サポートの充実度
サポート企業がない
実績
掲載なし
ユーザコミュニティ
1653件
http://mail-archives.apache.org/mod_mbox/incubator-storm-user/
開発者コミュニティ
1189件
http://mail-archives.apache.org/mod_mbox/incubator-storm-dev/
歴史
Backtypeが開発し、Twitterがオープンソース化
2013年9月にApache Incubatorプロジェクト
2014年5月時点で0.9.1が最新
商用ディストリビューションの有無
無
OSSライセンス
Apache License Version 2.0
Copyright 2014 Japan OSS Promotion Forum
25
データ収集・検知
[CEP]
3-9. S4
分析項目
調査観点
機能概要
分散リアルタイムストリーム処理エンジン
開発主体
米Yahoo!、Apache Software Foundation
マイナーリリース回数
リリースノートが日付管理されていないため不明
パッチリリース数
リリースノートが日付管理されていないため不明
ドキュメントの充実度(英語)
・スタートガイド、設定ガイド、実行ガイド、FAQ
http://incubator.apache.org/s4/doc/0.6.0/
ドキュメントの充実度(日本語)
英語版のみ
書籍の充実度(英語)
0冊
書籍の充実度(日本語)
0冊
サポートの充実度
サポート企業がない
実績
ランク外
ユーザコミュニティ
281件
http://mail-archives.apache.org/mod_mbox/incubator-s4-user/
開発者コミュニティ
255件
http://mail-archives.apache.org/mod_mbox/incubator-s4-dev/
歴史
2010年10月にYahoo!から初期リリース
2011年の9月からApache Incubatorプロジェクト
2014年5月時点で0.6.0が最新
商用ディストリビューションの有無
無
OSSライセンス
Apache License Version 2.0
Copyright 2014 Japan OSS Promotion Forum
26
データ収集・検知
[CEP]
3-10. Jubatus
分析項目
調査観点
機能概要
オンライン機械学習向け分散処理フレームワーク
開発主体
NTT、株式会社プリファードインフラストラクチャ
マイナーリリース回数
7回
パッチリリース数
42件
ドキュメントの充実度(英語)
・インストールガイド、チュートリアル、概要説明、FAQ、コマンド集、APIリファレンス
http://jubat.us/en/
ドキュメントの充実度(日本語)
・インストールガイド、チュートリアル、概要説明、FAQ、コマンド集、APIリファレンス
http://jubat.us/ja/
書籍の充実度(英語)
0冊
書籍の充実度(日本語)
0冊
サポートの充実度
複数の企業がサポートを提供(日本)
【日本】NTT、NTTソフトウェア、株式会社Preferred Infrastructure
実績
導入あり
ユーザコミュニティ
110件
Google Groupで情報交換
月ごとの集計やユーザ、開発者の区分けはない
https://groups.google.com/forum/#!forum/jubatus
開発者コミュニティ
同上
歴史
株式会社Preferred InfrastructureとNTTソフトウェアイノベーションセンタが共同開発した、日本発のオープンソー
スプロダクト
2011年10月に0.1.0リリース
2014年5月時点で0.5.4が最新
商用ディストリビューションの有無
無
OSSライセンス
Lesser General Public License Version 2.1
Copyright 2014 Japan OSS Promotion Forum
27
3-11. Esper(Java版)
データ収集・検知
[CEP]
分析項目
調査観点
機能概要
CEPやイベント解析のコンポーネント
開発主体
EsperTech
マイナーリリース回数
2回
パッチリリース数
マイナーリリースで代用
ドキュメントの充実度(英語)
・リファレンスドキュメント、API JavaDoc、IOリファレンス、IO API JavaDoc、FAQ
http://esper.codehaus.org/esper/documentation/documentation.html
ドキュメントの充実度(日本語)
英語版のみ
書籍の充実度(英語)
0冊
書籍の充実度(日本語)
0冊
サポートの充実度
単一の企業がサポートを提供(海外)
【海外】EsperTech
実績
導入多数
ユーザコミュニティ
1042件
http://xircles.codehaus.org/lists/[email protected]
開発者コミュニティ
268件
http://xircles.codehaus.org/lists/[email protected]
歴史
2006年1月にEsperTechからアルファ版がリリース
2006年3月にベータ版がリリース
2006年7月に1.0がリリース
5.0.0が最新(2014年5月)
商用ディストリビューションの有無
Esper Enterprise Edition(EsperTech)
OSSライセンス
General Public License Version 2.1
Copyright 2014 Japan OSS Promotion Forum
28
3-12. Drools Fusion
データ収集・検知
[CEP]
分析項目
調査観点
機能概要
ビジネスルール処理エンジン「Drools」に時間の概念を追加し、CEP機能を実現するモジュール
開発主体
Red Hat, Inc.
マイナーリリース回数
5系:1回
6系:2回
パッチリリース数
マイナーリリースで代用
ドキュメントの充実度(英語)
・インストール・セットアップガイド、互換性情報、ユーザガイドなど
http://docs.jboss.org/drools/release/6.1.0.Final/drools-docs/html_single/index.html
ドキュメントの充実度(日本語)
コミュニティでは英語版のみ
書籍の充実度(英語)
4冊
書籍の充実度(日本語)
0冊
サポートの充実度
複数の企業がサポートを提供し、日本の企業も存在する
【日本】Red Hat, KK 、多数のRed Hatパートナー企業
【海外】Red Hat, Inc.
実績
掲載なし
ユーザコミュニティ
4376件
http://lists.jboss.org/pipermail/rules-users/2014-March/thread.html
開発者コミュニティ
459件
http://lists.jboss.org/pipermail/rules-dev/
歴史
2014年5月時点で6.0.1が最新
商用ディストリビューションの有無
Red Hat JBoss BRMS、Red Hat JBoss BPM Suite(Red Hat, Inc.)
OSSライセンス
Apache Software License Version2
Copyright 2014 Japan OSS Promotion Forum
29
3-13. Hadoop(MapReduce、YARN、HDFS)
ビッグデータ蓄積・貯蔵・その他
[並列分散処理、データ蓄積ファイルシステム]
分析項目
調査観点
機能概要
大量データを処理するための分散処理基盤
開発主体
Apache Software Foundation、Cloudera、Hortonworks
マイナーリリース回数
1系:2回
2系:7回
パッチリリース数
マイナーリリースで代用
ドキュメントの充実度(英語)
・セットアップガイド、コマンドリファレンス、ユーザガイド、APIドキュメント、各種機能概要
http://hadoop.apache.org/docs/current/
ドキュメントの充実度(日本語)
コミュニティでは英語版のみ
書籍の充実度(英語)
多数
書籍の充実度(日本語)
多数
サポートの充実度
複数の企業がサポートを提供し、日本の企業も存在する
【日本】Cloudera Japan、NTTデータ、日立ソリューションズ、新日鉄住金ソリューションズ、伊藤忠テクノソリューション
ズ、HP、ソフトバンク・テクノロジー
【海外】Cloudera、Hortonworks
実績
導入多数
ユーザコミュニティ
8051件
http://mail-archives.apache.org/mod_mbox/hadoop-user/
開発者コミュニティ
3003件
http://mail-archives.apache.org/mod_mbox/hadoop-common-dev/
歴史
Doug Cutting氏により開発
Nutchの開発において複数台マシンでクロール、インデックス作成を行うためにMapReduceと分散ファイルシステムが
開発され、これらがHadoopとしてスピンオフ
2006年2月にApache Hadoopプロジェクトが開始
2014年5月時点では1系:1.2.1、2系:2.4.0が最新
商用ディストリビューションの有無
CDH(Cloudera)
HDP(Hortonworks)
OSSライセンス
Apache License Version 2.0
Copyright 2014 Japan OSS Promotion Forum
30
3-14. Spark
ビッグデータ蓄積・貯蔵・その他
[並列分散処理]
分析項目
調査観点
機能概要
インメモリ処理を主体とする分散処理基盤
開発主体
Apache Software Foundation、UC Berkeley AMPLab、Databricks
マイナーリリース回数
5回
パッチリリース数
マイナーリリースで代用
ドキュメントの充実度(英語)
・クイックスタートガイド、プログラミングガイド、APIドキュメント、ディプロイガイド、その他(設定、モニタ、チューニング、ス
ケジューリング、セキュリティ、ハードウェアプロビジョニング、ビルド方法、貢献方法)
https://spark.apache.org/docs/latest/
ドキュメントの充実度(日本語)
コミュニティでは英語版のみ
書籍の充実度(英語)
1冊
書籍の充実度(日本語)
0冊
サポートの充実度
単一の企業がサポートを提供(海外)
【海外】Cloudera社を通して開発元のDatabricks社でサポート実施
実績
掲載なし
ユーザコミュニティ
555件
http://apache-spark-user-list.1001560.n3.nabble.com/
開発者コミュニティ
1297件
http://apache-spark-developers-list.1001551.n3.nabble.com/
歴史
UB BerkeleyのAMPLabで開発が始まり、その開発メンバがDatabricks社を立ち上げそこを中心に開発が進められ
ている。
2013年6月 Apacheのインキュベータプロジェクト
2014年2月 Apacheトップレベルプロジェクト
2014年5月 1.0リリース
商用ディストリビューションの有無
CDH(Cloudera)
OSSライセンス
Apache License Version 2.0
Copyright 2014 Japan OSS Promotion Forum
31
ビッグデータ蓄積・貯蔵・その他
[データ蓄積ファイルシステム]
3-15. Lustre
分析項目
調査観点
機能概要
分散ファイルシステム
開発主体
Xyratex、Intel、コミュニティなど
マイナーリリース回数
2回
パッチリリース数
マイナーリリースで代用
ドキュメントの充実度(英語)
・チュートリアル、概要、インストール、設定、管理、チューニング、トラブルシューティング
https://build.hpdd.intel.com/job/lustre-manual/lastSuccessfulBuild/artifact/lustre_manual.xhtml
ドキュメントの充実度(日本語)
コミュニティでは英語版のみ
書籍の充実度(英語)
4冊
書籍の充実度(日本語)
0冊
サポートの充実度
複数の企業がサポートを提供し、日本の企業も存在する
【日本】HPCソリューションズ
【海外】Intel、Xyratex
実績
ランク外
ユーザコミュニティ
1350件
http://lists.lustre.org/pipermail/lustre-discuss/
開発者コミュニティ
73件
http://lists.lustre.org/pipermail/lustre-devel/
歴史
1999年カーネギーメロン大学の研究者Peter Braam氏が開発
同氏がCluster File Systemsを創業し開発が進められる
2007年にSunが同社を買収、OracleによるSun買収(2010年)によりOracleの管理下に入る
2010年末にOracleがLustre 2系の開発を打ち切ることを発表
WhamcloudやOpen Scalable File Systems(OpenSFS)などがコミュニティベースでのサポートと開発を目指して
立ち上る
2013年2月XyratexはLustreの資産などを買収
2.6が最新(2014年5月)
商用ディストリビューションの有無
Intel Enterprise Edition for Lustre Software(Intel)
Lustreをベースとした製品ライン「ClusterStor」(Xyratex)
OSSライセンス
General Public License Version 2
Copyright 2014 Japan OSS Promotion Forum
32
ビッグデータ蓄積・貯蔵・その他
[データ蓄積ファイルシステム]
3-16. GlusterFS
分析項目
調査観点
機能概要
汎用分散ファイルシステム
開発主体
Red Hat, Inc.
マイナーリリース回数
1回
パッチリリース数
マイナーリリースで代用
ドキュメントの充実度(英語)
・スタートガイド、コンセプト、トラブルシューティング、管理者ガイド
http://www.gluster.org/documentation/
ドキュメントの充実度(日本語)
コミュニティでは英語版のみ
書籍の充実度(英語)
1冊
書籍の充実度(日本語)
0冊
サポートの充実度
単一の企業がサポートを提供(日本、海外)
【日本】Red Hat, KK
【海外】Red Hat, Inc.
実績
導入あり
ユーザコミュニティ
3927件
http://www.gluster.org/mailman/listinfo/gluster-users
開発者コミュニティ
2192件
http://www.gluster.org/mailman/listinfo/gluster-devel
歴史
Gluster,Incによって開発されてきたが、2011年レッドハットによるGluster買収後はレッドハットにより開発
2014年5月時点で3.5.1が最新
商用ディストリビューションの有無
Red Hat Storage Server(Red Hat, Inc.)
OSSライセンス
General Public License Version 3
Copyright 2014 Japan OSS Promotion Forum
33
ビッグデータ蓄積・貯蔵・その他
[データ蓄積ファイルシステム]
3-17. Ceph
分析項目
調査観点
機能概要
オブジェクト、ブロック、ファイルストレージ用に設計されたストレージプラットフォーム
開発主体
Red Hat, Inc.
マイナーリリース回数
40回
パッチリリース数
マイナーリリースで代用
ドキュメントの充実度(英語)
・インストールガイド、APIドキュメント、アーキテクチャ、開発用ドキュメント、用語集
http://ceph.com/docs/master/
ドキュメントの充実度(日本語)
コミュニティは英語版のみ
書籍の充実度(英語)
0冊
書籍の充実度(日本語)
0冊
サポートの充実度
単一の企業がサポートを提供(日本、海外)
【日本】Red Hat, KK
【海外】Red Hat, Inc.
実績
導入多数
ユーザコミュニティ
7978件
http://dir.gmane.org/gmane.comp.file-systems.ceph.user
開発者コミュニティ
4963件
http://dir.gmane.org/gmane.comp.file-systems.ceph.devel
歴史
Sage Weil氏が博士卒業論文のテーマとして作成
2012年 Cephのプロフェッショナルサービスやサポートを行うためInktank Storage社を設立
2014年 Red Hat社はInktankのCeph開発部門を買収
商用ディストリビューションの有無
INKTANK CEPH ENTERPRISE(Red Hat, Inc.)
OSSライセンス
Lesser General Public License
Copyright 2014 Japan OSS Promotion Forum
34
ビッグデータ蓄積・貯蔵・その他
[準リアルタイムクエリ]
3-18. Drill
分析項目
調査観点
機能概要
大量のデータソースに対してローレイテンシーのアドホッククエリを提供
開発主体
Apache Software Foundation、MapR
マイナーリリース回数
1回
パッチリリース数
56件
ドキュメントの充実度(英語)
・提案wiki、アーキテクチャ、ユーザディスカッションブログ
http://incubator.apache.org/drill/index.html#resources
ドキュメントの充実度(日本語)
コミュニティは英語版のみ
書籍の充実度(英語)
0冊
書籍の充実度(日本語)
0冊
サポートの充実度
単一の企業がサポートを提供(日本、海外)
【日本】MapR
【海外】MapR
実績
掲載なし
ユーザコミュニティ
292件
http://mail-archives.apache.org/mod_mbox/incubator-drill-user/
開発者コミュニティ
3982件
http://mail-archives.apache.org/mod_mbox/incubator-drill-dev/
歴史
Google Dremelを元にしたオープンソースプロジェクト
2012年8月にApache Incubatorプロジェクト
2014年5月時点で1.0.0-m1-incubatorが最新
商用ディストリビューションの有無
無
OSSライセンス
Apache License Version 2.0
Copyright 2014 Japan OSS Promotion Forum
35
ビッグデータ蓄積・貯蔵・その他
[準リアルタイムクエリ]
3-19. Hive
分析項目
調査観点
機能概要
Hadoop上のデータに対して集約・問い合わせ・分析を行う
開発主体
Facebookほか
マイナーリリース回数
2回
パッチリリース数
544件
ドキュメントの充実度(英語)
・言語マニュアル、JavaDoc
https://hive.apache.org/
ドキュメントの充実度(日本語)
コミュニティでは英語版のみ
書籍の充実度(英語)
4冊
書籍の充実度(日本語)
1冊
サポートの充実度
複数の企業がサポートを提供し、日本の企業も存在する
【日本】Cloudera Japan
【海外】Cloudera、Hortonworks
実績
掲載なし
※単独での掲載はなかったが、Hadoop内のカウントに含まれている可能性あり
ユーザコミュニティ
3580件
http://mail-archives.apache.org/mod_mbox/hive-user/
開発者コミュニティ
36179件
http://mail-archives.apache.org/mod_mbox/hive-dev/
歴史
Facebookが開発をはじめ、その後さまざまな団体が開発に参加
2014年5月時点で0.13が最新
商用ディストリビューションの有無
CDH(Cloudera)
HDP(Hortonworks)
OSSライセンス
Apache License Version 2.0
Copyright 2014 Japan OSS Promotion Forum
36
ビッグデータ蓄積・貯蔵・その他
[準リアルタイムクエリ]
3-20. Impala
分析項目
調査観点
機能概要
Hadoop上で動作するMPP(Massive Parallel Processing) SQLエンジン
開発主体
Cloudera
マイナーリリース回数
9回
パッチリリース数
55件
ドキュメントの充実度(英語)
・インストールガイド、アップグレードガイド、設定ガイド、起動ガイド、セキュリティガイド、FAQ
http://www.cloudera.com/content/cloudera-content/clouderadocs/CDH5/latest/Impala/impala.html
ドキュメントの充実度(日本語)
無
書籍の充実度(英語)
1冊
書籍の充実度(日本語)
0冊
サポートの充実度
複数の企業がサポートを提供し、日本の企業も存在する
【日本】Cloudera Japan、MapR
【海外】Cloudera、MapR
実績
掲載なし
ユーザコミュニティ
約1000件以上
Google Groupで情報交換
月ごとの集計はない
https://groups.google.com/a/cloudera.org/forum/#!forum/impala-user
開発者コミュニティ
開発者専用のコミュニティは見当たらない
歴史
2012年10月にベータテスト版をリリース
2013年12月にAmazon Web Service対応
2014年5月時点で1.3.1が最新
商用ディストリビューションの有無
CDH(Cloudera)
OSSライセンス
Apache License Version 2.0
Copyright 2014 Japan OSS Promotion Forum
37
3-21. MIT Kerberos
ビッグデータ蓄積・貯蔵・その他
[セキュリティ/認証]
分析項目
調査観点
機能概要
ネットワーク認証プロトコルKerberosのMIT実装
開発主体
MIT
マイナーリリース回数
6回
パッチリリース数
139件
ドキュメントの充実度(英語)
・ユーザ向け(コマンドリファレンスなど)、管理者向け(インストール、設定など)、アプリケーション開発向け(APIリファレン
ス)、プラグイン開発向け、ビルドガイド、コンセプト、特徴
http://web.mit.edu/kerberos/krb5-latest/doc/
ドキュメントの充実度(日本語)
MITでは英語のみ
書籍の充実度(英語)
多数
書籍の充実度(日本語)
1冊
サポートの充実度
サポート企業がない
実績
掲載なし
※Active Directoryなど他の製品に含まれて使われているので実施の実績は多いと考えられる
ユーザコミュニティ
901件
http://mailman.mit.edu/pipermail/kerberos/
開発者コミュニティ
445件
http://mailman.mit.edu/pipermail/krbdev/
歴史
1980年代にMITで研究プロジェクトとして開始
2014年5月時点でV5 1.12が最新
商用ディストリビューションの有無
無
OSSライセンス
http://web.mit.edu/kerberos/krb5-devel/doc/mitK5license.html
Copyright 2014 Japan OSS Promotion Forum
38
ビッグデータ蓄積・貯蔵・その他
[セキュリティ/認証]
3-22. OpenLDAP
分析項目
調査観点
機能概要
ディレクトリデータベースにアクセスするためのプロトコル
開発主体
OpenLDAPプロジェクト
マイナーリリース回数
4回
パッチリリース数
69件
ドキュメントの充実度(英語)
・イントロダクション、クイックスタートガイド、ビルド・インストール方法、設定、実行、アクセスコントロールなど
http://www.openldap.org/doc/admin24/
ドキュメントの充実度(日本語)
・各種技術資料が日本LDAPユーザ会により提供
http://www.ldap.jp/doc
書籍の充実度(英語)
多数存在
書籍の充実度(日本語)
多数存在
サポートの充実度
複数の企業がサポートを提供し、日本の企業も存在する
【日本】野村総研、NEC
【海外】siriusなど
実績
導入多数
ユーザコミュニティ
3436件
http://www.openldap.org/lists/mm/listinfo/openldap-technical
開発者コミュニティ
95件
http://www.openldap.org/lists/mm/listinfo/openldap-devel
歴史
1998年ミシガン大学のLDAPリファレンス実装のクローンが出発点
2007年10月にOpenLDAP2.4.6がgeneral useとしてリリース
2014年5月時点で2.4.39が最新
商用ディストリビューションの有無
無
OSSライセンス
OpenLDAP Public License
Copyright 2014 Japan OSS Promotion Forum
39
高速化キャッシュ/スケールアウト
[インメモリDG/分散KVS]
3-23. Cassandra
分析項目
調査観点
機能概要
カラムファミリ型の分散KVSであり、SPOFが存在しない、書き込みが速いなどの特長がある
開発主体
Apache Software Foundation
マイナーリリース回数
1系:6回
2系:7回
パッチリリース数
特に提供されておらず、マイナーリリースで対応
ドキュメントの充実度(英語)
・Cassandra Wiki
http://wiki.apache.org/cassandra/
・マニュアル(DataStax Documentation)
http://www.datastax.com/documentation/cassandra/2.0/cassandra/gettingStartedCassandraIntro.html
ドキュメントの充実度(日本語)
・Cassandra Wiki JP
http://wiki.apache.org/cassandra/FrontPage_JP
書籍の充実度(英語)
8冊
書籍の充実度(日本語)
2冊
サポートの充実度
・複数の企業がサポートを提供し、日本の企業も存在する
【日本】INTHEFOREST、konekto,Inc.
【海外】DataStax社を中心に10数社 (http://wiki.apache.org/cassandra/ThirdPartySupport)
実績
導入あり
ユーザコミュニティ
2126件(ただし2013年12月~2014年3月の4ヶ月分。調査時、2013/11月以前はアーカイブから削除済み。)
http://www.mail-archive.com/[email protected]/
開発者コミュニティ
843件(2013年4月~2014年3月)
http://www.mail-archive.com/[email protected]/
歴史
2008年7月 OSSとして公開
2009年3月 Apache Incubator、2010/2 Apache TLP昇格
2011年10月 v1.0
2012年4月 v1.1
2013年1月 v1.2
2013年9月 v2.0
2014年5月 v2.1
商用ディストリビューションの有無
DataStax社(DataStax Enterprise)
OSSライセンス
Apache License Version 2.0
Copyright 2014 Japan OSS Promotion Forum
40
高速化キャッシュ/スケールアウト
[インメモリDG/分散KVS]
3-24. MongoDB
分析項目
調査観点
機能概要
JSONと親和性の高いドキュメント指向データベース
開発主体
MongoDB, Inc.
マイナーリリース回数
19回 (2.2系、2.4系、2.5系、2.6系を並行して開発)
パッチリリース数
特に提供されておらず、マイナーリリースで対応
ドキュメントの充実度(英語)
・マニュアル
http://docs.mongodb.org/manual/
ドキュメントの充実度(日本語)
ほとんど存在しない
・日本MongoDBユーザ会
http://www.mongodb.jp/mongo/main
書籍の充実度(英語)
20冊以上
書籍の充実度(日本語)
3冊
サポートの充実度
・単一の企業がサポートを提供し、日本の企業も存在する
【日本】NRI
【海外】MongoDB, Inc.
実績
導入あり
ユーザコミュニティ
1000件/月以上 (MongoDB User Forum 2014年3月分。投稿多数のため年度全件はカウントせず)
https://groups.google.com/forum/#!forum/mongodb-user
開発者コミュニティ
274スレッド/1000件以上(MongoDB Dev Forum 2013年4月~2014年3月)
https://groups.google.com/group/mongodb-dev
歴史
2007年9月 10gen社(現MongoDB, Inc.)が開発開始
2009年2月 初版0.8.0リリース
2009年8月 v1.0.0
2011年9月 v2.0.0
2014年5月(最新版):v2.6.1
商用ディストリビューションの有無
MongoDB, Inc.
OSSライセンス
GNU AFFERO GENERAL PUBLIC LICENSE V3.0
Copyright 2014 Japan OSS Promotion Forum
41
高速化キャッシュ/スケールアウト
[インメモリDG/分散KVS]
3-25. Infinispan
分析項目
調査観点
機能概要
データアクセスを高速化するインメモリデータグリッド
JBoss Data GridはInfinispanを元にしたRed Hat社製品
開発主体
Jboss.org, Red Hat, Inc.
マイナーリリース回数
4回
パッチリリース数
特に提供されておらず、マイナーリリースで対応
ドキュメントの充実度(英語)
・User Guide, Getting Started Guide, FAQ, JavaDocs
http://infinispan.org/documentation/
ドキュメントの充実度(日本語)
コミュニティサイトにはなし
書籍の充実度(英語)
1冊
書籍の充実度(日本語)
Infinispanに特化した書籍はない
サポートの充実度
・Infinispanのサポートを提供しているベンダーは見つからず
・商用版JBoss Data Gridに対しては、複数のRed Hatパートナー企業がサポートを提供し、日本の企業も存在する
【日本】Red Hat KKおよびJBossパートナー各社
【海外】Red Hat, Inc. およびJBossパートナー各社
実績
掲載なし
ユーザコミュニティ
411件
https://community.jboss.org/en/infinispan
開発者コミュニティ
2454件
The infinispan-dev Archives
http://lists.jboss.org/pipermail/infinispan-dev/
歴史
2009年にJBoss Cacheとして開発が始められた
2012年6月 v6.0.0
2012年9月 v6.0.1
2013年3月 v6.1.0
2014年1月 v6.2.0
2014年4月 v6.2.1
商用ディストリビューションの有無
Red Hat, Inc. (Red Hat JBoss Data Grid)
OSSライセンス
Apache License Version 2.0
Copyright 2014 Japan OSS Promotion Forum
42
高速化キャッシュ/スケールアウト
[インメモリDG/分散KVS]
3-26. Redis
分析項目
調査観点
機能概要
インメモリ型のKVS
開発主体
Salvatore Sanfilippo氏
マイナーリリース回数
10回 (2.8系)
1回(2.6系)
パッチリリース数
特に提供されておらず、マイナーリリースで対応
ドキュメントの充実度(英語)
・プログラミングガイド、管理者ガイド、クラスタ構築ガイド、トラブルシュート、仕様書
http://redis.io/documentation
ドキュメントの充実度(日本語)
・管理者ガイド、ユーザガイド
http://redis.shibu.jp/
書籍の充実度(英語)
4冊
書籍の充実度(日本語)
1冊
サポートの充実度
・単一の企業がサポートを提供(海外)
【海外】 Pivotal, Inc. (Pivotal Japan)
実績
検証あり
ユーザコミュニティ
801件(スレッド数)
https://groups.google.com/forum/#!forum/redis-db
開発者コミュニティ
開発者用コミュニティは見つからなかった
歴史
Salvatore Sanfilippo氏によって2009年に公開されたインメモリベースのKVS
2010年3月にVMwareが同氏を雇い入れ、現在はEMCとVMwareが共同設立したPivotal社のもと開発中
マイナーバージョン番号が奇数のものはunstable版(例2.9.x)、偶数がstable版である
商用ディストリビューションの有無
Pivotal, Inc.
OSSライセンス
three clause BSD license
Copyright 2014 Japan OSS Promotion Forum
43
高速化キャッシュ/スケールアウト
[インメモリDG/分散KVS]
3-27. Riak
分析項目
調査観点
機能概要
分散KVS
開発主体
Basho Technologies
マイナーリリース回数
8回
パッチリリース数
特に提供されておらず、マイナーリリースで対応
ドキュメントの充実度(英語)
・開発ガイド、運用ガイド、コンセプト、FAQ、APIガイド
http://docs.basho.com/riak/latest/
ドキュメントの充実度(日本語)
存在を確認できず(Basho Japanのリンク先ドキュメントも英語)
書籍の充実度(英語)
1冊
書籍の充実度(日本語)
なし
サポートの充実度
・単一の企業がサポートを提供し、日本の企業も存在する
【日本】Basho Japan, 東京エレクトロンデバイス
【海外】Basho Technologies, Inc.
実績
掲載なし
ユーザコミュニティ
3379件
http://lists.basho.com/pipermail/riak-users_lists.basho.com/
開発者コミュニティ
開発者用のMLは確認できず
歴史
2012年2月 BashoがRiak 1.1リリースをアナウンス
2014年8月現在の最新版は1.4.8
商用ディストリビューションの有無
Riak Enterprise (Basho Technologies, Inc.)
OSSライセンス
Apache License Version 2.0
Copyright 2014 Japan OSS Promotion Forum
44
高速化キャッシュ/スケールアウト
[インメモリDG/分散KVS]
3-28. HBase
分析項目
調査観点
機能概要
Hadoop上で動作する列指向KVS
開発主体
Apache Software Foundation
マイナーリリース回数
12回
パッチリリース数
特に提供されておらず、マイナーリリースで対応
ドキュメントの充実度(英語)
・スタートガイド、APIガイド(User API, Developer API)、FAQ、Wiki
http://hbase.apache.org/
ドキュメントの充実度(日本語)
特になし
書籍の充実度(英語)
3冊
書籍の充実度(日本語)
1冊
サポートの充実度
・複数の企業がサポートを提供し、日本の企業も存在する
【日本】Cloudera Japan(日立ソリューションズ、新日鉄ソリューションズ, 伊藤忠テクノソリューションズ, ソフトバンク・
テクノロジー), NTTデータ, HP(HP Hadoop HBaseサービス)
【海外】Cloudera. Hortonworksなど
実績
導入多数
ユーザコミュニティ
7277件
http://hbase.apache.org/mail-lists.html
開発者コミュニティ
9223件
http://hbase.apache.org/mail-lists.html
歴史
2008/2 Hadoop 0.16.0にバンドルされる形でリリース
その後単独リリースに変わり、最新版は0.98.5(2014年8月現在)
商用ディストリビューションの有無
Cloudera Enterprise(Cloudera.) , HDP(Hortonworks)など
OSSライセンス
Apache License Version 2.0
Copyright 2014 Japan OSS Promotion Forum
45
データ分析
[機械学習]
3-29. Mahout
分析項目
調査観点
機能概要
Hadoop上で動作する機械学習ライブラリ
数十種類の学習アルゴリズムが提供されている
開発主体
Apache Software Foundation
マイナーリリース回数
2回 (0.8, 0.9)
パッチリリース数
特に提供されておらず、マイナーリリースで対応
ドキュメントの充実度(英語)
Overview, Quickstart, FAQ, Release Notes
https://mahout.apache.org/
ドキュメントの充実度(日本語)
ほとんど存在しない
書籍の充実度(英語)
2冊
書籍の充実度(日本語)
1冊
サポートの充実度
・商用ディストリビューションについては複数の企業がサポートを提供し、日本の企業も存在する
【日本】Cloudera Japan(日立ソリューションズ、新日鉄ソリューションズ)
【海外】Cloudera. Hortonworksなど
実績
掲載なし
ユーザコミュニティ
3148件
メーリングリスト https://mahout.apache.org/general/mailing-lists,-irc-and-archives.html
開発者コミュニティ
6492件
メーリングリスト https://mahout.apache.org/general/mailing-lists,-irc-and-archives.html
歴史
2009年4月: 初版0.1リリース
2014年2月: v0.9(2014年8月現在の最新版)
商用ディストリビューションの有無
Cloudera Enterprise(Cloudera.) , HDP(Hortonworks)など
OSSライセンス
Apache License Version 2.0
Copyright 2014 Japan OSS Promotion Forum
46
データ分析
[統計解析]
3-30. R
分析項目
調査観点
機能概要
統計解析向けのプログラミング言語及びその開発実行環境
開発主体
The R Foundation for Statistical Computing (http://www.r-project.org/)
マイナーリリース回数
4回 (3.0.0, 3.0.1, 3.0.2, 3.0.3)
パッチリリース数
開発者向けに、ほぼ毎日パッチが当てられた開発版ソースが公開されているが、利用は正式リリースバージョンを推奨して
いる
ftp://ftp.stat.math.ethz.ch/Software/R/
ドキュメントの充実度(英語)
・Manual, FAQ, Wiki
http://www.r-project.org/index.html
ドキュメントの充実度(日本語)
ほとんど存在しない(研究機関がボランティアで作成した関数ガイドやドキュメントが散在)
書籍の充実度(英語)
多数(20冊以上)
書籍の充実度(日本語)
多数(20冊程度)
サポートの充実度
・サポート企業はない(Rを活用したパッケージ製品等は存在)
実績
導入あり
ユーザコミュニティ
17743件
メーリングリスト [email protected]
開発者コミュニティ
2473件
メーリングリスト [email protected]
歴史
1997年、 ニュージーランドのオークランド大学のRoss Ihaka氏とRobert Clifford Gentleman氏により0.49をリリース
その後R Core Development teamによりエンハンスが続けられ、2014年8月時点の最新バージョンは3.1.1
商用ディストリビューションの有無
なし(統計パッケージ内やソリューションで利用されているケースは存在)
OSSライセンス
GNU General Public License Version 2, Version 3
Copyright 2014 Japan OSS Promotion Forum
47
データ分析
[BIツール]
3-31. Pentaho
分析項目
調査観点
機能概要
分析、レポーティング、ダッシュボード、ETL機能などを備えたBIツール
開発主体
Pentaho Corporation
マイナーリリース回数
1回 (年間1~2回 Stable版のみリリース)
パッチリリース数
なし
ドキュメントの充実度(英語)
・Wiki
http://wiki.pentaho.com/display/COM/Community+Wiki+Home
ドキュメントの充実度(日本語)
・製品説明資料、技術資料、導入事例(日本のPentaho代理店が日本語ドキュメントを公開)
http://www.pentaho-partner.jp/download/document.html
書籍の充実度(英語)
11冊
書籍の充実度(日本語)
0冊(BIをテーマにした関連書籍はある)
サポートの充実度
・商用ディストリビューションについては複数の企業がサポートを提供し、日本の企業も存在する
【日本】KSKアナリティクス、NRI
【海外】Pentaho Corporation他、パートナー数十社
実績
検証あり
ユーザコミュニティ
数千~1万件以上(コンポーネント別の合計)
ユーザフォーラム http://forums.pentaho.com/
開発者コミュニティ
157件
開発者フォーラム http://forums.pentaho.com/
歴史
2007年2月: 初版1.2.0-stableリリース
2009年1月: 2.0.0-stable
2009年5月: 3.0.0-stable
2012年5月: 4.5.0-stable
2013年11月: 5.0.1-stable
商用ディストリビューションの有無
Pentaho Enterprise (Pentaho Corporation)
OSSライセンス
GNU General Public License Version 2
Copyright 2014 Japan OSS Promotion Forum
48
3-32. JasperReports
データ分析
[BIツール]
分析項目
調査観点
機能概要
帳票およびBIツール
開発主体
Jaspersoft社(2014年4月に買収され、米TIBCO Software社の1部門となった)
マイナーリリース回数
5回
パッチリリース数
特に提供されておらず、マイナーリリースで対応
ドキュメントの充実度(英語)
・ユーザガイド、管理ガイド、Getting Started, Tutorial, FAQ, Configuration Reference, API Docsなど
http://community.jaspersoft.com/documentation?version=9036
ドキュメントの充実度(日本語)
・製品マニュアル(ワークブレインジャパンが公開)
http://jaspersoft.biz/resources/product-manual
書籍の充実度(英語)
7冊
書籍の充実度(日本語)
なし
サポートの充実度
・複数の企業がサポートを提供し、日本の企業も存在する
実績
導入あり
ユーザコミュニティ
3647件(スレッド数)
http://community.jaspersoft.com/answers
開発者コミュニティ
特になし
Bug Trackerは公開されている
http://community.jaspersoft.com/bug-tracker
歴史
2001年11月: v0.2.0
2005年7月: v1.0.0
2007年8月: v2.0.0
2008年5月: v3.0.0
2011年1月: v4.0.0
2012年11月: v5.0.0
2014年5月: v.5.6.0
商用ディストリビューションの有無
あり(Jaspersoft社)
OSSライセンス
GNU Lesser General Public License Version 3
Copyright 2014 Japan OSS Promotion Forum
49
データ分析
[定型業務RDB]
3-33. PostgreSQL
分析項目
調査観点
機能概要
リレーショナルデータベース
開発主体
PostgreSQLコミュニティ
マイナーリリース回数
10回
パッチリリース数
特に提供されておらず、マイナーリリースで対応
ドキュメントの充実度(英語)
・オンラインマニュアル、FAQ、Wiki
http://www.postgresql.org/docs/
ドキュメントの充実度(日本語)
・オンラインマニュアル(日本PostgreSQLユーザ会)
http://www.postgresql.jp/document/
書籍の充実度(英語)
多数
書籍の充実度(日本語)
多数
サポートの充実度
・複数の企業がサポートを提供し、日本の企業も存在する
実績
導入多数
ユーザコミュニティ
10000件以上
複数の分野別メーリングリストが存在し、pgsql-generalだけでも数百件/月の投稿
開発者コミュニティ
3500件 (pgsql-committersのみ)
主なメーリングリスト pgsql-committers
歴史
1986年 カリフォルニア州UCバークレー校のマイケル・ストーンブレーカー氏のプロジェクトが発端
2005年1月: v8.0
2010年9月: v9.0
2013年9月: v9.3
商用ディストリビューションの有無
PostgreSQLをベースに機能強化を図ったEnterpriseDB、PowerGresなどがある
OSSライセンス
PostgreSQL License
Copyright 2014 Japan OSS Promotion Forum
50
データ分析
[定型業務RDB]
3-34. MySQL
分析項目
調査観点
機能概要
用途に応じたストレージエンジンを選択できるリレーショナルデータベース
開発主体
Oracle
マイナーリリース回数
12回
パッチリリース数
特に提供されておらず、マイナーリリースで対応
ドキュメントの充実度(英語)
・リファレンスマニュアル一式(チュートリアル、サーバ管理者ガイド、SQL構文、ストレージエンジン、FAQなど)
http://dev.mysql.com/doc/
ドキュメントの充実度(日本語)
・5.1は日本語版マニュアルあり
http://dev.mysql.com/doc/refman/5.1/ja/
書籍の充実度(英語)
多数
書籍の充実度(日本語)
多数
サポートの充実度
・複数の企業がサポートを提供し、日本の企業も存在する
実績
導入多数
ユーザコミュニティ
1235件 (General Discussion, Cluster, Replication, Backup, InnoDB Storage Engineの合計)
http://lists.mysql.com/
開発者コミュニティ
28件 (Internalsフォーラムをカウント)
http://lists.mysql.com/
歴史
2001年1月:
2008年2月:
2010年1月:
2013年2月:
2014年8月:
商用ディストリビューションの有無
Oracle社MySQL Enterprise
OSSライセンス
GPLおよび商用ライセンスのデュアルライセンス
MySQL ABが最初のVersion 3.23をプロダクションリリース
サンマイクロシステムズ社がMySQL ABを買収
オラクル社がサンマイクロシステムズ社を買収
Version 5.6をリリース
MySQL 5.6.20
Copyright 2014 Japan OSS Promotion Forum
51
データ分析
[インメモリDB]
3-35. VoltDB
分析項目
調査観点
機能概要
PostgreSQLに携わったマイケル・ストーンブレーカーにより設計されたインメモリデータベース
スケーラビリティ、信頼性、高可用性、高スループットに重点を置いている
開発主体
VoltDB, Inc.
マイナーリリース回数
3系 : 8回
4系 : 1回
パッチリリース数
マイナーリリースで対応
ドキュメントの充実度(英語)
・リリースノート、チュートリアル、ユーザガイド、管理者ガイド、サイジングガイド、性能ガイド、Do's and Don'ts
http://voltdb.com/download/documentation/
ドキュメントの充実度(日本語)
なし
書籍の充実度(英語)
なし
書籍の充実度(日本語)
なし
サポートの充実度
・単一の企業がサポートを提供(海外)
実績
ランク外
ユーザコミュニティ
489件
https://forum.voltdb.com/forum.php
開発者コミュニティ
開発者用コミュニティは見つからなかった
歴史
2010年3月: 0.6.01リリース
2010年5月: 1.0.01リリース
2011年10月: 2.1リリース
2013年5月: 3.3リリース
2013年12月: 4.0リリース
2014年8月: 4.6リリース
商用ディストリビューションの有無
VoltDB, Inc.
OSSライセンス
GNU General Public License Version 3
Copyright 2014 Japan OSS Promotion Forum
52
3-36. Hinemos
運用管理・監視
分析項目
調査観点
機能概要
稼働監視機能、性能監視、ジョブ管理機能を持つ運用管理ソフトウェア
開発主体
NTTデータ
マイナーリリース回数
4回
パッチリリース数
特に提供されておらず、マイナーリリースで対応
ドキュメントの充実度(英語)
・ユーザマニュアル、インストールマニュアル、管理者ガイド
http://sourceforge.jp/projects/hinemos/releases/59480
ドキュメントの充実度(日本語)
・ユーザマニュアル、インストールマニュアル、管理者ガイド
http://www.hinemos.info/hinemos/getproduct
書籍の充実度(英語)
なし
書籍の充実度(日本語)
1冊
サポートの充実度
・複数の企業がサポートを提供し、日本の企業も存在する
NTTデータおよびパートナー各社
実績
導入多数
ユーザコミュニティ
36件
http://sourceforge.jp/projects/hinemos/lists/archive/mailing-list
開発者コミュニティ
開発者用コミュニティは見つからなかった
歴史
2004年 独立行政法人情報処理推進機構(IPA)の2004年度下期オープンソースソフトウェア活用基盤整備事業の委託
を受けて開発
http://ossipedia.ipa.go.jp/doc/101/
2006年3月: v2.0.0
2009年6月: v3.0
2012年4月: v4.0
2014年1月: v4.1.1
商用ディストリビューションの有無
NTTデータおよびパートナー各社より保守・導入・研修サービスが提供されている
OSSライセンス
GNU General Public License Version 2
Copyright 2014 Japan OSS Promotion Forum
53
3-37. Zabbix
運用管理・監視
分析項目
調査観点
機能概要
様々なネットワークサービス、サーバ 、その他のネットワークハードウェアのステータスを監視・追跡するための運用監視
ソフトウェア
開発主体
Zabbix SIA
マイナーリリース回数
43回 (Release Candidate版含む)
パッチリリース数
特に提供されておらず、マイナーリリースで対応
ドキュメントの充実度(英語)
・マニュアル、フォーラム、Wiki、ブログ、リリースノート
http://www.zabbix.com/
ドキュメントの充実度(日本語)
・マニュアル
http://www.zabbix.com/jp/documentation.php
書籍の充実度(英語)
2冊
書籍の充実度(日本語)
2冊
サポートの充実度
・複数の企業がサポートを提供し、日本の企業も存在する
実績
導入多数
ユーザコミュニティ
・メーリングリスト 220件
[email protected]
・ユーザフォーラム 数千件以上
https://www.zabbix.com/forum/
開発者コミュニティ
開発者用コミュニティは見つからなかった
歴史
アレクセイ・ウラジシェフ(Alexei Vladishev)氏によって作られ、現在は氏が設立したZabbix SIAによって開発が継続さ
れている
2004年3月: v1.0
2012年5月: v2.0
2014年5月: v2.2.3
商用ディストリビューションの有無
Zabbix SIA, Zabbix SIA JP他パートナー、 MIRACLE ZBX(Zabbixベースに改良した商用版)
OSSライセンス
GNU General Public License Version 3
Copyright 2014 Japan OSS Promotion Forum
54
3-38. ビッグデータ関連OSSシステム俯瞰図
商用ディストリビューションを追記したシステム俯瞰図
データソース
データ収集・検知
Webデータ
売上情報など
ビッグデータ蓄積・貯蔵・その他
並列分散処理
クローラ
Hadoop MR(CDH,HDP)
Hadoop YARN(CDH,HDP)
Spark(CDH)
ManifoldCF
Nutch
データ蓄積ファイルシステム
データロード
構造化データ
(業務RDB)
Sqoop(CDH,HDP)
Talend(Talend Open
Studio for Big Data)
収集
センサデータ
Fluentd
Flume(CDH,HDP)
準リアルタイムクエリ
Hadoop HDFS(CDH,HDP)
Lustre(Intel Enterprise Edition for
Lustre Software)
GlusterFS(Red Hat Storage Server)
Ceph(INKTANK CEPH ENTERPRISE)
Drill
Hive(CDH、HDP)
Impala(CDH)
データロード
Sqoop(CDH、HDP)
セキュリティ/認証
非構造化
データ
システムログ
音声
画像
解析ツール
機械学習
Mahout(CDH, HDP)
統計解析
R言語
分析/可視化ツール
BIツール
Pentaho
JasperReports
MIT Kerberos
OpenLDAP
分析用データ
CEP
Storm
Apache S4
Jubatus
Esper
Drools Fusion(JBoss BRMS)
データ分析
高速化キャッシュ/スケールアウト
インメモリDG/分散KVS
Cassandra
(DataStax Enterprise)
MongoDB
(MongoDB Enterprise)
Infinispan
(JBoss Data Grid)
Redis
Riak(Riak Enterprise)
HBase(CDH, HDP)
定型業務RDB
MySQL
PostgreSQL
(PowerGres,
EnterpriseDB)
インメモリDB
VoltDB
DWH・マートレスDB
OSSで著名なものはない
運用管理・監視
Hinemos
Zabbix(MIRACLE ZBX)
企業にて利用を検討する場合に重要な商用OSSディストリビューション/サポートサービスの有無もマッピングした。
また、ここには挙げないが各領域に商用製品も存在する。それらも含めて自社に最適な選択肢を検討すべきである。
Copyright 2014 Japan OSS Promotion Forum
55
4.考察とまとめ
Copyright 2014 Japan OSS Promotion Forum
56
4-1.コミュニティ活発度と導入実績マップ
実績
多
Hinemos
MySQL
Zabbix
導入実績多数
Esper
PostgreSQL
Hadoop
OpenLDAP
Ceph
HBase
Jasper
Reports
MongoDB
導入実績あり
Jubatus
Cassandra
R
GlusterFS
100件
500件
ユーザコミュニティ活発度
(投稿件数/年)
1000件
検証多数
不活発
活発
検証実績あり
Talend
Redis
Pentaho
Infinispan
S4
VoltDB
データ収集・検知
ビッグデータ蓄積・貯蔵・その他
Lustre
ランク外
少
MIT Kerberos
掲載なし
Drill
Mahout
Impala
Storm
Spark
Fluentd
Flume
高速化キャッシュ/分散KVS
ManifoldCF
Nutch
データ分析
Drools
Fusion
運用管理・監視
Copyright 2014 Japan OSS Promotion Forum
Sqoop
Hive
Riak
57
4-1.コミュニティ活発度と導入実績マップ
実績
多
Hinemos
MySQL
Zabbix
導入実績多数
Esper
PostgreSQL
Hadoop
OpenLDAP
Ceph
HBase
Jasper
Reports
MongoDB
導入実績あり
Jubatus
Cassandra
R
GlusterFS
100件
500件
検証多数
不活発
ユーザコミュニティ活発度
(投稿件数/年)
1000件
活発
普及
検証実績あり
Talend
Redis
Pentaho
Infinispan
S4
VoltDB
データ収集・検知
ビッグデータ蓄積・貯蔵・その他
Lustre
ランク外
進化
少
MIT Kerberos
掲載なし
Drill
Mahout
Impala
Storm
Spark
Fluentd
Flume
高速化キャッシュ/分散KVS
ManifoldCF
Nutch
データ分析
Drools
Fusion
運用管理・監視
Copyright 2014 Japan OSS Promotion Forum
Sqoop
Hive
Riak
58
4-2.考察
新技術ウォッチ領域
• かつてGoogle発のMapReduce論文が、Hadoopとして実装され広まったように、
Web企業発の新技術がOSSとして出現する領域。(Drill, Giraphなど)
• Apache Incubatorプロジェクトの動きをウォッチしておくのも一つの手段。
先行検討/アーリーアダプト領域
• 新技術として生まれたOSSが進化し、現在はビッグデータ関連OSSの多くがこの
領域に位置する。
• 実績は少ないが、その分、他社に先んじて活用すれば、自社ビジネスの差別化/
競争力強化に繋がる可能性がある。
• 開発は非常に活発で、新機能追加やアップデートも早い。しかし一方で、その進
化のメリットを享受するには、動きにキャッチアップしていく体制や技術力も必要と
なる。
• 商用ディストリビューションベンダーが存在するならば利用も選択肢のひとつ。
エンタープライズ適用領域
• ほぼ安定して利用することが可能。
• ほとんどのOSSについて、商用ディストリビューション/商用サポートベンダーが存
在するため、コストや信頼性を勘案の上活用する。
Copyright 2014 Japan OSS Promotion Forum
59
4-3.マイナーリリース回数マップ
0~3回
Flume
4~6回
Sqoop
Drill
Fluentd
Nutch
Esper
Spark
Drools
Fusion
GlusterFS
ManifoldCF
13回以上
Jubatus
Talend
Storm
7~12回
Lustre
Hive
Hadoop
OpenLDAP
Impala
Riak
Infinispan
R
Ceph
Kerberos
Redis
Cassandra
Jasper
Reports
HBase
MongoDB
PostgreSQL
Pentaho
Mahout
Hinemos
MySQL
Zabbix
VoltDB
少




マイナーリリース回数
エンハンスが少ないため安定して利用しやすい
開発が活発でないケースがある(生まれたばかりの
OSS/枯れたOSS)
修正版発行までの期間が空く場合がある
ベンダー開発主導で、意図的に安定版のみリリー
スしているため、回数が少ない場合もある




多
エンハンスが活発であり、進化スピードが速い
開発速度にキャッチアップしていくには、活用
の仕方や体制の準備が必要
不具合対策が速い
品質の善し悪しについては見極めが重要
Copyright 2014 Japan OSS Promotion Forum
60
4-4. 分野別考察
分野名
データ収集・検知
ビッグデータ蓄積・貯蔵・その他
考察
クローラ
分散処理でクロールを行うのであればHadoopと親和性のある
Nutchを検討が考えられるが、あまり大規模なものでなければ
ManifoldCFや各種フレームワークの使用も可能。
ただ、Nutchの場合はリリース頻度が少なく、ManifoldCFの場合
はユーザコミュニティのメール件数が少なく、注目度が高い領域
とは考えにくい。
データロード
Talend、Sqoopともにデータロードにおいて有効なツールであり、
利用用途に応じて使用の判断をするべき。
CEP
Drools Fusion、Esperに関しては開発歴史があり、商用ディストリ
ビューションもあるため安定していることが考えられるが、その他
に関しては商用ディストリビューションもなく、0系のバージョンで
あることから発展中の分野と考えられるため、商用導入は十分
な検証を行った方がよいと思われる。
収集
データ蓄積先との親和性を考慮し、使用するOSSを選択する必
要がある。
並列分散処理
分散処理としてはYARNが基盤になりつつあり、その上でSparkな
どの新しい分野が台頭しはじめているが、商用として安定して導
入するにはもう少し成熟する時間が必要と考えられる。
データ蓄積ファイルシステム
どの分散ファイルシステムも開発歴史があり、商用サポートも存
在するため、適応領域の判断が選択のキーとなる。
準リアルタイムクエリ
各社開発競争を行っている状況であり、発展中の技術領域であ
るため商用導入には適応ケースの検討をはじめ、十分な検証が
必要と考えられる。
セキュリティ/認証
開発歴史も古く、枯れた領域であるためMIT Kerberos、
OpenLDAPともに商用導入のリスクは低いと考えらえる。
Copyright 2014 Japan OSS Promotion Forum
61
4-5. 分野別考察
分野名
考察
高速化キャッシュ/スケールアウト
インメモリDG/分散KVS
大きく「NoSQL」「NewSQL」と括られているが、それぞれ特性が異
なる。例えば、Consistency(一貫性)を犠牲にしていたり、SQL利
用の可否など、従来のRDBを想定していると問題に突き当たる
場合がある。よって、自社利用する場合には、課題と目的を整理
したうえでの事前検証が重要と考える。
データ分析(解析ツール)
機械学習/統計解析
OSSではMahout, Rがほぼデファクトスタンダード化している。関
連書籍も多数存在するため、利用するにはほとんど支障はない
と考える。むしろ「何をどう分析して何を得るか」を検討することが
課題となる。
データ分析(分析/可視化ツール)
BIツール
この分野で著名なPentaho, JasperReportsは、実質商用ディスト
リビューションベンダーが開発しているため、企業利用において
はコミュニティ版、商用版の双方を検討すべきだろう。
分析用データ
定型業務RDB
MySQL, PostgreSQLについては、開発の歴史も長く、商用製品
にも引けを取らない部分が多い。ただし、ビッグデータを取り扱う
場合には、運用管理や性能の事前検証を行うことを推奨したい。
インメモリDB
比較的新しい分野であり、また商用製品にもインメモリDBは多数
存在する。用途、コスト、信頼性、サポート力などを総合的に勘
案して、OSSの採否を検討すべきである。
DWH・マートレスDB
OSSにDWHを謳っているものは存在しなかった。本格的なDHW
は、商用製品に一日の長があると考える。
運用管理・監視
データ量/サーバ台数が増え、業務システムで本格利用する段
階になると運用管理が必須となる。また、既存システムと統合し
た管理が必要なケースもあるだろう。既に利用している運用管理
ツールとの親和性や連携可否の検討が必要と考える。
システム全体
Copyright 2014 Japan OSS Promotion Forum
62
4-6. まとめ






ビッグデータ関連OSSについては、それぞれの進化はもちろんのこと、OSS間の連携機能
や組み合わせた使い方が増加している。今回、ビッグデータの生成から分析まで、システ
ム全体像を俯瞰した実態を明らかにした。
ビッグデータ関連OSSの企業への導入実績は、LinuxやTomcat等の伝統的なOSSと比較
して、まだ少ない状況である。(ただしベンダー企業へのヒアリング調査結果)
しかし、多くのコミュニティは活発で、新機能や不具合修正が盛り込まれたバージョンが
次々とリリースされている実態が把握できた。さらに、その実態の捉え方に対する一見解
を示した。
かつて、Google社のMapReduce, BigTableからApache Hadoop, HBaseがOSSとして実
装され普及した。さらに、Apache Giraph(Google Pregelの実装), Apache Drill(Google
Dremelの実装)なども現れている。
その意味で、商用製品の後追いで進化してきたOSやRDBMSと異なり、「ビッグデータ領
域はOSSが切り拓いていく」と捉えることもできる。ウェブ企業発のテクノロジーには今
後も注目要と考える。
Hinemos、Jubatusなどの日本発OSSについては、実績はあるがメーリングリストに投稿
される件数をもとにしたコミュニティ活発度は世界的なOSSと比較すると少ない傾向にあ
る。この点は日本発OSSの課題と考えられる。
Copyright 2014 Japan OSS Promotion Forum
63
4-7. ユーザ、ベンダーへの提言
【ユーザへの提言】

OSSの中でも、ビッグデータ関連OSSは、進化がとりわけ速いことが今回
確認できた。これはユーザ企業にとってメリットとデメリットの双方をも
たらす。



世界中の開発者の叡智を注ぎ込んだOSSの進化を、ITシステムの適材適所
に活用することで、ビッグデータから新たなビジネス価値を生み出し、多
くのメリットを得られるだろう。
しかし、最先端に追従していくための技術力、スピード、新機能追加に
伴って発生する不具合や互換性問題への対応も必要となる。
また、マニュアルの整備が追いついていない、あるいは記載されていない
注意事項等もあり、コミュニティのQ&A対応などは不具合解決の重要な情
報ソースとなる。場合によっては、ソース解析力も必要だろう。使用する
OSSを選定する上で考慮すべき要素と考える。
【ベンダーへの提言】

もはやOSS単体では、ビッグデータシステムは構築できない。OSSシステ
ム全体像とそれぞれの特長をつかむ「目利き力」、お客様に対する適材適
所の「提案力」、構築・サポートサービスや付加価値を提供できる「技術
力」が問われる。
Copyright 2014 Japan OSS Promotion Forum
64
本資料の内容、表記に関する誤り、ご要望、ご感想、質問などにつきましては日本OSS推進フォー
ラムクラウド技術部会のメールを通じてお寄せいただきますようお願いいたします。
メールアドレス:[email protected]
その他、本資料に記載されている社名及び商品名はそれぞれ各社が商標または登録商標として使
用している場合があります 。
Copyright 2014 Japan OSS Promotion Forum
65
Copyright 2014 Japan OSS Promotion Forum
Fly UP