Comments
Description
Transcript
Teradata Warehouse Miner
APPLICATION Teradata Warehouse Miner 13.03 TDMK 3A31 Teradataデータベース内部ですべての処理を行う データマイニング・ソフトウェア 膨大なデータから隠れたパターンを発見し、事象の発生確率予 構築、そしてモデリング/スコアリングに至るすべてを、Teradata 測や、分類を導き出すデータマイニング。Teradata Warehouse データベースの内部でSQLを用いて処理する点です。これにより、 Miner は、データのプロファイリングからデータの事前準備、そ 以下のような効果を得ることが可能です。 して分析モデルの構築、スコアリングに至るデータマイニングの 全プロセスを、Teradata データベース内部(In-Database)で行 データ移動が不要 うソフトウェアです。すべての処理を Teradata データベース内部 データプロファイリング、データ準備、モデリング、スコアリング で行うことにより、効率的なデータマイニングを実現します。 の全プロセスにおいてデータの移動やダウンロードが不要です。 これによりデータの一元性を維持し、冗長性を排除することが可 データウェアハウスに存在するデータは、非常に多岐にわたり、 能となり、コンピューター資源の有効活用とデータの一貫性を維 また膨大な量になります。企業はデータウェアハウスを構築し、 持することが可能となります。 レポーティングや多次元分析ソフトウェアをユーザーに提供するこ はこのような環境を利用してデータにアクセスし、自らが把握した Teradata データベースのパフォーマンスと 拡張性を活用 い事実を理解し、業務に役立てることが可能です。しかしながら 並列処理に優れ、大規模に拡張できる Teradata データベースの 膨大な量になり、非常に多岐にわたるデータの中には、まだユー コンピューター資源を、SQL を利用して最大限に活用することが ザーが気付いていないパターンが眠っています。データマイニン 可能です。 とによって、データにアクセス可能な環境を提供します。ユーザー グは、このようなパターンを導き出す手法です。一方、従来から のデータマイニングは、サンプル抽出したデータを対象とした実 分析生産性 行に制約され、非常に冗長的なプロセスに囚われてきました。こ データ移動が不要で、Teradata データベースのパフォーマンスを のような制約から、業務上適用可能なすべての課題に対して、デー 最大限に利用できることから、変数候補の吟味(プロファイリン タマイニングを適用させることができませんでした。 グ)、ADS の構築、そして分析における時間的な生産性が大幅に 改善します。 Teradata Warehouse Miner は、このような課題に対処します。 Teradata データベースのパフォーマンスと拡張性、そしてデータ Teradata データベースのデータを活用 ウェアハウス内に存在している全データを活用可能なデータマイ Teradata データベース内に存在する、データウェアハウス上に一 ニング・ソフトウェアです。サンプルではなく、すべてのデータを 元管理されたデータがすべて利用可能であるため、より広範な変 処理することを想定して設計され、全社規模でデータマイニング 数の利用と、サンプルではない全量データを対象としたデータマ から得られる知識を活用できるよう開発されました。例えばすべ イニングが可能となります。 ての顧客に対して、すべての提案商品候補の購入確率を算出し、 確率を比較して提案商品を決定するような大規模かつ高負荷で、 モデル精度の改善 しかしながら価値の高い処理を遂行することが可能です。 分析生産性によって、モデリングにおける反復的なトライアン データマイニングという名前は、鉱山から鉱物資源を採掘すること ドエラーのサイクルを短 縮することが可能となり、これに加え をその由来としています。人間が採掘工具を使って地道に、細々と行 て Teradata データウェアハウスの広 範な全 量データを活用 われる採掘から、ブルドーザーと大規模な採掘機械を用いて行われ することによって、モデルの精度を改善することが可能です。 るデータマイニングへ。 Teradata Warehouse Miner がもたらすデー タマイニングは、そんなパワフルで現代的なデータマイニングです。 In-Database 処理 SQL とデータベーステーブル スコアリングは SQL で記述され、スコアリング結果はデータベー ステーブルにて蓄積されます。これによって、他のアプリケーショ Teradata Warehouse Miner の大きな特徴は、 データのプロファ ンとの統合、連携が容易となります。データの活用を行うまでの イリングからADS(Analytical Data Set:分析データセット)の コストと手間を大幅に削減できます。 APPLICATION 13.03 TDMK 3A31 全社利用型の大規模分析データセット モジュール構成 Teradata Warehouse MinerのADS構築機能により、企業はユー Teradata Warehouse Miner は大きく、以下 4 つのモジュールで ザーがそれぞれにADS を構築するのではなく、 企業全体で共通の大 構成されています。4 つのモジュールは、データマイニングに必 規模な ADS を構築することが可能です。それぞれのユーザーはデー 要なプロセスを単一の GUI から遂行可能になるよう、共通の操作 タマイニングに利用する変数をそれぞれ独自に作成し、データウェ 環境で統一されています。 アハウス上のデータから作成しますが、 その多くが重複していること があります。これは、変数を作成するに際しても、作成された変数を更 新していくにしても、企業全体では大きな無駄が発生していることに なります。また、 あるユーザーが開発した変数のアイデアが、 他のユー ザーに共有されるには、ユーザーの自発的な共有が必要です。 − Teradata Profiler :基礎統計などデータベース内の各データ をプロファイリングし、品質調査を行う機能。 − Teradata ADS Generator :データマイニング分析に用いる ADS の構築、および ADS を構成する変数を作成する機能。 全社利用型のADSを構築し、常に最新状態に維持していくことによっ − Teradata Warehouse Miner :各種の分析アルゴリズムを用い て、データマイニングユーザーは、ADS 作成の手間から解放され、モ たモデリング / スコアリング機能、並びに統計的検定機能を デリングに集中することが可能となります。また構築された ADS を 提供。 変数カタログとして利用することにより、ユーザーは自分には思いつ − Teradata Model Manager :作 成した SQL モ デル、 および かなかった変数を候補として利用することが可能となります。もちろん ADS 作成処理(SQL)を登録し、スケジュール設定して定期 定期的に変数を追加し、ADS そのものを拡張していくことも可能です。 的に実行する機能。 モジュールと機能 Teradata Profiler データのプロファイリング 統計分析 値分析 最小値、最大値、平均値、分散、標準偏差、歪度、尖度等の単一変数に関する代表値を計算、 箱ひげ図を表示 単一変数に関する正の値、負の値、ヌル値、0 値等の件数、割合を計算 頻度分析 カウントを示す変数の分布を決定、単一もしくは 2 変数の棒グラフで表示 度数分析 数値型の変数を度数に基づきグループ化し、グループ毎に単一もしくは 2 変数の棒グラ フで表示 相関行列 変数間の相関係数を計算、行列表示 オーバーラップ 散布図 データ エクスプローラー テーブルの組み合わせにおいて、オーバーラップするカラム値をカウント 2 もしくは 3 変数の分布を散布図で表示 複数変数に対して、統計分析、値分析、頻度分析、度数分析を一括で実行し表示 Teradata ADS Generator テーブル操作 結合(ジョイン) 併合(マージ) 線形回帰分析 ロジスティック回帰分析 因子分析/主成分分析 クラスター分析 変数作成、変換 独立変数に基づき、2 値の変数を予測(確率値を算出) 、リフトチャートを表示 変数グループを記述するために必要な変数の個数を縮約、因子パターンおよびスクリープ ロットを表示 数値およびそれらの分散に基づいて、類似の特性を持つグループに分割、サイズ、距離、 および類似性チャートを表示 デシジョンツリー分析 カテゴリーおよび数値型の独立変数に基づいて変数を予測、樹形図を表示 アソシエーション分析 アイテム間の関係と、時系列の順序に基づいたアイテム間の関係を分析、タイル図を表示 Kolmogorov-Smirnov 検定 共通のカラム構成、異なるデータサンプルのテーブルを、単一テーブルに併合 テーブルから、件数、もしくは割合を指定してサンプル抽出 独立変数の線形結合に基づき、結果変数の値を予測、散布図を表示 統計的検定 異なるカラム、共通のデータサンプルを有するテーブルを、単一テーブルに結合 分割(パーティショニング) テーブルを、ハッシュキーを用いて複数テーブルに分割(本番用、学習用等) サンプリング Teradata Warehouse Miner モデリング/スコアリング - Kolmogorov-Smirnov 検定 - Lilliefors 検定 - Shapiro-Wilk 検定 - D’Agostino-Pearson 検定 - Smirnov 検定 順位検定 - Mann-Whitney/Kruskal Wallis 検定 - Wilcoxon 符号付順位検定 - Friedman 検定 二項検定 - 二項検定 - 二項符号検定 変数作成 集約関数(合計、平均、最小、最大、カウント等)、算術関数(四則演算)等の関数、比 較演算子等を利用した変数作成 変数変換 変数を変換ルール(階級コード化、派生コード化、デザインコード化、再コード化、範 囲変換、ヌル変換、シグモイド変換、Z スコア変換)に基づいて変換 分割表に基づく検定 - カイ二乗検定 - メディアン検定 パラメトリック検定 - T 検定 - F 検定/一元配置 - F 検定 /N 元配置 非正規化 カラム内の値に基づいて、横持ちの形式にカラムを展開 ADS 構築 複数の変数を結合、単一の ADS を構築 ADS 更新 開発用途、もしくは以前に作成した ADS を、本番もしくは最新の値に更新 その他の機能 行列関数機能 ユーザー定義 SQL PMML モデル 相関行列、共分散行列、平方和積和行列を計算、作成 任意の SQL を書き込み、実行 他のデータマイニングツールにて構築した PMML(Predictive Model Mark-up Language) 形式のモデルをインポートし、Teradata データベース内部で実行 Teradata Model Manager モデルの展開 モデルのアップロード パラメーター設定 スケジュール設定/実行 作成したモデル SQL、および ADS 作成用の SQL を登録 スコア出力テーブル等のパラメーター等、モデル展開用の設定 登録されたモデル SQL、および ADS 作成用 SQL の実行頻度、期間等を設定、設定スケ ジュールに基づいて実行 テラデータ製品に関する情報やお問い合わせは ・Teradataは、Teradata Corporationの登録商標です。本文中の社名、製品名は各社の商標または登録商標です。・本文中に記載されている製品情報は、予告なく変更する場合がありますのでご了承下さい。 ・このカタログの記載情報は、2013年3月現在のものです。 2013