Common Lisp 言語処理系におけるインテル Xeon5100の評価

by user

on 28 марта 2017

Category: Documents

>> Downloads: 2

views

Report

Comments

Description

Download Common Lisp 言語処理系におけるインテル Xeon5100の評価

Transcript

Common Lisp 言語処理系におけるインテル Xeon5100の評価

愛知教育大学研究報告，
Common Lisp 言語処理系におけるインテル
５
７（自然科学編）
，pp.２
Xeon５
５∼２
９
１
０
,０
March,２
の評価００
８
Common Lisp 言語処理系における
インテル Xeon５１
０
０の評価
安本太一
情報教育講座
Evaluation of Intel Xeon５
１
０
０on a Common Lisp System
Taichi YASUMOTO
Department of Information Sciences, Aichi University of Education, Kariya ４
４８-８５４２, Japan
１はじめに
筆者らは，Kyoto Common Lisp（以下 KCL という）
［１，
２，
３］を対象に，Lisp 言語処理系の性能向上や機
能向上のため，即値データ［４］の実装や６
４ビット化
（６
４ビット環境への対応）
［５，
６］をしてきた。即値デー
タの実装は１
９
８
９年，６
４ビット化は２
０
０
４年であった。こ
れらの対応をしてから，今日にいたるまでの間に，コ
ンピュータのハードウェアは変化している。例えばメ
モリ転送速度や６
４ビット環境の性能は，これらの対応
をした当時の前提は，今日のそれとは異なっている。
図１
そこで，最近の一般消費者向けパーソナルコン
KCL における Lisp のデータオブジェクトの表現（３２
ビット環境の場合）
ピュータで使用されているプロセッサとして，IBM
PowerPC９
７
０と Intel Xeon５
１
０
０（Woodcrest, Intel Core
・ヒープ割当が不要なので，オブジェクトの生成が高
２Duo と同じ Intel Core マイクロアーキテクチャーを
採用）を選び，KCL をポーティングし即値データや
速になる。
・オブジェクトを得るために，ポインタをたどる必要
６
４ビット環境への対応を行い，その性能評価実験を
行った。そして，プロセッサの性質によって，即値デー
がなく，メモリアクセスが減る。
・コーディングされたそのままの形で等号や大小比較
タの実装や６
４ビット化が，Lisp 言語処理系の性能に
どのような影響を与えるのかを考察した。
ができる場合は，高速化が期待できる。
即値データの短所は，次の通りである。
・ポインタ内に，データ型チェックのためのタグを用
２過去の研究
意するので，そのタグのビット数分だけ，数値を表
すデータの精度が落ちることがある。
過去に行われた即値データの実装と６
４ビット化につ
・データ型チェックが複雑になるため，システム全体
いて，簡単に説明する。
が遅くなる。
２．
１即値データの概要
・ポインタ内におけるコーディング表現と，加減乗除
Lisp のオブジェクトは，通常オブジェクトへのポ
などの演算時における表現の間の変換と必要とす
インタで参照されるが，ポインタ内に直接オブジェク
る。
トをコーディングする方法があり，このようにコー
ディングされたオブジェクトを即値データという（図
２．
２即値データの性能
サンマイクロシステムズ社の Sun３（CPU は６
８
０
２
０
１参照）
。
１
６MHz, OS は BSD UNIX 系の SUNOS４）や松下電器
即値データの長所は，次のとおりである。
・実質上メモリを消費しないので，ごみ集めの対象と
ならない。
産業社の Panasonic BE（CPU は８
０
３
８
６１
６MHz, OS は
System-V UNIX 系の BE OS）を用いた性能評価実験で
―２
５―
安本太
一
は，固定長整数（fixnum）の即値データを多用する評
価用プログラムではオリジナルの KCL と比べて実行
時間が約３分の１に減少，即値データを全く使わない
評価用プログラムではオリジナルの KCL と比べて実
行時間が１．
０
９倍から１．
１
６倍になるという結果が得られ
た。このときの評価用プログラムは，即値データによ
る速度向上やオーバーヘッドを計測することに重点を
おいたループのプログラムである。ループ変数に固定
長整数を使い，本体は変数に固定長整数の０を代入す
る代入式だけといった簡単なものである。実行時間の
計測は，Lisp のプログラムをコンパイルしてから行
図３６４ビット環境下のオブジェクトの表現
われた。生成されたコードは，ループは C 言語の if
文と goto 文によって実現され，ループの制御変数に
２．
４６
４ビット化の性能
Lisp のデータ（即値データを実装した場合は即値デー
サンマイクロシステムズ社の Ultra １
０（CPU は Ultra
タ，オリジナルの KCL の場合はポインタによって参
SPARCIIi ３
３
３MHz，メインメモリ２
５
６MB，内部命令
照されるオブジェクト）が使われる。
キャッシュ１
６KB，内部データキャッシュ１
６KB，外部
この結果からは，即値データ実装によるオーバー
キャッシュ２MB，OS は Solaris９）
，アップル社の Pow-
ヘッドはあるが，即値データを使用するときは（この
erMac G５（CPU は PowerPC ９
７
０２GHz×２，
メイン
オーバヘッドを補って）速度向上が期待できることが
メモリ２GB，１次命令キャッシュ６
４KB，１次データ
わかった。
キャッシュ３
２KB，２次キャッシュ５
１
２KB，OS は Ma-
２．
３６
４ビット化の概要
ボナッチ数の計算（fib ３
０）と階乗の計算（fact １
０
０
０
０）
cOSX １
０．
４ Tiger）を用いた性能評価実験では，フィ
６
４ビット化は，利用できるアドレス空間が６
４ビット
のプログラムを用いた。フィボナッチ数の計算では，
になるように，Lisp オブジェクトを指すポインタが
固定長整数の演算と関数呼出しを多数行う。一方，階
６
４ビットになるようにして行われた。あわせて，即値
乗の計算では，無限長整数の計算が支配的になる。
データも６
４ビットのポインタ幅を生かすように，拡張
これらのコンピュータの OS 上では，３
２ビット環境
された（図２，
図３参照）
。これによって，大量のメモ
用実行形式の KCL と６
４ビット環境用実行形式の KCL
リを必要とするアプリケーションプログラムを Lisp
を，OS のモード切替なしに動作させることが可能で
言語で開発することが可能になった。大量のメモリを
ある。フィボナッチ数と階乗の Lisp プログラムは，
必要としない場合でも，KCL とリンクするライブラ
実行時間を計測する前に，コンパイルした。
リが６
４ビット版しか提供されない場合があれば，KCL
の６
４ビット環境への対応が必要となる。
結果は，フィボナッチ数の計算では，６
４ビット環境
は，Ultra １
０と PowerMac G５の双方において，３
２ビッ
ト環境の場合より実行時間が１
０％程度増加し実行効率
が低下した。一方，階乗の計算では，６
４ビット環境は
３
２ビット環境の場合より，Ultara １
０においては実行時
間が２．
８
８倍となり実行効率が低下し，PowerMac G５
では実行時間が０．
７
６倍と実行効率が向上した。
６
４ビット環境では，命令長が増加する，扱うデータ
やポインタの大きさが倍増するなどのオーバーヘッド
により，キャッシュの効果が半減するなどの理由で，
実行効率が低下されることが予想されたが，フィボ
図２６
４ビット環境下のコンスセルの構造
ナッチ数の結果を見る限り Ultra １
０と PowerMac G５
さらに，無限長整数（bignum）の演算の速度向上
においてまさにそのとおりになった。一方，階乗では，
を目的とし，無限長整数の内部表現を，３
２ビットの整
PowerMac G５は実行効率が向上したが，Ultra １
０は
数を連結した表現から，６
４ビットの整数を連結した表
実行効率が大幅に低下した。Ultra １
０はメモリアクセ
現に拡張した。無限長整数の演算を６
４ビット単位で行
ス速度が遅いため，無限長整数を構成する bignum セ
うことにより，３
２ビット環境のときよりも，無限長整
ルへのアクセスに時間がかかるため，６
４ビット単位の
数の演算の計算量が減少するからである。
演算を行っても速度向上が得られない。一方，Ultra
１
０より約５倍ほどメモリ転送速度が速い Power Mac
G５は，６
４ビット単位の演算による速度向上の効果
―２
６―
Common Lisp 言語処理系におけるインテル Xeon５
１
０
０の評価
が，６
４ビット環境におけるオーバヘッドを上回った。
３今回の性能評価実験の環境
今回の実験に用いたコンピュータは，アップル社製
の PowerMac G５と MacPro である。PowerMac G５は，
CPU が PowerPC ９
７
０２．
５GHz×４，１次キャッシュが
命令用６
４KB データ用３
２KB，２次キャッシュが１
MB，OS が MacOS X １
０．
４ Tiger である。MacPro は，
CPU は Xeon ５
１
０
０２．
６
６GHz×４，１次キャッシュが命
令用３
２KB データ用３
２KB，２次キャッシュが４MB，
OS は MacOSX １
０．
４ Tiger である。
つまり，CPU アーキテクチャーが異なる他は，ほ
ぼ同一の条件である。Xeon ５
１
０
０はインテル社製の
CPU であることから，PowerPC ９
７
０とあわせると，一
図４ PowerPC ９
７
０と Xeon ５１
０
０のメモリ転送速度
般の利用者向けのコンピュータの CPU はほぼ網羅し
たことになる。KCL のコンパイルおよび，KCL のコ
の代入文の繰返しによって行う３
２ビット実行形式を用
ンパイラで使用する C 言語コンパイラは，どちらも
いた場合と同様のメモリ転送速度を示した。
gcc バージョン４．
０
１である。
４ KCL の Xeon ５
１
０
０への対応
これらのコンピュータ上での KCL の性能評価を行
うにあたり，メモリ転送速度を計測した。その結果を，
PowerPC ９
７
０への対応は過去の研究［５］で既に行
図４に示す。３
２ビットというのは，データの転送を int
われているが，Xeon ５
１
０
０で KCL を動作させるため
（３
２ビットの整数）の代入文の繰返しによって行う３
２
には KCL のソースコードを変更する必要があった。
ビット実行形式を用いて計測したものである。６
４ビッ
Xeon ５
１
０
０はリトルエンディアンであるため，エン
トというのは，データの転送を long int（６
４ビットの
ディアンに依存する部分は，ビックエンディアン Pow-
整数）の代入文の繰返しによって行う６
４ビット実行形
erPC ９
７
０用の KCL から変更する必要があった。
６
４ビッ
式を用いて計測したものである。メモリ転送速度を計
ト環境への対応，すなわちポインタの拡張，アライン
測する C 言語プログラムを gcc でコンパイルするに
メントの変更などは，PowerPC ９
７
０における経験を生
あたって用いた最適化オプションは，―O である。最
かすことができた。Xeon ５
１
０
０固有の事情で特に変更
適化オプションによってメモリ転送速度の実験結果は
を要したのは，ヒープの管理に関する部分であった。
変化することから，今後の性能評価実験のことを考え，
MacOSX の Xeon ５
１
０
０の６
４ビット環境下では，ヒープ
KCL をコンパイルするときの gcc や KCL のコンパイ
がおおよそ１
０
０
０
０
０
０
０
０番地（１
６進数表記）からと高位
ラが呼び出す gcc の最適化オプションも，この―O に
揃えた。
図４を見る限り，総じて，Xeon ５
１
０
０の方がメモリ
転送速度は速い。６
４ビットの方が，３
２ビットより，メ
モリ転送速度は速い。PowerPC ９
７
０と Xeon ５
１
０
０とも
に，２次キャッシュのサイズを越えるあたりで，転送
速度は落ち込んでいる。Xeon ５
１
０
０の方が，メモリ転
送速度が速いのは，スマート・メモリ・アクセスによ
るところが大きいのかもしれない。PowerPC ９
７
０と
Xeon ５
１
０
０ともに，６
４ビットにおいて，メモリサイズ
が少ないところでは伝送速度が安定していないのは，
転送速度計測時の誤差が原因であると考えられる。メ
モリサイズが小さいところではメモリ転送時間が非常
に小さくなっているため，メモリ転送速度を算出する
ときの分母が小さくなっている。
試しに，データの転送を long int （６
４ビットの整数）
の代入文の繰返しによって行う“３
２ビット”実行形式
を用いてメモリ転送速度計測した場合は，PowerPC と
Xeon ともに，データの転送を int（３
２ビットの整数）
―２
７―
図５評価用プログラム
安本太
一
から始まる。オリジナルの KCL はヒープが０番地近
６実験結果の考察
くから始まることを仮定していたので，メモリ管理関
係のコードを修正する必要があった。
PowerPC ９
７
０の結果をみると，フィボナッチ数の計
PowerPC ９
７
０の場合とオペレーティングシステムが
算では，３
２ビット版においては，即値データを使う場
同じであるので，Xeon ５
１
０
０になってもシステムコー
合は，実行時間が０．
８
３倍ほどになっており，実行効率
ルやライブラリを使用している部分の修正は必要な
が向上している。以前の即値データの研究［４］の実
かった。
験より，実行時間短縮の割合が少ないが，今回の実験
では関数呼出しなどの時間が含まれていて相対的に即
５性能評価実験
値データが寄与する割合が減っていることを考慮する
同じ Lisp プログラムを，PowerPC ９
７
０上と Xeon
必要がある。それでも，実行時間の短縮に結び付いて
５
１
０
０上の KCL 上で実行し，その実行時間を計測した。
いるので，即値データの効果は実用的であると考えら
PowerPC ９
７
０と Xeon ５
１
０
０のそれぞれには，さらに，
れる。
即値データあり３
２ビット版，即値データなし３
２ビット
即値データを使う場合において，６
４ビット版は，３
２
版，即値データあり６
４ビット版を用意した。したがっ
ビット版に比べて実行効率が低下しているのは，関数
て，全部で６つの KCL の実行ファイルを用意した。
呼出しなどプログラムの制御に関わるコストが６
４ビッ
即値データなしの６
４ビット版は，用意しなかった。２
ト環境になって増えていることが影響しているものと
バイト表現の文字データを処理系にあらかじめ全て登
思われる。
３
２ビット版の階乗の計算では，即値データありの場
録するかどうか（KCL のソースプログラムでいう
character_table をどうするか）
，絶対値が比較的小さい
合は即値データなしの場合と比べて実行時間が０．
９
７倍
整数をどの範囲まであらかじめ登録しておくか（KCL
と実行時間が若干減少しているが，フィボナッチ数の
のソースプログラムでいう small_fixnum_table をどう
場合ほど実行時間に減少がさほどみられず，ほぼ同じ
するか）といったことを，検討する必要があったから
である。これは，無限長整数の掛け算が支配的だから
である。
であろう。
評価用プログラムは，図５に示すように，
フィボナッ
６
４ビット版の階乗の計算では，整数演算を６
４ビット
チ数を求めるプログラムと階乗を求めるプログラムで
単位で行うことの速度向上が，プログラムの制御に関
ある。フィボナッチ数を求めるプログラムは，固定長
わるコスト上昇（速度低下）を上回って，大幅に実行
整数（fixnum）を多く使い，関数呼出しが多く行われ
時間が短縮されてる。
今回の実験で用いた PowerPC９
７
０
る。無限長整数は使用しない。階乗を求めるプログラ
は，過去の研究［６］のときとは CPU のクロックや
ムは，無限長整数を多く使うプログラムである。これ
キャッシュの容量が異なっているが，過去の実験結果
らの Lisp プログラムは，実行を行う前に，コンパイ
と傾向は変わりない。
一方，Xeon ５
１
０
０の場合は，PowerPC ９
７
０の場合と
ルを行った。
PowerPC ９
７
０における実行時間を表１に，Xeon ５
１
０
０
における実行時間を表２に示す。
は様相が異なっている。
・３
２ビット版のフィボナッチ数の計算では，即値デー
タありの方が，即値データなしの方より，実行時間
が１．
２
４倍と長くなっている（実行効率が低下してい
表１
る）
。
PowerPC ９
７
０２．
５GHz における実行時間の比較
・フィボナッチ数の計算では，即値データありの場合
は，無限長整数の恩恵がないのにもかかわらず，６
４
ビット版は３
２ビット版と比べて実行時間が０．
８
９倍と
短くなっている（実行効率が向上している）
。
・階乗の計算では，６
４ビット版は，３
２ビット版より，
実行時間が３．
１
５倍と大幅に増加している（実行効率
が低下している）
。これは，PowerPC ９
７
０の場合よ
表２
Xeon ５１０
０２．
６６GHz における実行時間の比較
り，実行時間を要している。
・３
２ビット版の場合は，階乗の計算は，即値データあ
りと即値データなしでは違いはない。これは，階乗
の計算が，即値データの関与は少なく，無限長整数
の計算が支配的であるからであろう。事実，PowerPC
９
７
０と Xeon ５
１
０
０の場合双方とも，階乗のプログラ
ムをインタプリタ実行しても，実行時間はあまりか
―２
８―
Common Lisp 言語処理系におけるインテル Xeon５
１
０
０の評価
わらない。コンパイルして機械語に翻訳されるのは
化を，Xeon ５
１
０
０プロセッサに適用してみた。
プログラムの制御であり，最終的にはインタプリタ
今回の実験結果の範囲では，過去の実験結果とは異
実行とコンパイル実行の双方とも KCL 内部の無限
なり，即値データによる実行効率の向上や，６
４ビット
長整数乗算ルーチンを呼び出しているからである。
演算による無限長整数演算の高速化が得られなかっ
結果を一部説明できないところもあるが，今回の結
た。原因は，メモリ転送速度の著しい向上や，３
２ビッ
果をみるかぎり，Xeon の状況については次のように
ト環境に焦点をあてた最適化が挙げられる。
考えられる。
過去に効果が認められた手法であっても，前提とし
・メモリ転送速度が十分に早くなっているので，メモ
リアクセスを抑えることができるという即値データ
ていた CPU のアーキテクチャの状況が変わると，期
待した効果が得られないことある実例を示した。
の長所が，生かせない。
本論文で行った実験は，フィボナッチ数と階乗の計
・Xeon は，３
２ビットのプログラムを特に効率良く実
算だけなので，Xeon ５
１
０
０プロセッサの Lisp 言語処理
行できるように設計されている。例えば，２つの命
系における性能を述べるには十分ではない。最近のプ
令を１つに融合して処理するマイクロフュージョン
ロセッサは得意とする実行時最適化が適用できる場合
の機能は，EM６
４T Long Mode では機能しない。Xeon
は劇的な実行効率向上をもたらすが，さもなければ期
５
１
０
０において，６
４ビットのプログラムの実行性能
待したほどの性能が得られない場合があるので，今後
が著しく悪いというわけではなく，３
２ビットのプロ
さらに他の実験を重ねてデータを得て，プロセッサの
グラムが効率良く実行できたときの実行性能が際
特徴にあわせて Lisp 言語処理系をチューニングして
立っているということであろう。したがって，６
４
いく手法を探っていくことが今後の課題である。
ビット版では，３
２ビット版に比べて階乗の計算の実
参考
行時間が著しく増大してみえるのは，実行時の最適
化機能が利用できないことが原因だと考えられる。
フィボナッチ数（fib ３
０）の計算を行ったところ，そ
献
［１］Steele, G. L. Jr. : Common Lisp the language, Digital Press
（１
９８
４）
．
試しに，PowerPC ９
７
０と Xeon ５
１
０
０において，３
２
ビット版の即値データなしで，インタプリタ実行で
文
［２］Yuasa, T. and Hagiya, M. : Kyoto Common Lisp Report, Teikoku Insatsu Publishing（１
９
８５）
.
［３］Yuasa, T. : Design and Implementation of Kyoto Common
れぞれ９．
１
８
４秒，６．
２
９
７秒を要した。Xeon ５
１
０
０は Pow-
Lisp, Journal of Information Processing, Vol．
１
３, No．
３, pp.
erPC ９
７
０に対して，コンパイル実行のときは約５
０％の
９５
（１
９９
０）
.
２
８４―２
実行時間であったのに，インタプリタ実行の時は約
［４］湯淺太一，安本太一：KCL における即値データの実装と
その評価，電子情報通信学会春季全国大会講論集，D―３５７
６
９％の実行時間となって優位性が低下していた。イン
タプリタ実行のときは，Lisp プログラムを構成する
セルをたどることになるので，スマート・メモリ・ア
（１
９
８
９）
．
［５］安本太一：Common Lisp 言語処理系の６
４ビット化，愛知
教育大学研究報告自然科学編，第五十三輯，pp．
２２―３２
クセスといった実行時最適化機能が効きにくいことが
推測される。
（２
００
４）
．
［６］安本太一：Common Lisp 言語処理系による６
４ビット環境
７ま
と
の評価，愛知教育大学研究報告自然科学編，第五十五輯，
め
３（２
０
０６）
．
pp．
９―１
過去に研究が行われた即値データの実装と６
４ビット
―２
９―
（平成１
９年９月１
８日受理）
安本太
―３
０―
一

Common Lisp 言語処理系における インテル Xeon5100の評価

Comments

Description

Transcript

Common Lisp 言語処理系におけるインテル Xeon5100の評価