Common Lisp言語処理系によるBroadwellの任意精度整数演算命令の

by user

on 28 марта 2017

Category: Documents

>> Downloads: 2

views

Report

Comments

Description

Download Common Lisp言語処理系によるBroadwellの任意精度整数演算命令の

Transcript

Common Lisp言語処理系によるBroadwellの任意精度整数演算命令の

Bulletin of Aichi Univ. of Education, 65（Natural Sciences），pp. 25 － 28, March, 2016
Common Lisp 言語処理系による Broadwell の
任意精度整数演算命令の評価
安本太一
情報教育講座
Evaluation of Broadwell Instructions Supporting Large Interger
Arithmetic on a Common Lisp System
Taichi YASUMOTO
Department of Information Sciences, Aichi University of Education, Kariya 448-8542, Japan
ための命令として，mulx，adcx，adox が用意されて
1　はじめに
いる．
インテル社の第 5 世代 Core プロセッサ Broadwell マ
イクロアーキテクチャに実装されている任意精度の整
数演算のための命令
［1, 2］
の評価を，Common Lisp［3］
mulx は，64 ビット（あるいは 32 ビット）の符号な
し整数どうし src1，src2 の掛け算を行う機械語命令
言語処理系である KCL（Kyoto Common Lisp）［4, 5］
mul の拡張版である．アセンブラ表記は次の通りであ
り，64 ビットの場合は rdx を，32 ビットの場合は edx
の bignum（無限長整数）の掛け算を用いて行ったの
を src2 として使う．
で，その結果を報告する．なお，本論文では，任意精
mulx dest_hi, dest_lo, src1
度整数は一般的な用語，bignum は Common Lisp の無
限長整数を示すものとして扱う．
その動作は
任意精度の整数演算をとりあげるとき，基本データ
dest_hi:dest_lo = src1 r/edx
型である整数の配列
（例えば 32 ビットや 64 ビットの整
数の配列）で，基本データ型の整数よりも長い任意精
のように，ソースオペランド src1 と src2 の積を計算
度の整数を表現することが多い［1, 2］
．基本データ型
である整数の演算を何度も適用して，任意精度の整数
し，その結果を，2 つのレジスタを連結したディスティ
ネーションオペランドである dest_hi:dest_lo に格
の演算を行うのである．一方，KCL の bignum は，配
納する．フラグレジスタは変更されない．実質 4 オペ
列でなく，リスト形式で，C 言語の基本データ型の整
ランドの命令なので，ソースオペランドの値を破壊し
数を連結した表現で実現されている．
配列形式の任意精度整数において，インテル社が提
ないことが可能である，
adcx と adox は，adc（キャリー付き加算命令）の拡
案して実装した任意精度の整数演算のための命令が速
張版であり，アセンブラ表記は次の通りである．
度向上に寄与するのは，掛け算に必要な命令数が減っ
adcx dest/src1, src2
ていることがインテル社のドキュメントおいて示され
adox dest/src1, src2
ているので，明らかである［1］
．
そこで，今回は，これらの命令を，実際の Lisp 言
語処理系において，リスト形式で表現されている
これらの2つの命令は，src1と src2のキャリー付き加
算を行い，その結果を dest に格納する．adcx と adox
bignum における掛け算で用いた場合は，どれくらい
の違いは，CF フラグと OF フラグの扱いである．adcx
の速度向上が得られるのか調べてみた．
は，CF フラグを用いてキャリーインしてキャリーア
ウトし，OF フラグを変更しない．adox は，OF フラグ
2　Broadwell における任意精度整数演算のため
の命令
を用いてキャリーインしてキャリーアウトし，CF フ
ラグを変更しない．adcx と adox を使い分けることに
よって，2 つのキャリーフラグのチェーン（流れ）を
2.1　mulx, adcx, adox 命令
作ることができる．
Broadwell には，任意精度整数演算をサポートする
例えば，mulx，adcx，adox を使うと，64 ビッ
― 25 ―
安本太一
トの整数を 8 個連結して表現した 512 ビットの整数
A7 A6 . . . A1 A0，B7 B6 . . . B1 B0 の積を，効率よく計算でき
3　KCL の bignum
る．筆算のように，A7 A6 . . . A1 A0 × Bi を繰り返して行
KCL の bignum は，図 1 に示す bignum セル（無限
うとき，A7 A6 . . . A1 A0 × Bi–1 の結果と加算していくこ
長整数セル）の連結によって実現されている．この
とになるが，Aj × Bi は 2 語になるので，
“フラグを変
図で示すのは 64 ビット版の KCL における表現であり
更しない掛け算命令”と“キャリーの流れを 2 つ実現
［7, 8］，本論文では 64 ビット版の KCL に 64 ビット版の
mulx と adcx を適用することのみを扱う．
できる加算命令”があると，命令数が少なくて済むか
らである［1］
．
固定長の任意精度整数のように 64 ビットの整数領
なお，今後は，32 ビットについては言及せず，64
域を連続してメモリ領域に配置した表現ではなく，連
ビットにのみに言及する．
続した領域が確保できなくても，メモリの許す限り無
限長の整数を表現できるよう，このような構造になっ
2.2　高級言語からの利用
ている．計算の過程で，変数から参照されなくなった
mulx，adcx，adox 命令は，次に示すように，C 言語
bignum が使用していた bignum セルの領域は，ごみ集
（C++ 言語を含む）から次のような関数呼び出しの形
めで回収され，再利用可能なメモリ領域として利用さ
で利用可能であると，ICC（Intel C++ Compiler）を発
れる．
売しているインテル社のドキュメントに記述されてい
る［1］
．gcc の場合は，_umul128 ではなく _mulx_u64
である．関数呼び出しの形式ではあるが，gcc-4.9 コン
パイラにおいて，call 命令を伴わなずに，アセンブラ
命令（機械語命令）に展開されることを確認している．
mulx に対応．返り値が lo_dest /
unsigned _ _int64
/
umul128(unsigned _ _int64 src1, unsigned _ _int64 src2, unsigned _ _int64
hi_dest);
図 1：64 ビット環境下の bignum セルの構造
adcx と adox に対応，返り値が c_out /
unsigned char
/
bignum を構成する整数を表現するためのフィール
_addcarryx_u64(unsigned char c_in, unsigned _ _int64 src1, unsigned _ _int64 src2, unsigned _ _int64
ドとして 64 ビット確保しているが，実際に整数を表現
しているのは下位 63 ビットである．上位 1 ビットは一
時的な利用場所で，例えば，下位 63 ビットに整数を加
sum_out);
算した直後のキャリー検出に使用し，キャリー検出に
キャリーのための C 言語の変数（c_in, c_out に対
応する変数）
の名前を使い分けて，_addcarryx_u64 を
対応した処理を行った後はすぐ 0 にされる．
使えば，コンパイラの方で，adcx と adox を使い分け
bignum の掛け算を実現するための内部ルーチンと
して，extended_mul(long int d, long int q, long
るコード生成をすると，インテル社のドキュメントに
int r, long int   hp, long int   lp) を使用してい
は記述されている［6］
．ICC の場合は，そうなるのか
る．d × q + r を計算し，その結果を，hp と lp が指す
もしれないが，gcc-4.9 ではそのようにはならず，C 言
場所に格納する．d, q, r は，64 ビットの非負整数であ
語の変数を用いてキャリーフラブを陽に設定するコー
る．lp が指す場所には，結果の下位 63 ビットを格納
ドが生成されていた．
し，最上位ビットは 0 である．hp が指す場所には，結
AVX の SIMD 命令に対応する C 言語の関数が用意
果の残りのビットを格納し，最上位ビットは 0 である．
されるといったことはあったが，上記のように逐次実
extended_mul は，当初は実行効率を重視してイン
行の機械語命令に対応する C 言語の関数が用意される
ラインアセンブラで記述されていたが，KCL の移植
ことは珍しい．高級言語から特定の機械語命令を明示
の容易性を重視して C 言語バージョンが用意されてい
的に指定できるので，キャスト演算子を駆使するなど
る．KCL の配布ソースには，アセンブラバージョンは
プログラムの書き方を工夫して特定の機械語命令が生
成されるようコンパイラに期待するいう，不安定でや
32 ビットプロセッサ向けのみが含まれているので，今
回，64 ビット版の mulx と adcx の使用を試みることは
りにくい方法をとる必要がない．
意義がある．大雑把にいうと 64 ビット版の C 言語の
バージョンは，図 2 に示すように，64 ビットの掛け算
― 26 ―
Common Lisp 言語処理系による Broadwell の任意精度整数演算命令の評価
を，被乗数 d と乗数 q を 32 ビットに分けて計算するよ
うになっていた．オーバーフローを防ぐためである．
本図において，r の加算，積の結果の lp や hp への 63
ビットずつの配置は省略されている．
図 3：任意精度整数演算のための命令を利用した C 言語版
extended_mul
図 2：オリジナルの C 言語版 extended_mul の概要
4　任意精度整数演算をサポートする命令 mulx,
adcx の利用
先述の _mulx_u64と _addcarryx_u64を用いて書き
換えた，C 言語バージョンの extended_mulを図 3 に示
す．gcc-4.9ののヘッダにあわせて，unsigned_int64で
はなく，unsigned long longを使用しているが，64
なものである．再帰的にしなかったのは，fact の引数
が大きい場合，スタックが足りなくなり，実行が途中
で中断してしまうからである．関数 fact は，実行する
前にコンパイルしたので，インタプリタ実行ではない．
extended_mul コンパイル時の最適化オプション
（-O）なしで構築した KCL で（fact 10000）を実行し
た場合の実行時間を，表 1 に示す．10 回計測し平均値
ビット環境下では，unsigned long long は long int
をとったものである（以下同様）．この実行中 565 回の
とともに，64 ビットである．
ごみ集めが行われ，そのための時間も実行時間に含ま
積 d × q は 4 つに分けることなく _mulx_u64 で一
気に行う．和 +r は _addcarryx_u64 を用いて行う．
れている．最適化オプションなしなので，gcc が C 言
語の関数 extended_mul を翻訳して生成したアセンブ
キャリーは，C 言語の変数 carry で明示的に受け渡し
ラコードは，（ロード・ストア命令 movq を主とする不
する．その結果，extended_mul の（ブロックの内側
の）行数は，オリジナルの C 言語版と比べて 40% 程度
必要な命令を大量に含む）冗長なものである．mulx,
adcx 使用のバージョンは，オリジナルと比べて，約
に減少した．
9% の実行時間短縮が得られている．
一方，extended_mul コンパイル時の最適化オプ
ション（-O）ありで構築した KCL で（fact 10000）
5　評価実験
を実行した場合の実行時間を，表 2 に示す．この実行
mulx, adcx の使用の有無によって，階乗のプログラ
ムの実行時間がどのように変化するか調べた．また，
extended_mul を（定義している KCL のソースファイ
ル earith.c を）gcc でコンパイルするときの最適化オプ
ション（-O）の有無によって，階乗のプログラムの実
表 1：(fact 10000) の実行時間（-O 最適化なし）
extended_mul のバージョン
実行時間
比
オリジナル
1.943
1.0
mulx, adcx 使用
1.765
行時間がどのように変わるかも調べた．
実行環境は，アップル社製 MacBook Pro
（Retina, 13inch, Early 2015）で，搭載している CPU は Intel Core
i7-5557U 3.1GHz である．OS は OS X 10.10.5，gcc の
バージョンは4.9である．実験に用いた階乗のプログラ
ムは（fact 10000）を計算するもので，階乗を計算す
る関数 fact の定義は do を用いた繰り返し的な典型的
― 27 ―
0.908
（単位は秒）
表 2：(fact 10000) の実行時間（-O 最適化あり）
extended_mul のバージョン
実行時間
比
オリジナル
1.744
1.0
mulx, adcx 使用
（手修正なし）
1.733
0.994
mulx, adcx 使用
（手修正あり）
1.728
0.991
（単位は秒）
安本太一
中にも，565 回のごみ集めが行われ，そのための時間
も実行時間に含まれている．最適化オプションありな
ので，gcc が C 言語の関数 extended_mul を翻訳して
7　まとめ
Broadwell の任意精度整数演算命令を，Lisp 言語処
生成したアセンブラコードは，先述のような不必要な
理系の bignum の掛け算の中で用いることで，評価し
命令を含まず，簡潔なものである．
“手修正”という
た．
のは，carry という変数を使って C 言語レベルでキャ
mulx 命令の意義は，64ビットの整数の積を確実に高
リーの受け渡しを行っていたものを，機械語レベルで
行うよう，gcc が生成した extended_mul のアセンブ
速に行うことと，フラグを変更しないことであること
ラコードを，手作業で修正したもので，機械語レベル
で命令数が減る（図 4 参照）
．コンパイラの最適化オプ
分割して 4 つの積を行う方法をとるとき，これらの積
が同時実行できる場合は，mulx 命令に実行効率が近づ
ションありの場合は，オリジナルと比べて，手修正な
くが，生成される機械語命令の列によっては，常に同
しの場合は約 0.5% の実行時間短縮が，手修正ありの場
時実行できるとは限らないからである．
合は約0.9% の実行時間短縮が得られている．コンパイ
adcx が C 言語から使えるようなったことは，C 言
ラの最適化オプションなしの場合に比べて，実行時間
語によるコード記述が簡潔になる利点があるが，C 言
短縮（速度向上）の効果は，ごくわずかである．
語の変数を介するオーバーヘッドがあらわれる．コン
が，明確にわかった．被乗数と乗数を 32 ビットずつに
パイラによる最適化においては，キャリーフラグの
チェーンをみつけ，C 言語の変数へのアクセスを排除
して，adcx（や adox）の特徴を生かしたコード生成
が行われることが望まれる．
参考文献
［1］Intel Corporation: New Instructions Supporting Large Integer Arithmetic on Intel Architecture Processors, Document
number: 327831-001（2012）
.
［2］Intel Corporation: Large Integer Squaring on Intel Architecture Processors, Document number: 328569-001（2013）
.
［3］Steele, G. L. Jr.: Common Lisp the language, Digital Press
（1984）
.
［4］Yuasa, T. and Hagiya, M.: Kyoto Common Lisp Report,
図 4：gcc -O が出力したアセンブラのコードの手修正
Teikoku Insatsu Publishing（1985）
.
［5］Yuasa, T.: Design and Implementation of Kyoto Common
Lisp, Journal of Information Processing, Vol. 13, No. 3, pp.
284-295（1990）
.
6　考察
［6］Intel Corporation: User and Reference Guide for the Intel
C++ Compiler 15.0（2015）
.
gcc の最適化オプションを指定しない場合，
（fact
10000）の実行時間が約 9% 短くなったことは，mulx や
［7］安本太一：Common Lisp 言語処理系の 64 ビット化，愛知教
adcx の使用の効果によるものだと推測される．実行時
［8］安本太一：Common Lisp 言語処理系による 64 ビット環境の
間には 565 回も行われたごみ集めなど extended_mul
育大学研究報告自然科学編，五十三輯，pp. 27-32（2004）．
評価，愛知教育大学研究報告自然科学編，五十五輯，pp.
9-13（2006）．
以外のものが含まれていることを考慮すれば，よく健
闘していると判断される．
gcc の最適化オプションを指定した場合は，実行時
間の短縮がわずかであったのは，図 2 で示したオリジ
ナルの 4 つの掛け算の全て（あるいはいくつかが）が同
時に実行されたことが推測される．Broadwell は ALU
を複数持っているからである．最適化オプションを指
定しないときは，冗長な命令が多かったため，掛け算
の同時実行が行われなかったと推測される．
図 4 に示す手修正により得られたコードは，命令数
が減ったことが，実行時間のわずかな短縮に繋がって
いる．C 言語の変数によるキャリーの伝達のコストを
みることができた．
― 28 ―
（2015 年 9 月 24 日受理）

Common Lisp言語処理系によるBroadwellの 任意精度整数演算命令の

Comments

Description

Transcript

Common Lisp言語処理系によるBroadwellの任意精度整数演算命令の