Comments
Description
Transcript
研究活動における情報の整理・保存・共有 奈佐原(西田)顕郎
2014/06/04 筑波大学環境科学専攻 環境科学演習 研究活動における情報の整理・保存・共有 How to organize and share your data in research activity 奈佐原(西田)顕郎 --- 愚者は自分の経験に学ぶと言う、私はむしろ他人の経験に学ぶのを好む。 (ビスマルク) §0 はじめに 研究活動 計画・文献調査・実験・野外調査・アンケート調査・シミュレーション・論文書き・口頭発表・引継ぎ 研究活動におけるデータ(情報) 観測・計測データ: 実験・野外調査・アンケート調査 研究計画書 論文(草稿も含む) 解析手順書(プロトコル) 解析プログラム(ソースコード) 解析結果(中間結果・最終結果) 研究仲間との通信記録(メール) 発表用のスライド・ポスター 実験機器のマニュアル 実験機器の校正データ・保証書 ... 君や君の研究室は、これらをどのように管理しているだろうか? 情報の整理はなぜ必要なのか? 研究効率を上げるため ... 時間・労力を節約し, 大きな成果を出す! 共同作業のため ... 「あの人でないとわからない」を無くせ! 説明責任(アカウンタビリティ)・遡及可能性(トレーサビリティ) ... 「その元データ見せてみろ」 将来, 再利用する時のため ... 「あのときやった解析のデータ、どこ行ったかな?」 研究を人に引き継ぐため ... 「〇〇先輩の研究のおかげです!」 ... 公的資金で行った研究成果は, 公共物としての性格を持つ。 キーワード: 可搬性 (portability) 遡及可能性 (traceability) 説明責任 (accountability) 演習 0: グループ内で、お互いにお互いのバックグラウンドをインタビューし、それを報告せよ。各自、自分とは別 の人について報告を書くこと。結果としてグループ内の全員について報告すること。どの人について誰が報告を 書いたか、明記すること。 §1 データの取得 高品質のデータをとれ いいかげんなデータはゴミ・ノイズ。情報整理を面倒にする。 ミスをするな。確認せよ。確認にかかるコストは, ミスをリカバーするコストの 1/1000。 ミスの種類: 忘れる・間違える・失くす・壊す・遅れる・逃す。 機会を逃すな。欠測するな。バッテリー不足や機器トラブルに備えよ(予備機器。練習。集中。) 機械喪失より機会喪失の方が重大問題だったりする。 ものの貸し借りはトラブルの元。慣れない人が使うと機械を壊す。設定が変わる。 でも世の中は持ちつ持たれつ。 間違った情報やデータをできるだけ他人に流すな。訂正はとてもめんどくさい。 「やり直し」は似たようなデータを複数作ることになるので混乱する。 実験(観測)はいきなり本番をするな。まず練習(リハーサル)せよ。 練習のときにとったデータは本番のデータと明確に区別せよ。 工夫せよ。測定原理に基づいて考えよ。 手順を可視化・ルーチン化せよ。自己と他人の目にさらせ。 実験計画をシンプルにせよ。無駄なデータをとるな。大事なデータを取り逃すな。 サンプルのラベリング(名前付け)を工夫せよ。後で出てくる、ファイルの命名と同じ問題。 機器の時計を合わせよ。 データを取ったら、すぐにひと通りの解析処理をせよ。解析してみてわかるミスやトラブルがある。 古い情報をテンプレートとして使うときは注意せよ!書き換えねばならない箇所を書き換え忘れる。 → トラブルが生じる。楽をするつもりがかえって余計な仕事を作る。 失敗が人を育てる。失敗を恐れない。でも致命的失敗(人命にかかわる失敗)は絶対に避けよ。 トヨタの品質管理: 自分の仕事を疑う。 「この自動車には、どこかに必ず致命的な欠陥がある」 トヨタの品質管理: 「5回のなぜ」 ... ミスの原因、その原因, そのまた原因 ... をさぐれ。 事例: 測量技術者が, トランシットを三脚に据え付けるときにネジを締め忘れる→落として壊した。同僚が声をか けたのが原因。コミュニケーションは常に良いものとは限らない。集中すべき所では沈黙する。判断力必要。 演習 1-1: データ取得に関して, 上記にあてはまる成功・失敗事例について話し合い, それぞれから具体的な教 訓を引き出せ。(特に, ものを壊した事例や, 機会を逃した事例, 計測手法を工夫した事例) デジカメを活用せよ。 デジカメで撮るのはコストが低い。手間がかからない。 写真は多くの情報を一網打尽にできる。 → 有用な冗長記録。 日時情報も勝手に記録される(JPEG の exif 情報) ノートやメモもデジカメに撮ってしまう。 スマホのカメラもいいけど、撮影品質ではデジカメ(大きな専用レンズ)に負ける。 野外では GPS カメラが最高。位置情報も勝手に記録される。行動記録そのもの。 大事な書類をもらったら撮影。 → 紙が無くなっても大丈夫。スキャンするより手軽。 物を買ったら、伝票と一緒に撮影 → いつどこで買ったか、どういう状態だったかがわかる。 物を送るとき・受け取ったとき、伝票と一緒に撮影 → トラブル防止 計測機械・観測風景も撮影 → 後でどういう機器構成だったかわかる。文章記録より簡単正確。 日常の研究室風景を撮影 → 何年かたったときに昔のことを思い出す手がかり。 他所様のところを訪問したときは気をつけよ。撮影許可を得てから撮影せよ。 人を撮影するときは気をつけよ。撮影許可を得てから撮影せよ。 時計合わせをしっかりせよ。 質問・問い合わせの手がかりになる。「この画像に写っているこれ、何でしょうか?」 ファイル名を変えよ。そのままのファイル名では役に立たない。衝突が起きやすい。 演習 1-2: 研究活動でデジカメを活用している工夫について話し合い, それぞれから具体的な教訓を引き出せ。 §2 データの整理 整理にコストをかけるな データをとる段階から後々の整理を意識せよ。整理しやすいデータをとれ。 「後で変えよう・後で整理しよう」は禁物。でも後での整理も大事。地質学者の野帳の墨入れ。 「整理のための整理」(再整理)は時間の無駄だけでなく, むしろ有害(データを失う危険がある)。 ルールはシンプルにしろ。無理をするな。覚えやすい・守りやすい・間違えにくいものにしろ。 リアルタイムの作業やコミュニケーションがそのままデータとして記録になるのが一番、美しい。 データ整理のマイ・ルールを作れ よく考えて作れ。いちど作ったら, 後で変えるのは大変。 自然な流れに逆らうな。自分の心理や癖に逆らわないルールを工夫せよ。 階層構造は大事だが, フォルダは深くしすぎるな。概念順序の任意性がトラブルを起こす。 作ったルールはかたくなに守り通せ。守れないルールは最初から作るな。 「これは記録すべきか?どのように記録すべきか?」をいちいち考えなくて済む。思考に余裕ができる。 例外を作るな。例外が生じるのはルールがまずい。 定型化できることは定型化せよ。 ノートは一貫して同じ規格のものを使い続けよ。 ファイル名の命名ルールは特に大事。ファイル名の衝突を避けよ。 できるだけ rename するな。rename すると、バックアップ時にドッペルゲンガーが発生する。 日付にこだわれ。日付は最もシンプルで強い検索キー。日付は必ず年から! オリジナルな情報と事後的に編集した情報が区別できるようにせよ。 ミソもクソも一緒にするな。作業が一段落したら手順だけ残して不要な中間ファイルは消せ。 メタデータを作れ メタデータとは、「データの内容に関するデータ」 「その情報を読み解くのに必要な情報」 コンピュータを使った生産活動は, 情報が断片化する(「実験ノート」はいずれなくなる?)。 検索性は高まるが, 一貫性・一覧性は低くなる。物語性が失われる。 個別の情報断片(ファイル)に物語を埋め込んで行くこと。物語を意識的に残すこと。 状況写真。日誌・日報(作業記録)。 他人との共有のためには良いメタデータは必須。未来の自分も他人。 細かい情報以上に、荒っぽい情報(ざっくり情報)が必要。自明なことは案外、伝わらない。 これはさすがに忘れないだろうという情報ほど、可視化して記録しておくことが大事。 「その気になって調べればすぐわかること」は記録しないでもよい。 いつ、誰が作ったデータなのかを記録せよ。 配布制限がつくデータの場合は、データポリシーを記せ。 データやソースコードに注釈(コメント)を入れよ。 全てのフォルダ(ディレクトリ)に readme.txt を作れ。 演習 2-1: 「いつ、誰が作ったデータなのか」はなぜ重要な情報なのだろうか? バージョンと処理レベル データは更新される。補正手法の改良・ミスの修正。 古いデータをむやみに捨てるな。説明責任・遡及可能性のため。 古いデータで新しい情報を上書きしてしまうリスク(ドッペルゲンガー症候群) どれが最新データなのか、常に明確にわかるように。でも, ....-old とか....-new というファイル名はダメ。 日付をそのままバージョン番号にしてしまえ。Ubuntu Linux のバージョンルール。 処理レベルとバージョンは違う。例: 補正前データと補正済みデータは処理レベルが違う。 処理レベルの適切な管理: 2重補正の危険を防ぐ。 フォーク(同時並行で複数のバージョンに分裂させること)は混乱のもと。避けよ。 有用な冗長性と有害な冗長性 冗長性とは、同じことを重複して記録すること。 もっと簡潔に記述できるのにあえて冗長に記録する。 ひとつの情報をいろんな角度から記録すること。誤解が少なくなる。 メタ情報には適度な冗長性が必要。 相互に内容が矛盾するような冗長性は、かえって有害。 その他, 考えるべきポイント 新しい情報を前に書くか後ろに書くか? ノートに手書きなら後, ブログ形式だと前。 最新情報を見やすくするなら前, 経緯の流れがわかりやすくするには後。 情報を並べる順序 年月日, 内容, 人名 ... この 3 つの情報だけでも並べ方は 6 通り! ファイル名の付け方・フォルダの掘り方において、どのような順序で↑これらを並べるか? パディング。桁併せの 0 を入れる。1, 2, 3, ..., 10, 11, ...はダメ。01, 02, 03, ..., 10, 11, ...とする。 演習 2-2: データ整理に関して, 上記にあてはまる成功・失敗事例について話し合い, それぞれから具体的な教 訓を引き出せ。特に, 各自のファイル名の命名ルールを話し合い, 共同して良い命名ルールを作れ。 §3 データ・情報の共有 他人と情報やデータを共有せよ 共有できるものは共有せよ。(共有できないものを無理に共有することはない) 多くの他人の目にさらすほど、細かいミスが発見されてデータの品質は良くなる。 バックアップになる。 ほとんどのトラブルは情報共有によって未然に防げる。トラブルが起きても小さなうちに消火できる。 「情報の番人」をできるだけ作るな。分散的・自律的なルールを作れ。 他人との共有を前提としてデータ整理せよ。 時間が経てば君は自分のデータを(その詳細だけでなく存在自体すら)忘れるだろう。 → 君は嫌でも他人の目で見ることになる。 「わかりやすい」よりも「誤解されにくい」ことを優先せよ。 その研究を他の人が全部やりなおすときに必要な情報は全て揃っているか? できればルールも共有せよ。 デフォルト(標準ルール)。「必要があれば違反してもよいけど, 必要が無ければ, 守っておこう」 禁共有のデータを守れ ファイル単位でパスワードロックをかけろ。 ... 万一流出したときのため。 パスワードをどう管理するか? 黒歴史は共有されない 失敗や事故は貴重な教材だが、恥なので共有されない。残らない。 演習3−1: データ共有に関して, 上記にあてはまる成功・失敗事例について話し合い, それぞれから具体的な教 訓を引き出せ。特に, 卒業研究に関するデータを、学部時代の指導教員や後輩学生にきちんと引き継いだか? 引き継ぎにあたって工夫したこと・今思えばああすればよかったということを話題にせよ。 演習 3-2: 身近な研究室で起きた事故について、差し支えない範囲で共有せよ。 §4 データのバックアップ データが消えてしまう要因 誤って削除してしまう ... 再整理しているときに起きる! 不要なものを消そうとして大切なものを消す。 バックアップのミス ... データを消さないための操作が, かえってデータを消すトラブルを起こす。 大きなデータの転送中のエラー(不完全) ドッペルゲンガー症候群 ... 古い情報で新しい情報を上書きしてしまう。バックアップが原因!...無計画な バックアップはむしろ危険。本体とコピー(バックアップ)は明確に区別し, バックアップはそれがバックアップであ ることが明らかにわかるように管理すること(そうしないと、君の記憶違いのせいで、バックアップが本体であると 誤解してしまう)。 ファイル名の衝突 存在自体を忘れてしまう。 データの解釈・読み出しに必要な情報(メタ情報)を記録しない。 記録メディアの劣化 ... 昔のフロッピーディスクは放っとくと磁気が消える。 特定のソフトウェア・ハードウェアに依存したフォーマット ... そのシステムが消えたら読み出せない。 文字化け(特にファイル名) パスワードを忘れる。 災害・盗難など データを消さないための工夫 再整理しない(最初から整理する)。 大事なデータは人(仲間)にあげてしまえ。自分のところで消えても仲間のところにコピーがある! リスク分散せよ。なるべく遠く(地理的・組織的・年齢的)の人にあげろ。 データを作ったら速攻で整理せよ。改めて整理などするな。 バックアップはバックアップであることが明白にわかるように管理せよ。 小さなデータほど、バックアップは容易。 大きなデータ・大量なデータ(デジカメ画像等)は、ダイジェスト(取捨選択・縮小したもの)を作れ。 ほんとに消えたら困るもので、なおかつ、バックアップコストが低いものを優先的にバックアップせよ。 どこかから再取得できるもので、なおかつ、バックアップコストが大きいものはバックアップするな。 オリジナルを大切にせよ。一時の価値観の揺れでオリジナルを破壊するな(廃仏毀釈・文化大革命) 大事なデータ・情報は論文として公表せよ。論文には大事な情報(メタ情報も)を全部盛り込め。 演習4−1: データバックアップに関して, 上記にあてはまる成功・失敗事例について話し合い, それぞれから具体 的な教訓を引き出せ。特に, 君が扱うデータの中で、バックアップが不要なデータの例を考えよ。 例: ネットでダウンロードしてきた衛星画像はバックアップしなくてもよい。無くなってもまたダウンロードできる (ほんとか?)。むしろどこのサイトから何をダウンロードしたかが重要な情報。 §5 まとめ 電子メール等を活用せよ メールで人に送りつけるのは、最も簡単で有用なバックアップ。 自分の送信ボックスと相手の受信ボックスの両方に残る。 自分用の記録と情報共有とバックアップの3つが同時にできる。 作業記録を作って関係者にメールせよ。それがメタ情報になる。 日報・週報をメールで関係者に送るのも吉。面倒だが、習慣にできたら素晴らしい強力な記録になる。 件名にこだわるべし。 巨大なデータをメールで送るな。 デジカメ画像は必ず縮小し、向きを整えてからメールに添付せよ。 関係者には CC しろ。特に、よその誰かに相談するときはボスに CC しとけば「勝手な行動」にならない。 SNS も強力。だけど、加入している人としか共有できない。電子メールほど枯れてはいない。 自分のメールボックスをバックアップせよ。 使わないメアドは閉じるか転送設定せよ。さもなくば、君に届くはずの大事な情報がそこで消える。 メアドは一生モノ。ころころ変えるな。大学のメアドは卒業したら無くなる。連絡が切れる。 パソコンの時計を合わせよ。メールのやりとりを正しい時系列記録にするため。NTP を活用せよ。 wiki 便利。共有物の管理記録には好適。 クラウドを活用せよ Dropbox めちゃ便利。でもたまに事故る。 秘密の情報の管理 秘密を守るのはめんどくさい・しんどい。 ビギナーは秘密にはできるだけ近づくな。責任ある立場の人に管理してもらえ。 秘密は厳重に管理せよ。何重にもロックせよ。 公開できるものは公開してしまえ。(ただし, 勝手に公開するな!) 一利を興すは一害を除くにしかず (興一利不若除一害 )。一事をふやすは一事をへらすにしかず (生一事不若 減一事)。失敗を避けようとすると, ルールはどんどん増える。官僚主義。自縄自縛。自己崩壊する。いらんことを やめるのは難しいが大事。 演習 5-1: 君の研究室では、以下の情報はどのように保管・整理・共有されているか? - 機器のマニュアル・保証書・校正記録 - 卒業論文・修士論文・博士論文 - 卒業生に関する情報(OB 名簿) - 購入したデータや商用ソフトウェアと、そのライセンス - 実験サンプル・測定データ レポート課題 以上の演習課題をやって提出せよ。グループ内でひとつの報告書(レポート)としてまとめよ。 以下の規定を守ること。ひとつでも守られていないレポートは受け取らない。 フォーマット: PDF 形式の電子ファイル。縦置き横書き。言語は日本語又は英語。 中国人・韓国人の人名は、なるべく漢字で表記すること。 各課題ごとにページを改めよ。 冒頭に以下のことを明記すること: 環境科学演習・実習レポート 出題者: 奈佐原 出題日: 2014/06/04 作成者名: (グループ全メンバーの氏名と学籍番号) 提出先: 電子メールで右記に送ること: [email protected] 締め切り: 2014 年 6 月 30 日正午 件名を, 環境科学演習・実習レポート: グループ○○ とせよ。(○○は当然、誰かの氏名) こちらからの返信を受信できるメールアドレスから提出すること。 * 報告された内容は, 適宜取捨選択・編集して, 公表・共有する(レポートそのものを専攻内の教員・学生が 互いに見ることができるようにする)。 その旨、インタビュー時に相手に断っておくこと。それが不十分な場合、そ れによって発生するトラブルの責任は、君にある。