日本語入りのXPTファイルをOpenCDISCでバリデートする

ちょこっと考えてみました。
20140618.jpg
T:「技術的に無理だと思うのん…」

…という結論に至ったわけですが、これだけではアレなので、ちょっとしたメモを。


SAS Transport Fileの内容を気にする人は多いらしく、検索するといくつかのPaperを見つけることができます。中でも参考になるのが、「TS-140 RECORD LAYOUT OF A SAS® VERSION 5 OR 6 DATA SET IN SAS® TRANSPORT (XPORT) FORMAT」という文書。

これを見ると、その構造が分かります。乱暴にまとめると、固定長変数のメンバを持つ構造体の中にデータを納めています。それは脇に置くとして、テキストデータのエンコーディング情報を取り扱う部分が見当たりません。つまり、マルチバイトのデータをXPTに押し込むと、それを読みだすときの解釈の仕方が分からなくなります

ぶっちゃけ、実行環境に依存して好き勝手に解釈されるんじゃないかと思います。つまり、XPTファイルを読み込むときに日本語がUTF-8とみなされるか、S-JISとみなされるか、EUCとみなされるか、完全に運任せになりそうです。……と、ここまでくれば

20140618c.jpg
『俺のXPTファイルが、OpenCDISCでチェックできるわけがない』

という結論に至ります。ファイルを正しく読み込む保証がないのだから、それ以上の何があるの?と。

そもそも文字コードの問題はかなり深淵です。海外の人たちは、文字コードの問題が存在することを認識していません。インターネットの生みの親である、ティム バーナーズ リーでさえ、認識するまでに時間がかかったんじゃないかと。仮に文字コードの問題を知っていたとしても、統一的にグリフを管理することは至難の業です。こんないい加減な状態で、どうして世界で情報交換が成立しているのか不思議なくらいですし。


問題を解決するなら、OpenCDISCに「文字コードを指定するスイッチをつける」ことだと思います。なるほど、ちょこちょこっとソースをいじって、ビルドすればいいんですね。それは誰にでも簡単にできる技術的解決方法ですねっ!……って、ソースと聞いて、「ブルドッグソース」しか、頭に浮かばない人もいるんですよ、配慮してください。

この手の問題を海外に訴えても理解されないでしょうし、かといって国内でビルドできる人間も限られているでしょう。CSV(Computer System Validation)の問題も発生します。そうなると「英語で仕事をする」のが最も現実的かもしれません。いえ、実際問題として、英語が話せない・読めない・聞けないでは、CDISCの最新情報を入手できませんしね~
2014-05-22(Thu)
 

コメントの投稿

非公開コメント


プロフィール

TKD + SMZ

Author:TKD + SMZ
ガレージキット組み立て中級者

2007年に友人の薦めでガレージキット組み立てを開始。その面白さに目覚める(w

2011年にお付き合いのあった原型師さんに薦められて、原型製作を開始。ワンフェスに参加しています

ブログの大まかな内容についてはカテゴリーの「総合案内」をご覧下さい

カウンタ
ブログ内検索
月別アーカイブ