CDISC Terminologyに関するメモ

カテゴリー: CDISCラボ

CDISC Terminologyの用語を選択・拡張するときの基本的なスタンスについて考察してみました。

<Terminologyの基礎知識>
 ・DataのInteroperabilityを保つためには、Terminologyの整備が必須となる(*1)
 ・SDTMでは、CDISCのTerminologyを使うべきである(*2)
 ・CDISC Terminologyがない場合・内容が不十分な場合、スポンサーが拡張できる(*3,4,5)


<理想と現実>
理想論:
(1) Protocol・CRFの作成時から、CDISC Terminologyを視野に入れた設計をする。収集データがCDISC Terminologyと完全一致していれば、何の問題もなくSDTMデータセットを作成することができる
(2) CDISC Terminologyはメンテナンスされている。新しい用語が追加されるかもしれない。したがって、最新のTerminologyに合わせる作業が必要になる

現実問題:
CDISC Terminologyを参照せずにデータを収集する場合がある

・Missing CDISC Terminology
そもそもCDISCのTerminologyが定義されていない。用語が存在しないので参照しようがない

・CDISC Terminology Creation
CRF作成後に、CDISC Terminologyができた

・Legacy Data Conversion
過去のデータを変換することになった。または、CRF作成後にSDTM対応させることが決まった。

・設計ミス・準備不足

このような場合、Terminologyの選択にあたってどのような問題が生じるだろうか?また、どのような解決シナリオがあるだろうか?


<CDISC Terminologyの用語を選択する/拡張するときの基本的な考え方>

考察を進めるにあたっての主要な観点は以下のとおり:
 1. 規格を遵守してSDTMデータセットを作成するべきである
 2. SDTMはCRFデータのTabulationである(すなわちオリジナルデータを提示するべき)
 3. SDTMはFDAのReviewerによって閲覧される
 4. ステークホルダー(例:社内の統計解析家)がSDTMデータセットを利用するかもしれない


考えられるシナリオ:

1. CRF上のデータがCDISC Terminologyと完全に一致する
一致した用語を採用すればよい。これは理想的な状態である。データ収集が入念に準備されているならば、ほとんどがこのケースに合致する。もし、単なる幸運によりこのパターンに一致した場合、今後に備えて何らかの対策をしておくべきだろう。

2. CRF上のデータとCDISC Terminologyの間に「大文字・小文字」の差がある(*6)
Upper/Lower Caseの違いは無視して、CDISC Terminologyの用語を選択する。この差異は大きな問題ではない。しかし、どうしても気になるならば、データ収集方法を修正しておくとよい。

3. CRF上のデータとCDISC Terminologyが一致しない
この原因として、コードリストそのものが未定義・適切な用語がない・類似用語が存在する場合…などがある。原因に応じて対応が変化する。

3.1. コードリストが未定義
コードリストが存在しないので、スポンサーが独自のコードリストを定義する。定義内容の詳細をDefine.xmlに記述する必要がある。

3.2. 適切な用語がない
コードリストは存在するが、適切な用語がない事例がこれにあたる。この場合、いくつかの選択肢がある。具体的には、用語の追加・読み替え・ヌル値置換である。コードリストがExtensibleかNon Extensibleかで、選択肢が絞り込まれる。

3.2.1. 読み替え・ヌル値置換
元のデータを既存の用語のいずれかに読み替える。どの用語にも読み替えられない場合、ヌル値を設定する。コードリストがNon Extensibleならば、これが唯一の対応方法となる(*7)。元データを保存するためにSUPP--ドメインを利用するかもしれない。

このシナリオではデータ構造が複雑化する。読み替えやヌル値置換を実施した結果、主要なデータがSUPP--ドメインに集中する可能性もある。FDAのデータレビューワーにとって閲覧しにくいSDTMデータとなる可能性を考慮するべきである。Define.xmlやReviewers Guideへの十分な説明が必要になるだろう。

また、SDTMを解析に用いる場合、統計解析家も多くの困難に直面するだろう。データのTransposeや結合を強いられるからである。

3.2.2. コードリストに新たな用語を追加する
コードリストがExtensibleの時に限り、この方法を選べる。コードリストに新しい用語を追加した上で、収集データをそのままSDTMデータセットへ格納する。追加した用語の詳細をDefine.xmlに記述する必要がある。

3.3. 類似用語が存在する
類似用語の事例には様々なパターンが考えられる。極めて明快な事例から、やや複雑な事例まで幅がある。そのため、いくつかのシナリオが想定される。コードリストがExtensibleかNon Extensibleかも考慮される。

最も単純な事例は、性別である。CRF上では「Male/Female」という文字列が使われるが、CDISC Terminologyは「M/F」である。軽微な補足の調整も想定される。例えば、CRF上の記載が「Bilateral (Both)」であるが、Terminologyでは「Bilateral」が定義されている場合である。 CRF上のバイタルサインの脈拍の単位が「bpm」の時はやや事情が複雑になる。CDISC Terminologyでは「BEATS/MIN」を定義している。両者は意味が同じであるが、表記が異なっている。

3.3.1. 類似用語に読み替え、元データを破棄する
CRFデータを類似用語で置換する。このとき、読み替え前の元データを保持しない。Define.xmlに変換した旨が明記される。この方法の利点はCDISC Terminologyに完全準拠していることである。弱点はオリジナルデータを喪失することである。

性別データ「Male/Female」を「M/F」に読み替える事例ではこの選択が妥当と考えられる。オリジナルデータを保持する必要性が十分に低く、置換後も同じ情報を提示していると考えられる(*8)。また、コードリストがNon Extensibleの場合、類似用語へ読み替えしか選択肢がない。

3.3.2. 類似用語に読み替え、元データを保持する
類似用語に読み替え、かつオリジナルデータをSUPP--ドメインに保存する(3.2.1と同様の状態になる)。Define.xmlに変換した旨が明記される。この方法の利点はCDISC Terminologyに完全準拠し、かつオリジナルデータを保持できることである。弱点は、データ構造の複雑化 と冗長性である。コードリストがNon Extensibleの場合に選択することが多いだろう。

3.3.3. コードリストに新たな用語を追加する
Terminologyに新しいエントリを追加して、オリジナルデータをそのまま格納する。コードリストがExtensibleの時に限りこの方法を選べる。CRF上のデータを忠実に取り扱えるのが利点である。しかし、類似した用語(実質的に差がない用語)を追加するのは冗長であり、データの再利用性が下がる(*9,10)。

3.3.4. Findings Classドメインでの裏技
コードリストに新しい用語を追加した上で、SDTMデータセットの使い方を工夫することができる。具体的には、--ORRESU変数と--STRESU変数を利用したハンドリングの実現である。

このシナリオでは、--ORRESU変数にCRF上の表記をそのまま格納する。--STRESU変数に、CDISC Terminologyの用語を適用する。バイタルサインの例であれば、VSORRESU変数に「bmp」、VSSTRESU変数に「BEATS/MIN」が格納される。

この手法の最も優れた点は、SUPP--ドメインを使わずにCRF上の表記を保持できることである。SDTMはCRFデータのTabulationである。CRF上の表記を格納するのは理想的な状態と言える(*11, 12)。


4.意思決定のための考察点
以上、Terminologyの選択方法について述べた。現実的に「あらゆる場面で利用できる万能の方法」は存在しない。存在するのは、いくつかのシナリオといずれかの方法を選択する決断だけである。決定をする場合、次の要素も寄与すると想定される。

・SDTMデータセットの位置づけ(申請用か・保存用か)
申請用ならば、FDAの要求事項を反映できる手法を選択するべきである。もし、FDAがSDTMの規則を逸脱した状態のデータセットを要求するなら、それに応じる必要があるだろう。保存用なら、SDTMの規則を多少逸脱してもよいかもしれない。また、CRF上のデータをきちんと保存できる手法が好まれるだろう。

・別の試験の取り扱い
他の試験データとの整合性を保つ必要があれば、周辺の状況に合わせた決定を行うべきである。単独で取り扱える事例ならば、リソース・スピードの観点から方法を選択することになるだろう。



註:
*1:例えば、次の文書に記載がある。 Guidance for Industry Providing Regulatory Submissions in Electronic Format - Standardized Study Data DRAFT GUIDANCE (Feb, 2012)
*2:SDTM, SDTM IG, Common Data Issueなど各所に記述あり
*3:Terminologyが未整備の場合、SDTM IGでは [*] で示されている
*4:TerminologyがExtensibleである場合、その旨がフラグされている
*5:CDER Common Data Standards Issues Document (Version 1.1/December 2011) に記述があります
*6:SDTM IGの「4.1.2.4 CASE USE OF TEXT IN SUBMITTED DATA」を参照
*7:コードリストがExtensibleの場合、読み替え・ヌル値置換を用いることもできるし、コードリストを拡張することもできる。一般的に後者が便利と考えられる
*8:SDTMのデータから帳票を作成すると、CRF記載の表記と不一致になる。この点を気にするステークホルダーがいるかもしれない
*9:例えば、統合解析時の手間が増える恐れがある 。また、DataのInteroperabilityを下げるため、一般的には歓迎されない
*10:データの価値が低ければ、再利用性を無視できるかもしれない
*11:VSSTRSUを用いて解析を実施すると帳票上の単位とCRF上の単位が不一致となる。会社や担当者によっては、この点を気にするかもしれない
*12:この手法は「必要以上に 複雑な使い方をしているという」批判を受けるかもしれない
前ページ | | 次ページ











管理者にだけ表示を許可する
http://doubledealer989.blog74.fc2.com/tb.php/1009-d8e71210