原稿作成日: 2024年3月29日
最終修正日: 2024年3月29日
観察研究チェックリスト
<教材提供>
一般財団法人公正研究推進協会(APRIN)
目次
観察研究
研究デザインに特徴的な留意事項
共通の留意事項
用語集
参考資料
チェックリストの使い方
  • 文字に下線: 当該の場所に飛びます(ページ内リンク)
  • 赤太文字: クリックすると用語解説が出てきます(ポップアップ)
    ※赤太文字を再度クリックするか、×を押すとポップアップは消えます
    ※用語集は目次の「用語集」をクリックすると開くページにもまとめて掲載しています
  • 緑太文字(クリックして表示): クリックするとその下に解説が表示されます
    ※再度クリックすると解説が畳まれます
  • チェックボックス: チェックを入れる/外すことが出来ます
    ※チェック状態になるのみです
観察研究チェックリスト
観察研究
P 1/10
  • 介入研究以外の研究は観察研究として位置づけられる。なお、介入研究とは「研究対象となる要因(特定の治療法など)を誰がどの程度受けるかという判断に、研究者が関与しているかどうか」ということに拠って分類されるのが一般的であるが、わが国の「人を対象とする生命科学・医学系研究に関する倫理指針」(令和5年3月27日一部改正)では、介入は「研究目的で、人の健康に関する様々な事象に影響を与える要因(健康の保持増進につながる行動及び医療における傷病の予防、診断又は治療のための投薬、検査等を含む。)の有無又は程度を制御する行為(通常の診療を超える医療行為であって、研究目的で実施するものを含む。)」と定義されている。その結果、わが国では、例えば比較的侵襲の大きな検査を伴う場合や、通常診療より検査回数が増える、あるいは研究用採血の追加は介入とみなされ、倫理審査において観察研究ではなく介入研究と扱われることがある。ただし、介入の解釈や判断も一定では無く、各施設や倫理委員会等で異なる場合がある。
  • 観察研究の該当性について、特に検査や医療機器等による介入の定義は、わが国と、米国(‡解説1参照)や欧州、英国等の国際間で異なる点が見受けられる(詳細は参考資料1参照)。被験者(研究参加者、研究対象者)保護の観点からは、観察研究か介入研究かを分けることに注力するよりも、その研究のリスクを明確にしたほうが良い。介入や侵襲について判断に迷う場合は、倫理審査委員会/臨床研究審査委員会事務局や規制当局または専門家等に確認する必要がある。
  • その他の注意点として、
観察研究の種類(症例集積研究横断研究前向きコホート研究後ろ向きコホート研究症例対照研究)と各分類の注意すべきポイントを理解し、適切に研究をデザインする必要がある。
無作為割り付けの行われていない観察研究では、研究デザイン上またデータ解析上様々な留意点がある(特に、バイアスへの対処交絡への対処欠損データについての報告・対処が重要)。しばしば遭遇するこのような限界を認識せず、誤ってデータの収集や解析を行ってしまうことが無いよう注意する。
査読付きの国際誌への投稿を考慮している場合は、観察研究に関してより完全な注意事項を集約した を参照することが推奨される。
事例
心臓病ハイリスク者において新規治療薬の効果を調べるために、既に該当する新規治療薬を服用している人としていない人に分け、5年後の死亡率を比較した。
(⇒だれが新規治療薬を服用するかどうかの決定に研究者は関与していないので、観察研究と分類するが、アウトカムの評価時に侵襲性のある検査等を研究目的で行う場合には、我が国の倫理指針では介入研究と分類されるので注意が必要)
米国NIHの介入(intervention)の定義は、「a manipulation of the subject or subject’s environment for the purpose of modifying one or more health-related biomedical or behavioral processes and/or endpoints」(1つ以上の健康関連の生物医学的または行動的プロセスおよび/またはエンドポイントを変更する目的で、研究対象者または研究対象者の環境を操作すること)とあり、研究対象者に作用させてその変化をみる行為としている。この定義だと、検査回数の増加や採血の追加は、研究対象者に作用させる行為ではないので、介入とはいえない(https://oir.nih.gov/sourcebook/intramural-program-oversight/intramural-data-sharing/guide-fdaaa-reporting-research-results/frequently-asked-questions-nih-clinical-trial)。いずれにせよ、判断に迷う場合には、倫理委員会に判断を委ねた方が良い。
チェック項目
観察研究チェックリスト
研究デザインに特徴的な留意事項
P 2/10
症例集積研究
  • 比較対照のない症例報告や症例集積研究のこと。
  • 新規の発見や将来の研究に向けた仮説づくりに有用だが、役立つ症例報告とするには既報告との相違点・類似点を明確に示すことが重要である。
  • 対照が研究計画の時点では設定されていないため、「要因とアウトカムとの関係」や「治療・予防法の効果」を明らかにすることはできない。
チェック項目
観察研究チェックリスト
P 3/10
横断研究
  • 同一時期に多くの研究対象者から複数種のデータを採取し、データ種間の相関を見る研究。
  • 原因と結果、すなわち曝露因子とアウトカムが同時に(一時点で)評価されており、どちらが先に起こっているかが不明なため、因果関係を示唆することはできず、相関や関連性のみ評価可能である(A associates B, A is related with Bのような言い方は良いが、A causes B, A is a risk factor for B のような表現はできない)。
事例
今年行われた健康診断で、測定されたBMIと本人が申告した睡眠の習慣との関連を調査する。
(⇒アンケート調査など本人の申告データは曝露がアウトカムより先に起こっているかどうかを客観的に評価できないため、横断的データとみなされる。症状や検査値などから疾患の診断予測を行うような研究も、症状が起こっているときや検査が行われた時にはすでに対象となる疾患に罹患しているため、横断研究となる)
チェック項目
観察研究チェックリスト
P 4/10
前向きコホート研究
  • 調査開始時点でアウトカムの起こっていない集団を追跡調査し、開始時点における形質や治療の程度や有無(曝露の有無、疾病・状態など)と追跡開始後に発生したアウトカムとの関連を見る研究。曝露がアウトカムより先に起こることにより、因果関係の評価が可能である。
  • 研究開始後にデータを収集する研究であり、組み入れ・除外基準や測定項目、追跡方法(間隔・期間等)はあらかじめ計画しておく必要がある。
  • 前向きに追跡するため、発症率の低いアウトカムを用いる場合は注意を要する。追跡期間が長くなる、あるいは必要症例数が多くなる等、研究の実現が困難となり、適さなくなることも多い。
  • 研究目的の追加データを収集する必要がなく、データが診療資料等のみであれば、後ろ向きのデータ利用のみの研究(後ろ向きコホート研究など)での実施を検討する。
  • 追加データを収集し、それに伴う侵襲がある場合は介入研究に該当する場合もあるので注意が必要。
  • 曝露の状態が追跡中に変化する場合は、曝露の変化を無視する、変化時に追跡を終了する(中途打ち切り、Censoring)等、解析を始める前に決めておく必要がある。(‡解説2の例参照)
  • 一方、曝露が追跡開始時点(ベースライン時点)で定義されておらず、追跡開始後のデータで曝露を定義する場合は、曝露が発生する前のデータを曝露ありと定義することで(immortal time bias)が起こる可能性がある。
  • 治療効果を調べる研究で、治療の状態(曝露状況)が時間とともに変化する場合、変化を無視した解析はアウトカムに影響を及ぼすことがあるので、統計解析手法についてできる限り専門家に相談し計画するべきである。
事例
心筋梗塞発症後の患者を追跡し、2年間の心血管イベント発症リスクについてスタチン服用継続群と非服用群とを比較する研究。
(⇒追跡開始時にスタチンを服用していた患者の休薬やコンプライアンス不良例は、アウトカムに影響を与えることが想定されるので、統計解析手法について専門家に相談し計画するべきである)
心房細動の患者を対象に、ワルファリンの生命予後への影響と直接経口抗凝固薬(DOAC)の生命予後への影響とを比較検討する研究で、心房細動と診断された時点ではワルファリンを使用していたが、ワルファリン開始半年後にDOACに変更した。診断時点をベースラインとする場合、この研究対象者はワルファリン群に分類されてしまう。追跡終了時点に変更を考慮してDOACに切り替わった時点で追跡を打ち切る方法と、変更を無視してアウトカムが観察されるまで追跡する等の方法が考えられる。
チェック項目
観察研究チェックリスト
P 5/10
後ろ向きコホート研究
  • 共通の背景を有する(例えば特定の疾患に罹患した)集団(研究対象者)を過去にさかのぼって調査し、あらかじめ計画していた測定値の経時的変化と当初異なった形質との相関を見る研究。
  • 言い換えると、過去のある時点(特定の年月日、あるいは各症例における疾患の発症日など)を起点とし、その時点でアウトカムの起こっていない集団を現在に至るまで追跡調査し、起点(追跡開始時点)における形質(疾病・状態など)と追跡開始後に発生したアウトカムとの関連を見る研究である。曝露がアウトカムより先に起こることにより、因果関係の評価が可能である。
  • 組み入れ・除外基準は追跡開始時点のデータにおいて定義しておく必要がある。
  • 死亡者は除外する等、追跡開始後のデータによって除外する場合は、が起こる可能性がある。
  • データは研究目的で収集されていないため、交絡となる因子を十分に収集できない、曝露と背景因子の測定のタイミングが不明である等、が起こる可能性が高いので注意が必要。
  • 一方、前向きコホート研究と同様、曝露が追跡開始時点(ベースライン時点)で定義されておらず、追跡開始後のデータで曝露を定義する場合は、曝露が発生する前のデータを曝露ありと定義することで が起こる可能性がある。
  • 曝露の状態が追跡中に変化する場合、曝露の変化を無視する、変化時に追跡を終了する(中途打ち切り、Censoring)等、解析を始める前に決めておく必要がある。(‡解説2の例参照)
  • 曝露状況が時間とともに変化し、それがアウトカムに影響を及ぼすと考えられる場合は、統計解析手法について専門家に相談し計画するべきである。(代表的な解析方法とcandidateを示すようにする)。
事例
30年前のある時点において、中皮腫に罹患のない研究対象者を30年間追跡し、追跡開始時点でアスベストを防音材として使う建設工事現場で働いていた人と、アスベストに曝露されない工事現場で働いていた人の間で、30年間における中皮腫の発症率を比較する。
チェック項目
観察研究チェックリスト
P 6/10
症例対照研究(ケース・コントロール研究)
  • アウトカム(結果)の起こっている集団を優先的にサンプリングし、起こっていない集団からはランダムサンプル等の手法を用い部分的にサンプリングする。
  • 症例対照研究の症例(ケース)とはアウトカムを意味しているので、症例という言葉に惑わされないようにする(症例ではなくケース=アウトカムという意味)。ケース(症例)という言葉を「疾患」と理解し、疾患ありなしの間で比較を行う研究のことと、誤って狭く理解している場合が散見される。
  • 曝露データ等の収集に費用や時間がかかるなどの理由で、全員のデータを解析に使用できない場合に、統計的検出力を担保しながら必要症例数の最小化を目的として行う研究であり、解析に必要なデータのすべてがすでに収集されている場合は用いない(後ろ向きコホート研究として実施可能なので)。
  • イベント発症率は算出できないが、稀なイベントを検出することが可能。
  • 結果のイベントが起こった後にデータを取得するデザインなので、作為的なデータ取得になりがちであり、慎重にデザインする必要がある(例えば、ある疾患とリスク因子の関連を調べる研究で、特定の病院Aの入院患者から症例(ケース)を集めた場合、コントロールになる研究対象者が別の都道府県に住んでいる場合、コントロールとして選出された研究対象者が仮にこの疾患に罹患したとしても、病院Aに行く可能性は低く、ケースとしてデータが取得されないので、を生む可能性がある)。
  • ある疾患とリスク因子の関連を調べる研究で、その疾患に罹患しているかどうかを把握した上で、リスク因子の有無を測定する場合、その疾患に罹患した人ほどリスクありと誤分類することで関連性を過大評価してしまうことがある。この場合、リスクの判定者に対して、疾患情報は盲検化すべきである。
事例1
新型コロナウィルス感染で重症化した患者集団のA社mRNAワクチンの接種率を、軽症に終わった患者集団の接種率と比較する。
(⇒軽症に終わった患者全員のワクチン接種についてすでにデータが取得済みの場合は、症例対照研究ではなくコホート研究となる。症例対照研究は、ワクチン接種についてのデータが研究開始時点で取得されていない場合、重症化した患者については優先的にワクチンの接種有無についてデータを取得するが、軽症に終わった患者については全員でなく部分集団を用いる場合に相当する。軽症に終わった患者のうち誰のデータを取得するかについてはランダムサンプル等が用いられることが多い)
事例2
前立腺がん患者で発症5年以内に亡くなった人(ケース)と、前立腺がんを罹患しているが発症から5年以降生存している人(コントロール)との間で、PSAによるスクリーニングの割合を比較する研究。
チェック項目
観察研究チェックリスト
共通の留意事項
P 7/10
  • 研究を信頼でき、意味のある(科学的に妥当である)ものにするためには、研究結果の内的妥当性と外的妥当性の両方を満たす必要がある。
    • 内的妥当性とは、研究結果が、研究データが収集された集団で正しく因果関係を検証できていること。
    • 外的妥当性とは、研究結果が得られた直接的な集団のみでなく、研究データが収集された母集団においても得られた研究結果が当てはまる(一般化できる)こと。
  • 例えば、二重盲検の無作為化試験の結果は、内的妥当性は成り立つと考えられるものの、外的妥当性が成り立ちにくいと言われている。特に組み入れ・除外基準をより厳しく設定する場合、研究に参加した集団では研究結果は正しいかもしれないが、実臨床の患者と研究の参加者が大きくかけ離れる場合が多く、研究結果を実臨床に反映することが困難なことが多くある。最近では、研究結果をより実臨床に反映させるため、組み入れ基準や除外基準を厳しく定めない(より実臨床に近づけた)Pragmatic Trialという、より実践的な臨床試験が多く実施されてきている。
  • 内的妥当性がない研究はそもそも外的妥当性が成り立たない。内的妥当性と外的妥当性を評価する場合、、交絡バイアスの3つのを考慮する必要がある。
観察研究チェックリスト
P 8/10
バイアスへの対処
  • データの誤分類を情報エラーというが、 とはアウトカムに関連する情報の が比較群間で偏って起こることで生じる。
  • 影響を与えるバイアスを網羅的に検討することが必要なのだが、研究者自身だけではバイアスに気付き難いため、研究組織全体・研究者間で検討してみることが重要である。
  • とは、曝露、背景因子、アウトカムの測定における誤分類で、比較群間で情報の質(正確さ)が異なる場合に起こる。情報バイアスは統計解析では調整できないので研究デザインの段階で考慮に入れる必要がある。
  • とは、研究への研究対象者の選択が、研究結果を一般化したい母集団と系統的に異なる集団である場合に起こる。選択バイアスは統計解析では調整できないので研究デザインの段階で考慮に入れる必要がある。
  • バイアスとは、アウトカムに影響を及ぼす因子が曝露群間(比較群間)で異なる場合に起こる。例えば、治療効果を比較する場合に、重傷者ほど治療を受けやすい等、治療選択に関連する因子がアウトカムに影響を及ぼす場合に起こる治療選択バイアスは交絡バイアスである。交絡バイアスは選択バイアスと混同されることが多いが、交絡バイアスは内的妥当性に影響し、選択バイアスは外的妥当性に影響する。この交絡バイアスは統計解析手法を用いて調整することが可能であるが、選択バイアスは統計手法で調整することはできない。
    (例)ある大学病院のデータベースを用い心臓病ハイリスク患者に対しアスピリンの心血管疾患発症予防の有効性と安全性を調べる研究において、年齢、性別、BMI、喫煙状態、心疾患の既往、合併症(糖尿病、高血圧、脂質異常症)の有無など背景因子のずれを調整するため、を行った。多変量解析では、解析で用いられた因子の一つでも欠損した場合、その患者のデータを解析で用いることができない。この場合、多変量解析により交絡バイアスは調整できる。つまり、内的妥当性は成り立つが、欠損値のある患者データを解析から除外することで、選択バイアスが起こり、結果の一般化が困難になり、外的妥当性が成り立たなくなる。
事例
無作為化比較試験で、新薬で強い副作用が起きたことでプラセボ群よりも多くの研究対象者が研究から脱落している場合、プラセボ群で死亡者の割合がより多く出たとしても、それは新薬群において脱落により死亡が確認できないことによるのかもしれない。
(⇒この場合、脱落が比較群間でランダムに起こっていれば、新薬の効果は過小評価(Bias toward the null)より保守的な結果となるのでそれほど問題とならないが、脱落が比較群間でランダムでない場合(偏りがある場合)解析結果にバイアスが生じる)
チェック項目
観察研究チェックリスト
P 9/10
交絡への対処
  • 無作為化の行われていない観察研究では、比較群間に背景のずれが生じることが多い。この背景のずれを解析で考慮せず、アウトカムを比較する場合に、曝露とアウトカムとの因果関係が無くても誤って関連があるかのような結果になることがある。
  • 研究デザインの段階で、因子の影響を考慮し、対象の選択(組み入れ・除外基準やの基準等)を検討することが重要である。
  • 交絡は以下の3つの条件がすべて重なって起こる。(‡解説3の例参照)
    交絡因子がアウトカムに対して因果関係を持つ。
    交絡因子が研究対象因子である曝露因子と相関関係にある。
    交絡因子は曝露因子とアウトカムの関連に対して中間因子ではない。
    ※中間因子:媒介因子とも呼ばれ、曝露とアウトカムの因果経路の一部として影響を及ぼす因子。例えば、スタチンはコレステロール値を下げることで心血管イベントのリスクを下げる。この場合、スタチン投薬後のコレステロール値はスタチンと心血管イベントに関して中間因子となる。

    (新谷 歩 著『あなたの臨床研究応援します:医療統計につながる正しい研究デザイン、観察研究の効果的なデータ解析』、羊土社、2019、p.101より抜粋)

  • データ解析においては、誤った統計手法を用いると誤った結果を導く可能性があることに留意する必要がある。データ解析段階で観察データの交絡因子を制御できる対応方法として、や多変量やマッチングがある。
  • 層別解析とは、交絡の有無によってデータを別々に解析する手法である(スタチン投与群と非投与群で年齢の分布が異なる場合、高齢者と若年者に分けてスタチンの効果をそれぞれ解析する等)。
  • 多変量回帰分析とは、観察研究では、曝露の有無以外の複数の背景因子を説明変数として回帰分析で考慮することにより背景因子のずれから引き起こされるアウトカムのずれを数学的に計算し、調整する方法である。
  • マッチングとは、曝露あり群の研究対象者と背景が一致した曝露なしの対象者を個々に選択し、研究に組み入れることで比較群間の背景をそろえる方法である。複数の背景因子を同時にそろえる方法として、によるマッチングがある。
  • 傾向スコアとは、背景情報をもとに計算した各研究参加者が曝露を有している(研究対象となる治療を受けている)確率のことであり、処方確率とも呼ばれる。傾向スコアは、マッチングの他に、層別解析や解析などに利用される。
  • 層別解析や、傾向スコアを用いたマッチングや重み付けなどを行う場合には、その具体的な手法について事前に決定しておくことが望ましい。
  • いずれの場合も、交絡除去に対応できる十分な症例数を確保することが重要である(参考資料2参考資料3)。
事例1
ダークチョコレートを好む人とミルクチョコレートを好む人について寿命を比較したところ前者が有意に長かったので、チョコレートはダークの方が健康に良いと結論付けたが、ダークチョコレートを好む人は、とかく、食事や運動といった生活習慣を健全に保つことによる差なのかも知れない。
事例2
新薬と既存薬の影響を比べる場合、新薬を用いた人は重症な人が多かったために、新薬と既存薬の効果に違いがなくとも、新薬に効果がないという結果になることがある。
高コレステロール血症の患者さんを対象に、スタチン投与群と非投与群で心血管イベントの発症率を比べる研究において、スタチンを投与された対象者の平均年齢が非投与群より10歳高齢であった場合、投与群のほうが心血管イベントの発症率が高いという結果が出たとしても、それはスタチンが原因であるとは言えない。この場合、アウトカムである心血管イベントに対して因果関係を持つ「年齢(交絡因子)」が比較群間で偏っている(年齢とスタチンの投与の有無の間に相関がある)ことにより、見せかけの関連性が出てしまうことを指す。この場合、スタチン投与後のコレステロール値は中間因子となる。スタチン投与群と非投与群で投与後のコレステロール値が異なっていても、これは交絡とは考えない。なぜならば「スタチンを投薬したことに起因してコレステロール値が下がる」と考えられるので、コレステロール値は交絡因子ではなく、中間因子として扱う。
チェック項目
観察研究チェックリスト
P 10/10
欠損データについての報告・対処
  • 欠損データは研究対象者が来院しなかった、データの取得忘れ、データの入力し忘れなどが原因で生じる。本来得られるはずだった解析結果が得られにくくなったり、データ数が少なくなったり、研究の信頼性に係わるなど、不都合が生じる可能性がある。
  • したがって、本来はすべてのデータを取得し欠損データが生じないように、計画時に慎重に検討し、欠損によって起こりうる影響(結果)と、それに対処するための戦略を検討することが重要である。
  • 多くの統計手法はデータに欠損がある研究対象者を除去するため、解析では欠損値のないコンプリートデータのみを用いた手法が使用されているが、欠損が完全にランダムに生じている場合を除いてが生じる可能性がある。
  • 例えば、では、解析で用いられた変数が一つでも欠損している場合、その研究対象者(研究参加者)全体のデータが解析から除外される。それにより選択バイアスが起こる可能性がある。
  • イベント情報などに欠損がある場合、「イベントなし」と分類することによってが生じているケースがある。イベントの有無などのデータにおいては、未回答等の欠損データによりイベントなしに分類されたのか、回答ありでイベントなしに分類されたのか区別が必要である。
  • 最近では、観察された情報を用いて、統計的に欠損データを推測し補完(代入)する方法(など)もあり、コンプリートケースのみによる選択バイアスを防ぐために、その使用が推奨されている(参考資料4)ので、欠損データの取り扱いについて研究計画段階で検討しておくことが必要である。
チェック項目
観察研究チェックリスト
参考資料
  1. 令和3年度厚生労働科学特別研究事業(堀田班)「臨床研究法見直し審議における新たな課題・論点への対応策の確立のための研究」
    資料2「欧米での観察研究(非介入研究)の規制上の取り扱いに関する調査結果」
    https://mhlw-grants.niph.go.jp/system/files/report_pdf/202106010A-sonota2.pdf(最終閲覧日2024年3月8日)(p.1に戻る
  2. 新谷 歩、『今日から使える医療統計』医学書院、2015年。(p.9に戻る
  3. AMED研究公正高度化モデル開発支援事業「医系国際誌が規範とする研究の信頼性にかかる倫理教育プログラム」
    https://www.amed.go.jp/page_000001_00542.html(最終閲覧日2024年3月8日)(p.9に戻る
  4. 高橋 将宜他、「様々な多重代入法アルゴリズムの比較―大規模経済系データを用いた分析―」『統計研究彙報』第71号、2014年、pp39-82。(p.10に戻る
  5. Washino S, et al. Association between immune-related adverse events and survival in patients with renal cell carcinoma treated with nivolumab plus ipilimumab: immortal time bias-corrected analysis. Int J Clin Oncol 28, 1651–1658 (2023).
    https://doi.org/10.1007/s10147-023-02406-x


本単元は、APRINの研究者コミュニティの協力を得て、日本の法律・指針その他に沿って作成された教材です。作成・査読に参加した専門家の方々の氏名は別に記載させていただきました

© 2024 Association for the Promotion of Research Integrity