本来入力されるべきデータがない状態のことです。
言い換えればデータベースの中で、
空欄
NA(Not available)
''
9999などの極端な数字
といった数値等が入力されているところです。
欠損データによる問題点としては
代表的には3つの問題を生じうることと
認識しておきたいものです。
1:バイアス
ICH E9でも欠損値は臨床試験において
偏りを起こし得る代表的な原因とされています。
影響としては内的妥当性が低下します。
つまり研究対象者と同じ集団に対して
同様の介入を行った場合でも
同等の結果が再現される可能性が低くなるということです。
また比較可能性が低下します。
RCTで群間での欠損割合、欠損理由が異なる場合、
ランダム化で保証された比較可能性が崩れます。
つまり治療効果の比較にバイアスが生じるということです。
2:測定精度/研究の質の低下
情報量が減り、治療効果等の推定精度が下がります。
つまり欠損値が多い程、研究の質が低下します。
3:統計的処理が不可能になる
統計モデルや解析手法によっては
欠損値を含むと統計的処理が不可能になる場合があります。
ということで欠損値が発生しないように
できるだけ色々な対策をしましょう。
もちろん欠損値データの解析という分野があり、
補完などの善後策もありますが、
やっぱり欠損値がない方が1番ですからね。
よろしければ応援クリックお願いします!

にほんブログ村