お買い得アイテムが大集合!買うならやっぱり楽天市場

2025年05月27日

欠損値

欠損値(欠測値、欠損データ)とは
本来入力されるべきデータがない状態のことです。

言い換えればデータベースの中で、

 空欄
 NA(Not available)
 ''
 9999などの極端な数字

といった数値等が入力されているところです。

欠損データによる問題点としては
代表的には3つの問題を生じうることと
認識しておきたいものです。

1:バイアス

 ICH E9でも欠損値は臨床試験において
 偏りを起こし得る代表的な原因とされています。

 影響としては内的妥当性が低下します。
 つまり研究対象者と同じ集団に対して
 同様の介入を行った場合でも
 同等の結果が再現される可能性が低くなるということです。

 また比較可能性が低下します。
 RCTで群間での欠損割合、欠損理由が異なる場合、
 ランダム化で保証された比較可能性が崩れます。
 つまり治療効果の比較にバイアスが生じるということです。

2:測定精度/研究の質の低下

 情報量が減り、治療効果等の推定精度が下がります。
 つまり欠損値が多い程、研究の質が低下します。

3:統計的処理が不可能になる

 統計モデルや解析手法によっては
 欠損値を含むと統計的処理が不可能になる場合があります。

ということで欠損値が発生しないように
できるだけ色々な対策をしましょう。

もちろん欠損値データの解析という分野があり、
補完などの善後策もありますが、
やっぱり欠損値がない方が1番ですからね。

よろしければ応援クリックお願いします!
にほんブログ村 病気ブログ 医者・医師へ
にほんブログ村
ラベル:欠損値 とは 補完
posted by いしたん at 18:50| Comment(0) | TrackBack(0) | 統計 | このブログの読者になる | 更新情報をチェックする

2025年05月24日

がん統計

がん統計は悪性腫瘍の疫学として
非常に重要なものですので、
代表的な統計指標と統計システムは
医師であれば知っておきたいものです。

 死亡率:率
  一年あたりのがん死亡数を住民数(住民人年)で割った値
  統計システム
   厚生労働省の人口動態統計
   6ヶ月遅れで概数が、9ヶ月遅れで確定数が報告
 罹患率:率
  一年あたりの新規診断がん患者数を住民数(住民人年)で割った値
  統計システム
   10–30府県市の地域がん登録(1975〜2015年)
   全国がん登録(2016年から):つまり実測値になった
 生存率:累積割合
  (5年)時点におけるがん生存者数を観察開始時のがん患者数で割った値
  統計システム:全国がん登録、院内がん登録、臓器がん登録
 有病率:断面割合
  ある一時点におけるがん生存者数を住民数で割った値
  罹患率と生存率より計算
 生涯リスク:累積割合
  死ぬまでに1度でもがんと診断される割合
  死亡率と罹患率より計算
 受療率:断面割合
  ある一時点において医療機関を受療したがん生存者数を住民数で割った値
  統計システム:厚労省の患者調査

実際のデータは国立がん研究センターの
がん情報サービスなどから見ることができます。

よろしければ応援クリックお願いします!
にほんブログ村 病気ブログ 医者・医師へ
にほんブログ村
posted by いしたん at 23:52| Comment(0) | TrackBack(0) | 統計 | このブログの読者になる | 更新情報をチェックする

2025年05月20日

ロジスティック回帰分析

ロジスティック回帰分析とは基本的に
1つのカテゴリ変数(医学研究では発症とか死亡とか)を
連続変数で予測するための回帰分析の手法です。

特にカテゴリ変数が二値である場合は
二項ロジスティック回帰という
最もシンプルな解析になりますので、
まずは二項ロジスティック回帰から理解しましょう。

目的変数がカテゴリで0か1しかないため
単回帰分析のような回帰直線を引くことが
そもそも問題だということがわかると思います。

そこでy = ax + bのyのところを工夫します。

カテゴリー変数があるカテゴリとなる確率をpとします。
pをロジット変換します。
つまりLogit(p) = ln(p/(1-p))ですね。
この数値はp=0.5の付近で
ぐいっと傾きのある直線に変化するので、
ax + bで近似しやすい形であるという訳です。

このためこれを上記の式のyに入れ込むということです。

少し変換するとp = 1/(1+ exp(-ax-b))になります。
これを解いてaとbを求めていく訳ですが、
この時に最尤法(最尤推定量)を用います。
つまり対数尤度関数の一階偏微分=0を解くのですが、
実は最小2乗法と違って明示的には解けないので
反復計算(ニュートン・ラフソン法など)を用いて推定します。

その後は回帰式の適合度を判断します。

まずは上記をご理解いただければ
わかりやすくなるのではないかと思います。

応用として、説明変数が複数ある場合は、
説明変数同士の交絡を調整した上で、
オッズ比を見ていきます。

よろしければ応援クリックお願いします!
にほんブログ村 病気ブログ 医者・医師へ
にほんブログ村
posted by いしたん at 22:00| Comment(0) | TrackBack(0) | 統計 | このブログの読者になる | 更新情報をチェックする
SEO対策テンプレート
医師の気持ち