信頼性について


1.信頼性係数のお話…その定義と注意点

信頼性(reliability)とは,テストにおける回答の安定性・一貫性を指していると考えてもらえればよいでしょう.信頼性係数とはその信頼性を数値化した指標で,古典的テスト理論という理論では「テストから得られる分散のうち,真の得点(分からない人は読み飛ばしても大丈夫です)の分散の比率」という定義になっています.さらに,このことを言い換えると,「テストから得られる分散のうち,誤差の分散を除いた部分の比率」ということもできます.このように考えると「真の得点の分散」もしくは「誤差の分散」が分かれば信頼性はすぐに求められるような気がします.しかし,実際上「真の得点」というのは理論上のもので,実際に直接は計算することはできないところがポイントです.従って,いくつかの方法を使って推定することになります。

この推定方法ですが,一定の期間を置いて再テストし,相関係数を信頼性係数とする「再テスト法」.一つのテストを折半し,二つのテストとみなし相関係数をとる「折半法」,関心下のテストと観測得点の平均と分散が等しいテストを作成し相関係数をとる「代理テスト法」,そして「α係数」(後述)による信頼性係数の推定などがあります.

このように推定方法がたくさんあるということは,何を意味しているのでしょうか.それは,「信頼性係数は多義的である」ということです.それぞれの推定方法によって,「誤差」の意味するところが違います.例えば,再検査信頼性なら,時間の経過に伴う人の変化が,誤差になるでしょう.折半法(α係数)ならば,項目の間のばらつきや,項目回答時の瞬間瞬間の揺れが誤差になります.そして,その誤差の意味の違いによって,信頼性の意味も変わってくるのです.再テスト信頼性ならば,「時間的に安定している」という意味での信頼性です.折半法やα係数ならば,「項目間で回答が一貫している」という意味の信頼性です.信頼性係数を調べるならば,どのようなことに関する信頼性なのかを常に意識する必要があります.例えば状態不安のように期間をおいて変化するようなものを測るテストに対し「再テスト法」で信頼性係数を測定するのは,適切ではありません.逆に特性不安のように長期的な安定性が重要なものを測定するテストに「α係数」だけで信頼性を報告しても充分ではないでしょう.


余談ですが,この考え方を拡張し,「何に対する信頼性か」ということをしっかりと分離する分析があります.一般化可能性理論(Generalizability Theory)というものです.日本語ではあまりテキストは多くありませんが,文末に記しておきました.興味のある方は調べてみてください.


なお,信頼性は尺度の項目数を増やすことで高まることが知られています.信頼性の高い尺度を作りたいのなら,項目数を充分にとる必要があるでしょう.


さて、信頼性に関する注意点がいくつかあります。

まず,2つのテストがあり,両テスト間に正の相関がある場合を考えます.このとき,その差得点の信頼性はかなり低くなってしまうということが分かっています.少し難しく表現してしまいましたが、これはプロフィールデータの解釈に大きな影響を与えます。例えば5教科の学力検査のプロフィールデータを用いてその人が理系向きか文系向きかを判断するということは日常よく行われていると思いますが、成績間の相関が高ければ信頼性はかなり低まり(例えば国語の信頼性係数0.7、数学の信頼性係数0.6、両者の相関0.5なら、差得点の信頼性はなんと0.3になってしまう)、危険な判断を犯すことになりかねません。

ただし,「差得点の信頼性が低い」というと,事前-事後デザインのデータで差得点を使用して検定することがいけないと思うような人もいるかもしれません.それは決してそのようなことはありません(以下は個人的な意見です).少し難しくなりますが,差得点の信頼性が低いということは,真値の分散が小さいことを意味しています.すなわち,処遇の効果のばらつきが小さいことを意味しています.すなわち,どのような人に対しても,処遇が一定の効果を持っているということです.これは,実験をする側からすれば望ましいことではないでしょうか.「真値の分散が大きいほどよい」という信頼性の論理は,個々人の識別という観点からは非常に意義があると思います(みんなが同じ得点をするようなテストは,テストとしての意味がない).しかし一方で,「一定の効果を検出する」という統計的検定の観点から言うと,必ずしも意味のあることではないと思います.事前-事後デザインの実験的研究では,「処遇の効果を個々人で識別する」ことを目的としていない以上,その信頼性を議論するのは少し的外れではないでしょうか.


話がそれましたが,また注意点に戻ります.信頼性が低いテスト同士で相関を取った時には、その相関係数が真の値よりも希薄化することも知られています.調査データなど,実際でータを取ってみて意外に変数間の相関が低いと驚いた人もいるかと思いますが、それらは全て誤差の混入による信頼性の低下が原因です.たかが相関の希薄化,と思うかもしれませんが,変数の相関行列は因子分析などの多変量解析の基本となるものなので,案外看過できないものがあります.一応「希薄化の修正公式」というもので希薄化は修正できます.しかし,この希薄化を修正して相関係数を報告している論文はほとんど見当たりません.それは,希薄を修正するために,テストの信頼性を知る必要があるからです.信頼性は先ほど述べたように多義的な概念であるため,研究者が任意の信頼性を用いて希薄化を修正しても,それが正確な推定値(真値同士の相関)を意味しているとは限らないのです.

なお,近年「共分散構造分析」という手法が急速に広まっています.この手法は潜在変数というものを導入することによって,誤差を分離し,相関の希薄を修正した上で分析を行ってくれます.ただし,この場合にも上に書いたように信頼性の多義性の問題がつきまとっている点には注意した方がいいと思います.

信頼性が低いと、検定における検出力(差があるときに有意差があると結論できるpower)が低まってしまうという欠点もあります.調査などでしっかりとした有意差を出したい時には,信頼性の高い項目を使うべきでしょう.しかしながら逆に,有意差があれば、信頼性のあるないは検定に関しては問題になりません。ある研究で信頼性の低い項目で有意差を検出した時、そんな結果には意味がないと思う人がいるかもしれませんが,検定だけに関して言えば、信頼性が低く検出力が低いのに関わらず有意差を出したというだけのことで,むしろ自信を持っていいことになります.

信頼性が集団依存的であるということも心に留めておく必要があると思います。信頼性はあくまで測定された集団内ではじめて産出されるものですから、例えばアメリカの標準化され、信頼性も高い質問紙を使う際にも、改めて自分が調査した集団内での信頼性係数を求める必要があるでしょう。

信頼性は妥当性の必要条件である、ということも最後にあげておきたいと思います.信頼性が低い尺度は、妥当性も必然的に低くなります。妥当性を吟味する上で、信頼性を見ることは一つの要件だと言えるでしょう.ただしこの命題(信頼性は妥当性の必要要件である)に関しては批判的に吟味することも可能です。これに関しては次のα係数のところで触れます。



2.α係数のお話…その定義と注意点

まず,α係数とは何であるか確認しましょう.1.で,「折半法」というものがありました.テストを折半して相関係数を取る方法です。しかしながら、実際上テストの折半方法はいくらでも出てきます.そこで,考えうる折半方法すべてに関して信頼性係数を求め,それを平均したのがα係数です.では、α係数とは具体的に何を表しているでしょうか? それは、同じ尺度内での内的一貫性というものを表しているといいます.1つの尺度内で,同じように回答されている(ある項目に高い評定をした人は,残りの項目でも高く,低くつけた人は残りの項目でも低く評定する)傾向です.つまり,極端な話、同じ尺度内ですべて同じ反応をした場合,α係数は1になります.逆に同じ尺度内で他と違うふるまいをする項目があったとき.α係数は低下します.


質問紙などで尺度を作り、データを取ったときα係数を報告し信頼性を確認します。この時どれくらいが必要な値かは、特に決められていません。その質問紙の性質にもよりますが、一般的に心理的な構成概念を測定するのなら0.7以上は欲しいところでしょう。


α係数はよく用いられていますが、案外その問題点は考えられていません。思いつくものをいくつか挙げてみます。

まず,上述したようにα係数は内的一貫性を報告するもので,あくまで信頼性の一つの推定値です.したがって、これを報告しただけで信頼性が確かめられたと安易に結論してはいけません(そのような問題を避けるために,α係数を信頼性ではなく「内的一貫性」と呼ぶことがあります).もっとしっかりした尺度を作るのなら他の方法を用いて信頼性を確認する必要があります。

また,α係数はその定義式から、信頼性係数の下限値であることも知っておくといいでしょう。このことは,逆にα係数を用いて相関の希薄化を修正すると(分母に信頼性を代入するので)その真の値をOverestimateする恐れがあることも示しています.

α係数はその尺度内での一貫性を表す指標なので,極端な話,全く同じ項目を二つ並べるとα係数は1になってしまいます。つまり項目数が少なくても,非常に似通った項目を作れば,α係数は高まってしまうのです.この点には特に注意する必要があります。現実の問題として,心理学の構成概念のような曖昧なものは,一つや二つの項目で測定できるものではありません.少しずつブレのある多数の項目を用いて,初めて測定できるものです.つまり非常に似通った少数の項目を使って尺度を構成したとき、確かにα係数は高まるかもしれませんが,それでは測定しようとする構成概念を測定できない,言い換えると妥当性の面で問題が生じる可能性があります.構成概念をきちんと測定するためにはある程度内的一貫性を犠牲にしなくてはならない,この一種のパラドックスは通信理論のアナロジーを借りて「帯域幅と忠実度のジレンマ」と呼ばれます.またこのことは「信頼性は妥当性の必要条件である」という命題にも一石を投じる話です(要は信頼性の多義性が根本なのですが).

上記の話は,例えば項目分析でα係数を低める項目を削除することをもう一度考え直すいいきっかけになるでしょう.何もα係数が高ければいいというものではないのです.項目数を減らして信頼性を高めるというパラドクシカルな状態を,もっと自覚化する必要があると思います.たかだか2〜4項目で高いα係数があったとしても,妥当性の観点からは意味があまりない場合が多いのです



α係数に似た信頼性の指標に,ω係数(オメガ係数)というものがあります.これは,因子分析を行い,その因子負荷と誤差分散を用いて算出することができます.これもやはり内的一貫性を表す信頼性の指標だと考えてもらってよいです(α係数において,ある制約を外したものがω係数です).制約がない分,より正確な信頼性の推定値になっていると思います.しかし,オメガ係数は因子負荷を推定することからも分かるように,推定すべき母数が多いため,被験者が少ないと,ω係数自体が不安定になる可能性があります.この点には注意する必要があるでしょう.

≪参考:一般化可能性理論のテキスト≫
現代テスト理論 池田央著 朝倉書店
違いを見抜く統計学 豊田秀樹著 講談社ブルーバックス
John Wiley. Linn, RL (Ed.) (1989) Educational measurement (3rd ed.). Macmillan. (池田 央・藤田恵璽・ 柳井晴夫・繁桝算夫 (編訳) (1992).教育測定学 第3版.みくに出版

質問はこちらまで

Kouのホームページ   HOME