ようこそ ゲスト さん、新規登録(無料)して気になる疑問を解決しませんか?

質問

質問者:myteac 統計処理について
困り度:
  • すぐに回答を!
統計処理の選択がわかりません、どうかお教えください。
例えば。
太っているグループと痩せているグループの2グループについてその要因を検討する場合。
二つのグループに対して年齢や御飯を食べている回数、運動の回数など の具体的数字によるデータが検出されるものと、アンケートによる二件法、五件法のデータで出る検出される場合の統計処理方法についてお尋ねします。
 この場合には、t検定とX二乗検定で統計処理ができ、有意差の有無が判 定できるものなのでしょうか? 
 それとも他にもやった方が良い統計処理があったらお教えください?
質問投稿日時:08/04/21 00:20
質問番号:3963815
最新から表示回答順に表示

回答

 

回答者:kgu-2 >2)でつまずいてしまいます
これは、結果を元に、検定法を探すからです。アンケートは、結果を出す前に、その処理まで考えてするべし、というのが基本です。先に書き込んだように、統計学の授業は、完全な落ちこぼれでした。それでも、「データを出してから、処理法を考えるのは間違い」と言われたことは、記憶に残っています。もっとも、当時は『何のことやら』でしたが。したがって、つまずくこと自体が間違いです。すなわち、ご自身で処理できるようにしてから、アンケートを実施すべきです。
 私は、30年近くやっていますが、t検定、カイ2乗検定、回帰分析しかできません。動物実験ですから、この検定法で処理できるように計画をたてます。たとえば、0、10、20mg/kgと3つの投与量で実験すると、「多変量解析」とお偉い先生からクレームがきますので、0と20の2つの投与量でt検定をします。自分の能力に合わせて、背伸びをしないことにしています。
 ちなみに、アンケートは、回答を羅列するか全体の%を円グラフにして示すくらいで、検定をしようとすとると、統計学の中では最も難しいと思います。
 「ある」と「なし」、対象の集団は2つに分けられるなら、カイ2乗検定ができます。まず、これをやって慣れること。有意差が出ないなら、質問を変えるか、次の検定法を学べば良い。ただ、人間相手の統計処理は、予想外の回答があったりして、簡単にはいきませんが。

>カイ2乗検定は、三件法とかのアンケートデータだけではなくAグループ、Bグループの年齢や体重や経験年数などの数字データ処理解析にも使用できるものなのでしょうか?
 健常者と患者、「ある」「なし」は、体重60kgより「上」「下」で分ければ、体重60kgのより上か下かによって、その病気になりやすいことを示すことができる可能性は、あります。ただ、60kgが適切だったかどうかが一番問題になります。
 現実には、有意差は見出しにくいので、他の検定法を選びます。それでも、有意差が出ればそれでOKですが、「有意な差は見られなかった」と主張しても、「検定法が悪い」と批判されます。

>それとも他にもやった方が良い統計処理があったらお教えください?
人間相手で、回答が数字なら、F検定が妥当かと。ところで、お一人でされているのでしょうか。ときどき、大学などの指導者がいるときに、横からアレコレ言うのは、研究上でのマナー違反になるので、いつも「以下は独り言です」と、書きはじめるのですが。
種類:回答
どんな人:経験者
自信:自信あり
回答日時:08/04/28 10:35
回答番号:No.4
この回答への補足この回答に補足をつける(質問者のみ)
この回答へのお礼いろいろとご助言ありがとうございます、とても勉強になりました。最近では寝ていてもあれこれ頭の中に浮かんでくるのでとても寝つきの悪い日々を過ごしていましたがこれで眠りにつくことができそうです。アドバイス通りにカイ2乗検定から慣れていきたいと思います。また、投稿することがあるかもしれませんが見かけたらまたのご助言をよろしくお願い致します。

回答

 

回答者:kgu-2 >あまりにも無知で少々恥ずかしいのですが
私も、大して変わりません。多変量解析はしないことにしている初心者ですので。学生のとき、この科目は教科書持込だっですが、どこを写して良いのかわからず、1時間中教科書を捲っていました。答案には、何を書いたか記憶が全くありません。

>「ある」「ない」の二件法にしてしまった場合には、それはアンケートを用いた統計解析としては評価されにくいのでしょうか?
そんなことは、ありません。有意差を出しにくいだけです。
 ある予防接種が有効か否かの判断は、しなかった群とした群のそれぞれが、その病気にかかった(「ある」)とかからなかった(「ない」)の2から、カイ2乗検定をして判定します。
 有意差を出しにくし理由は、情報量が少ないからです。例えば、タバコを1日に1本吸う人と20本吸う人では、健康への影響が違います。しかし、どちらも喫煙経験「あり」で同じに分類されます。
 私は、横軸に喫煙本数、縦軸に肺がんになる確率を取って、相関分析をします。

 検定の要点は、
1) 有意差を見出すこと
2) そのためには、理論的に正しければ、どの検定法でもOKです。t検定では有意差がでないが、U検定では出たなら、それは有意差ありです。
 
私は、検定の発達段階として
1) 検定法を指示すればマニュアルどおりの処理ができる(エクセルで検定ができる)
2) 多くの検定法の中から、適切な検定法を選択できる
3) 結果の正しい解釈ができる
4) 他の人の誤りを指摘できる
5) 結果を、現実の社会で応用できる
 と考えています。

2)の段階で、多くの人が立ち往生しますが、優位差がでれば、科学の世界では勝ちです。逆に言えば、有意差が無いと、何も言わせてもらえません。

 どの教科書にも書いていませんが、現実には、5)が最も難しい。No2に書いた数字はミスしていますが、60.0±1と60.1±1でその差わずか0.1でも、大勢の人数を調査すれば、有意差は出せます。その差は、0.1kg。これが体重なら、現実社会では気になりませ。が、金の重さなら、そして単位がkgできなく、tなら、60.1の集団の人とお友達になりたいのが普通でしょう。

 だいぶ先走りましたが、統計は「習うより慣れろ」です。まず、やってみること。アンケートの「ある」「なし」でのカイ2乗検定くらいから、はじめられては。有意差がでなければ、質問内容を変えるとか。一番効果のあるのは、対象人数を増やすことです。
種類:回答
どんな人:経験者
自信:自信あり
回答日時:08/04/25 12:34
回答番号:No.3
この回答への補足度々のご助言ありがとうございます。それなりに書物はよんだのですが、2)でつまずいてしまいます。またの初心者質問で申し訳ないのですがカイ2乗検定は、三件法とかのアンケートデータだけではなくAグループ、Bグループの年齢や体重や経験年数などの数字データ処理解析にも使用できるものなのでしょうか?
この回答へのお礼この回答にお礼をつける(質問者のみ)

回答

 

回答者:kgu-2 ご質問は、統計処理の中でも、検定の方法と想うので、

>t検定とX二乗検定で統計処理ができ、 
 動物を用いた実験なら、t検定でしょう。カイ2乗検定では、困難かと。 人の場合は、年齢、性別はもちろん、居住地、職業、家族関係、遺伝などなど多くの因子を調整する必要があります。ボランティアなら、使用前、使用後のように、対応のある場合のt検定だと、これらの要因はあまり注意しなくても済みます。が、私は2食は嫌だし、運動も好きではありませんので、協力しません。というわけで、ボランティアを集めが大変で、製薬会社だと社員に報酬を払います。その額も数十万円の場合もあり、ちょっとしたボーナスですが、どんな副作用があるか分からないので、命がけに近い感じれば、高額とばかり喜んではいられないようです。
 
>有意差の有無が判定できるものなのでしょうか?
 判定は、できるかできないかではなく、できるように計画を立てます。初歩的なご質問なので、現実に検定をするには、専門的な知識をお持ちの方とご相談して、実行するべきです。「数字があるので、どのような統計を」の書き込みを見かけますが、統計学を利用する場合の、基本的な誤りです。

 検査などで数値が出ている場合は、エクセルなどで、簡単に検定と言われる計算はできます。しかし、その対象者をどのように選択するのか、欠落した値をどうするのか、などなど、適切に処理するのは、初心者では難しいかと。
 アンケートの処理は、さらにに難しい。対象者を適切に選べるか、また質問の項目、表現によっても回答が変化します。例えば、回答は記述なのかマークシートなのか、その場合選択を、非常に良い、良い、普通、悪い、非常に悪いの5択だと、普通を選ぶ人が多いのは、定説です。これを避けるためにいろいろな工夫がされています。

 統計処理の目的は、「有意差を出す」ことです。「差が無い」ことは、主張できません。また、その差が大きいとか小さいとかもいえません。
 そして、現実には、意味が無い場合も少なくありません。例えば、100人について測定し、ご飯を3回食べている人の体重は、60.1±1kg、3回の人は、601±1kg、になれば、統計学的には、大声で「有意差有り」と結論を主張できるでしょう。しかし、その平均値の差が0.1kgでは、ご飯を食べる回数を1回減らす人がいるとは思えません。
 検定で「有意差有り」と言うには、かなり難しいのですが、それを現実にどう解釈・説明するかは、もっと困難でということを認識して始めて下さい。
種類:回答
どんな人:経験者
自信:自信あり
回答日時:08/04/24 11:33
回答番号:No.2
この回答への補足ご回答ありがとうございます。あまりにも無知で少々恥ずかしいのですが、恥ずかしいついでに今後の参考として伺いたいのですがアンケート回答の数項目をすべて「ある」「ない」の二件法にしてしまった場合には、それはアンケートを用いた統計解析としては評価されにくいのでしょうか? 例えば、「毎朝、朝食を食べていますか?」(ある、ない)とか、「何々に参加していますか?」(ある、ない)。と言うような。
この回答へのお礼この回答にお礼をつける(質問者のみ)

回答

 

回答者:usokoku まず、因子の選択という問題があります。
統計以外の手段で、「年齢」が体重に影響を与えている理由を見つけてください。これが見つからないと、「たまたま年齢の因子が影響の出る群だった」ので統計処理自体(平均値の差の検定等)が意味がないという結論になってしまいます。

計量型のデータの場合には、t検定を行う場合には前提があります。「分散」「平均値」が存在すること、分布が正規分布であることです。度数分布を取ってみて、正規確率紙に書いてみれば見当つくでしょう。
2山分布等(ご質問のような医療関係では良く洗われる)では、すべての統計処理が無効です。
1山分布ならば、検定精度が落ちますが、ウイルコクソン(やったことがないので名称が間違っている場合があり)があります。

計数型はノンパラメトリックの処理になります。ただし、1山分布であること。

以上まとめて、
有意さの有無は判定できるときとできないときがあります。
まず最初に度数分布をしらべて正規確率しに書いてみることが必要です。「どの検定が使えるか」を調べてから出ないと、せっかくやった検定の計算が゜無駄になります。

測量学の教科書のはじめの頃に載っている統計処理の紹介の内容として解釈しました。
疫学の内容を含みますので、郡代の青木さんのサイトを紹介しておきます
http://aoki2.si.gunma-u.ac.jp/
種類:回答
どんな人:一般人
自信:参考意見
回答日時:08/04/21 06:49
回答番号:No.1
この回答への補足この回答に補足をつける(質問者のみ)
この回答へのお礼御回答ありがとうございます。道は長いようですが紹介して頂いたサイトも参考にして頑張っていきたいと思います。再度投稿した際には、またのアドバイスもよろしくお願い致します。
最新から表示回答順に表示