資格試験の「学習時間の目安」はあてになりますか？

目安はおおよその規模感をつかむのには役立ちますが、合格を保証する数字ではありません。予備校が公表する「宅建は300〜400時間」などの数値は、多くが合格者アンケートや指導経験に基づく目安であって、統制された実験から導かれた公的な確定値ではありません。同じ資格でも予備校によって幅があり（宅建だけで200〜400時間と振れます）、しかも学習科学の研究は『同じ時間でも、何をやったかで定着がまったく変わる』ことを繰り返し示しています。時間は必要条件ですが、合否を決める主因ではありません。

科学的に最も効果が高い勉強法は何ですか？

学習科学で最も再現性が高く、効果が大きいとされるのは『検索練習（思い出すこと＝問題演習・自己テスト）』と『分散学習（間隔をあけた復習）』の2つです。Dunlosky ら（2013）は10の学習法を比較し、この2つだけを『有用性・高』に格付けしました。とくに検索練習は、テキストを読み返すより、いったん閉じて思い出すほうが長期の記憶に強く効くことが、多くの実験で確認されています。ただし効果はフィードバックの有無や教材の種類で変わるため、万能ではありません。

マーカーを引く・読み返す勉強は意味がないのですか？

『意味がない』とまでは言えませんが、費やす時間のわりに定着が小さい『低効率』な方法だと、複数の研究レビューが示しています。ハイライトや再読は『分かった気（流暢性の錯覚）』を生みやすく、読み返すほど自信は増すのに、1週間後の成績はむしろ下がるという実験結果もあります（Roediger & Karpicke 2006）。完全にやめる必要はありませんが、主軸を『読む』から『思い出す（問題を解く）』に移すと、同じ時間でも定着が大きく変わります。

一夜漬けはなぜダメなのですか？

一夜漬け（集中学習）は、翌日のテストだけならそれなりに機能します。問題は長期です。同じ総学習時間でも、間隔をあけて分散したほうが長期保持で上回ることが、317の実験を統合したメタ分析（Cepeda ら 2006）でほぼ普遍的に確認されています。一夜漬けが負けるのは『努力不足』ではなく『時間の配分』の問題です。直前にまとめてやると手応え（流暢性）は強く感じられますが、その手応えは定着の証拠にはなりません。

勉強時間の目安は本当か｜原典に当たって検証する「科学的に効く勉強法」 | 自習室比較ナビ

「宅建はおよそ300時間」「行政書士は600〜1000時間」「英語をものにするには2000時間」——勉強の世界には、必ずこの種の「時間の目安」がついて回る。受験を決めたとき、私たちはまずこの数字を検索し、手帳に「1日3時間 × 100日」と書き込む。

だが、同じ300時間を積んでも、受かる人と落ちる人がいる。同じ参考書を3周しても、すらすら言える人と、本番で出てこない人がいる。もし「時間」が実力を決めるなら、この差はどこから来るのか。

この記事は、その問いを学習科学（learning science）の原著論文にまで降りて検証する試みである。世の中の「効率のいい勉強法」記事の多くは、有名な研究の結論を一行だけ切り取って「科学が証明した」と書く。だが研究には、被験者が誰で、どんな教材を、どれくらいの期間で測ったのか、効果はどれほどの大きさだったのか、そして——ここが最も大事なのだが——その結果を「あなたの勉強」にまで一般化していいのか、という前提が必ずある。その前提を飛ばした「科学的に正しい勉強法」は、しばしば科学ではなく伝言ゲームだ。

だからこの記事では、ひとつひとつの研究について、実験の中身・正確な数値・効果量・そして限界までできるだけ踏み込む。長くなるが、そのぶん「結論だけ」では決して見えない景色が見えるはずだ。先に全体の地図を示しておこう。

第1部では「勉強時間の目安」と「10000時間の法則」の出所を辿り、練習量が実力をどこまで決めるのかを検証する。
第2部では、多くの人が使う「定番の勉強法」がなぜ効いている気がするのか（流暢性の錯覚）を扱う。
第3部から第5部では、科学的に効果が確認された3本柱——検索練習・分散学習・インターリービング——の原典に踏み込む。
第6部では「あなたの学習タイプ」という根強い神話を解体する。
第7部から第9部では、ラボの結果を現実の勉強にどう翻訳するか、再現性と外的妥当性、そして「環境」の役割までを誠実に詰める。

結論を一言で先取りすれば、こうなる。「何時間やったか」は、思ったより実力を決めない。決めるのは「その時間で何をやったか」——つまり設計だ。

第1部　「勉強時間の目安」は何を意味しているのか

予備校の「目安」は、実験から出た数字ではない

まず、もっとも身近な「時間の目安」から見ていく。宅建およそ300〜400時間、行政書士600〜1000時間、社労士800〜1000時間、司法書士3000時間、日商簿記2級200〜300時間——こうした数値は受験業界に広く流通している。

おもな国家資格の「目安」を、ひとつのものさしに並べると、その規模感の違いがよく見える。司法試験の数千時間から、宅建の数百時間まで、桁が二つも違う。

学習時間の目安でみる難易度（おもな国家資格）

司法試験5000時間

目安 3,000〜8,000時間／合格率41.2%

公認会計士4000時間

目安 3,000〜5,000時間／合格率7.4%

弁理士3000時間

目安約3,000時間／合格率6.4%

司法書士3000時間

目安約3,000時間／合格率約5%

税理士3000時間

目安約3,000時間〜（科目積み上げ）

中小企業診断士1000時間

目安約1,000時間／一発合格4〜8%

社会保険労務士1000時間

目安約1,000時間／合格率5〜7%

土地家屋調査士1000時間

目安約1,000時間／合格率約10%

行政書士700時間

目安 500〜1,000時間／合格率14.5%

宅地建物取引士350時間

目安 300〜400時間／合格率18.7%

学習時間は各予備校が公表する一般的な目安で、公的な確定値ではありません。合格率は分母（受験者・出願者・科目）や評価方式が資格ごとに異なるため、難易度の単純比較には学習時間のほうが参考になります。税理士は科目合格制のため幅をもって示しています。出典: 各予備校公表の学習時間目安／各資格の公式試験結果

注意したいのは、これらが統制された実験から導かれた数字ではない、という点だ。出所をたどると、その多くは予備校による合格者アンケートや、長年の指導経験にもとづく経験則である。だからこそ、同じ資格でも情報源によって幅が出る。宅建ひとつとっても「200時間」と書く予備校もあれば「400時間」と書く予備校もある。これは誰かが嘘をついているのではなく、「目安」とはそもそもそういう、幅を持った経験知だということだ。

目安が無意味だと言いたいのではない。初めて挑む資格の規模感をつかむうえで、目安は有用だ。だが「300時間やれば受かる」という因果の保証として読むと、足をすくわれる。なぜなら——これがこの記事全体の通奏低音になる——学習科学は「同じ時間でも、何をやったかで定着がまるで変わる」ことを、繰り返し示しているからだ。時間は必要条件ではあっても、合否を決める主因ではない。

では、「練習量」そのものは、実力をどこまで決めるのか。これを正面から扱った、有名な——そして、しばしば誤解されている——研究がある。

「10000時間の法則」は、その元になった論文には書かれていない

「どんな分野でも一流になるには1万時間の練習が要る」。この「10000時間の法則」は、マルコム・グラッドウェルのベストセラー『天才！成功する人々の法則（Outliers）』（2008）で一気に広まった。だが、その元ネタとされる原著論文を読むと、そこに「10000時間ルール」という記述は存在しない。

元になったのは、Ericsson, Krampe & Tesch-Römer（1993, Psychological Review）の、ベルリン音楽院のバイオリン奏者を対象にした研究だ。実験の中身はこうである。教授陣が選んだバイオリン専攻の学生を、将来国際的なソリストになりうる「最優秀」群、それに次ぐ「優秀」群、そして演奏家ではなく音楽教師を目指す群——の3群に分け、各群10名ずつ、計30名を調べた。彼らに音楽歴を詳細に振り返らせ、何歳のときに週何時間「ひとりでの練習（practice alone）」をしてきたかを推定した。

結果、18歳の時点での累積の一人練習時間は、最優秀群がおよそ7400時間、優秀群がおよそ5300時間、音楽教師群がおよそ3400時間と、群の序列にきれいに対応していた。よく引用される「20歳までに約10000時間」という数字は、このうち最優秀群の20歳時点の平均にあたる一データ点である。グラッドウェルは、この「最優秀群の到達点」を、きりのいい「1万時間」という形に丸め、「誰でも1万時間やれば一流になれる」という一般法則に変換した。

ここで重要なのは、原著の主張がそもそも「閾値ルール」ではなかったことだ。Ericsson らが立てたのは monotonic benefits assumption——累積した「意図的練習」の量が、現在のパフォーマンスを単調に押し上げる、という仮説である。そして彼らの言う「意図的練習（deliberate practice）」は、ただ時間を費やすことではない。指導者が設計した課題に、明確な目標と最適な難度（今の自分の少し外側）をもって取り組み、即時のフィードバックを受け、間違いを直し、また反復する——本質的に努力を要し、楽しくはない活動を指す。本番の演奏や、楽しみで弾くことは含まれない。

法則の「原作者」とされる Ericsson 本人は、のちにグラッドウェルの解釈を明確に否定している。著書『超一流になるのは才能か努力か？（Peak）』（Ericsson & Pool 2016）で彼は、「1万時間に特別な、魔法のような意味はない」「最優秀群の半数は20歳の時点で1万時間に達していなかった」「グラッドウェルは『意図的練習』と単なる『練習』を区別しなかった」と述べた。法則の生みの親とされた人物が、その法則を否定している——これは奇妙で、しかし示唆に富む事態だ。

練習で説明できるのは、ばらつきの何割か

では、練習量は実力のばらつきをどれだけ説明するのか。これを大規模に検証したのが、Macnamara, Hambrick & Oswald（2014, Psychological Science）のメタ分析である。88件の研究、のべ約11000人分のデータを統合し、「意図的練習の量」が「成績のばらつき」をどれだけ説明するかを領域ごとに算出した。

意図的練習で説明できた成績のばらつき（領域別）

Macnamara, Hambrick & Oswald (2014, Psychological Science) のメタ分析（88研究・のべ約11,000人）より。棒の長さは、各領域で『意図的練習の量』が説明できた成績の分散の割合。たとえば音楽でも21%にとどまり、残り約8割は練習量以外の要因（開始年齢・素質・指導の質・環境など）で説明される。

結果は、領域によって大きく違った。チェスやテレビゲームのようなルールが安定した領域では練習が説明する割合は約26%、音楽で21%、スポーツで18%。一方、学業（教育）ではわずか4%、専門職（仕事の熟達）にいたっては1%未満だった。全体をならすと、意図的練習が説明できたのは成績のばらつきの約12%にすぎない。残りの約88%は、練習量「以外」の要因で説明される。

論文の結論はこう要約できる——「意図的練習は重要だ。だが、これまで論じられてきたほど重要ではない（important, but not as important as has been argued）」。

このメタ分析には、見逃せない細部が二つある。

ひとつは、練習量の「測り方」によって、見かけの効果が激変したことだ。日誌などで記録した精度の高い測定では練習の説明力はわずか5%、質問紙だと12%、過去を思い出して答えるインタビューだと20%にまで膨らんだ。つまり、回顧的な自己申告ほど「練習が効いた」という結果が大きく出る。これは資格試験の「合格者は平均◯◯時間勉強した」という数字にも通じる。あとから振り返って申告する時間は、構造的に盛られやすいのだ。

もうひとつは、領域の「予測可能性」が効き目を左右したことだ。チェスや楽器のようにルールが安定し、同じ状況が繰り返し現れる領域では練習の説明力は約24%。一方、不確実で状況が一定しない領域では4%程度に落ちた。練習が報われるのは、環境が安定して予測しやすい領域だ——という整理である。

バイオリン研究は、より厳密な追試で再現しなかった

決定的なのは、その後の検証だ。Macnamara & Maitra（2019, Royal Society Open Science）は、1993年のバイオリン研究を、事前登録（preregistration）と二重盲検という、より頑健な手続きで追試した。事前登録とは「どんな分析をするか」を結果を見る前に公開で確定させる手法で、後付けの都合のいい解釈を封じるためのものだ。

その結果、最優秀群と優秀群のあいだに、累積練習量の有意な差は出なかった（p = .364）。それどころか、優秀群の平均練習量（約9844時間）が最優秀群（約8224時間）を上回ってしまった。オリジナル研究で効果量の指標（η²）が0.48——練習量で群差の48%が説明できる——だったのに対し、追試では0.26まで縮んだ。

これは「再現性危機」の時代の心理学において、軽くない意味を持つ。30人・自己申告ベースの一回きりの研究が打ち立てた「練習がすべて」という物語は、より厳密な設計で測り直すと、思ったほど頑健ではなかった。

この第1部から言えること、言えないこと

ここまでを、過不足なくまとめておきたい。

言えるのは——練習はどの領域でも成績と正の相関を持ち、ルールが安定した領域では中程度に効く。練習なしに熟達はない。これは揺るがない。

言えないのは——「1万時間やれば誰でも一流」という閾値ルールは原典に存在せず、提唱者とされる本人が否定している。そして「練習が実力の大半を決める」という強い主張は、より厳密な追試で支持されなかった。練習量「以外」の要因——開始年齢、素質、指導の質、環境——が、実は大きい。

ただし、ここに資格試験の受験生にとっての朗報がある。Macnamara のメタ分析で「練習がよく効く」とされたのは、ルールが安定し、予測可能性が高く、到達点が有限な領域だった。資格試験は、まさにこの「努力が報われやすい側」に位置する。出題範囲は決まっており、過去問という形で「同じような状況」が繰り返し現れる。プロのソリストの世界（エリート同士では練習量で差がつかなくなる）とは違い、合格ラインという有限の到達点に向かう学習では、量の積み上げが効きやすい。

だからこそ問題は「何時間やるか」から、「その時間で何をやるか」へと移る。次の問いはこうだ——多くの人がやっている「定番の勉強法」は、本当に効いているのか。

第2部　「定番の勉強法」はなぜ効いている気がするのか

10の学習法を格付けした、有名なレビュー

2013年、認知心理学と教育心理学の研究者チームが、学生がよく使う10の学習法を、それまでの研究を総ざらいして格付けした大規模レビューを発表した。Dunlosky, Rawson, Marsh, Nathan & Willingham（2013, Psychological Science in the Public Interest）である。50ページを超えるこの論文は、いまも「効く勉強・効かない勉強」を語るときの基準点になっている。

10の学習法の「有用性」評価（Dunlosky ら 2013）

Dunlosky, Rawson, Marsh, Nathan & Willingham (2013) による有用性評価をもとに作成。『高・中・低』は、さまざまな教材・学習者・テスト形式を超えてどれだけ一般的に効くかの総合評価。『低』は『無効』という意味ではなく、『効く条件が限られる／証拠が不十分』という意味であることに注意。

彼らが「有用性・高（high utility）」に位置づけたのは、たった2つ。検索練習（practice testing＝自己テストや問題演習）と、分散学習（distributed practice＝間隔をあけた復習）である。

「中（moderate）」が3つ。推敲的質問（elaborative interrogation＝「なぜそうなるのか」と自問する）、自己説明（self-explanation＝新しい情報を自分の言葉で、既知の知識と結びつけて説明する）、そしてインターリービング（interleaved practice＝異なる種類の問題を混ぜて練習する）。

そして「低（low utility）」が5つ。要約づくり、ハイライト・線引き、キーワード記憶術、テキストのイメージ化、そして再読（くり返し読み返す）だ。

注意してほしいのは、「低」は「無効・有害」という意味ではない、という点である。Dunlosky らの評価基準は、「さまざまな教材・学習者・テスト形式・条件を超えて、どれだけ広く一般的に効くか」だ。「低」とされた方法は、効く条件が限られていたり、効果を示す証拠が不十分だったり、あるいは効果が一時的だったりする。つまり「条件つきでしか効かない／割に合わない」のであって、「やったら必ず損」ではない。この区別は、のちのち効いてくる。

問題は、この「低」のグループに、多くの人がいちばん時間を使っている方法——再読、ハイライト、要約——が並んでいることだ。なぜ、効率の悪い方法ほど人気なのか。

「分かった気」の正体——流暢性の錯覚

鍵は、流暢性の錯覚（fluency illusion）にある。教科書を3回読み返すと、文章がすらすら頭に入ってくる。マーカーで彩られたページを眺めると、要点が一目で「分かる」気がする。この「すらすら感」「分かった感」を、私たちは「身についた証拠」と取り違える。

しかし、すらすら読めることと、何も見ずに思い出せることは、まったく別の能力だ。Bjork が「望ましい困難（desirable difficulties）」という枠組みで論じたように、学習を速く・楽に感じさせる操作はしばしば長期の定着に効かず、逆に学習を遅く・難しく感じさせる操作のほうが長期に残る。再読は前者の典型で、「楽に感じる」がゆえに「効いている気がする」のに、定着には効きにくい。

この錯覚は、学生の行動データにもはっきり出る。Karpicke, Butler & Roediger（2009, Memory）は、大学生177名に「勉強するとき、実際にどんな方略を使うか」を自由に挙げさせた。すると、再読を挙げた学生が84%にのぼった一方、自分でテストする（思い出す練習をする）と答えたのはわずか11%だった。

さらに踏み込んだ問いが秀逸だ。自己テストをすると答えた少数派に「なぜ自己テストをするのか」と理由を尋ねると、多くが「どれだけ覚えたかを確認するため」と答えた。「テストすること自体が記憶を強くするから」と理解していた学生は、ごくわずかだった。つまり大半の学生にとって、テストとは「学習」ではなく「測定」の道具なのだ。この思い込みこそ、次の第3部でひっくり返る。

人は、自分の伸びを予測できない

なぜ人は再読を選び続けるのか。Kornell & Bjork（2009, Journal of Experimental Psychology: General）は、その背景に「記憶の安定性バイアス（stability bias）」があることを示した。同じ素材をこれから1回学べる場合と4回学べる場合とで、実際の記憶量は大きく変わるのに、人は「どちらでもほとんど変わらない」と予測してしまう。口では「勉強すれば覚えられる」と言いながら、自分の伸びしろを過小評価し、結果として努力の配分を誤る。

ここまでで、地ならしは終わった。私たちは「時間の目安」を相対化し、「定番の勉強法」がなぜ錯覚を生むかを見た。ここから先は、では何が本当に効くのか——科学的に最も再現性が高いとされる3本柱に、原典のレベルで分け入っていく。

第3部　「思い出す」だけで記憶は変わる——テスト効果の原典

14.2回読んだ人が、3.4回読んだ人に負ける

学習科学で最も有名で、最も実用的な発見が、テスト効果（testing effect）あるいは検索練習（retrieval practice）と呼ばれる現象だ。一言でいえば、「覚えた内容を思い出す」という行為そのものが、記憶を強くする。読み返すよりも、いったん閉じて思い出すほうが、長く残る。

この現象を教育的にきれいに示したのが、Roediger & Karpicke（2006, Psychological Science）の研究である。引用は無数にあるが、実験の中身まで紹介されることは少ない。正確に追ってみよう。

被験者はワシントン大学の学部生（実験1は120名、実験2は180名）。教材は、TOEFLの読解問題から採られた科学的な散文2本（「太陽」と「ラッコ」、それぞれ256語・275語、各30の意味単位で採点）。手続きはこうだ。まず7分間テキストを学習する。そのあと、ある群はもう一度7分間読み直し（再学習）、別の群はテキストを見ずに思い出せるだけ書き出す自由再生テストを受ける（フィードバックなし）。そして5分後、2日後、または1週間後に、最終的な記憶テストを行う。

ここで、しばしば誤って紹介される点を正しておく。「5分後・2日後・1週間後」は、最終テストまでの保持期間であって、テストの長さではない。学習は7分、最終テストは10分である。

実験1の結果は、鮮やかな逆転を見せた。最終テストが5分後の場合、再学習群81%に対しテスト群75%で、読み直したほうがわずかに上だった。ところが1週間後になると、テスト群56%、再学習群42%と、完全に逆転する。2日後の時点ですでに、テスト群68%・再学習群54%とテスト群が上回っていた。読み直しの優位は「直後だけ」の、はかないものだったのだ。

実験2は、さらに踏み込む。被験者を3群に分けた。SSSS群はテキストを4回読むだけ。SSST群は3回読んで1回テスト。STTT群は1回読んで3回テスト。

読むだけ vs 思い出す——1週間後に残るのはどちらか

Roediger & Karpicke (2006, Psychological Science) 実験2より。被験者180名、TOEFL読解の散文を学習。5分後は『読むだけ』群が最も高得点だが、1週間後には完全に逆転する。最も多く読んだSSSS群（平均14.2回通読）が1週間後に最も忘れ、最も読まなかったSTTT群（平均3.4回通読）が最も多く覚えていた。

5分後の成績は、読んだ回数の順——SSSS 83%、SSST 78%、STTT 71%。たくさん読んだ群ほど高い。ところが1週間後には、これも逆転する。SSSS 40%、SSST 56%、STTT 61%。最もテストした群が、最も多く覚えていた。

数字の意味を噛みしめてほしい。SSSS群はテキストを平均14.2回も通読していた。STTT群はわずか3.4回しか読んでいない。それでも、1週間後に記憶に残っていたのは、4分の1しか読まなかったSTTT群のほうだった。1週間での忘却率は、SSSS群が52%、STTT群はわずか14%である。

そして、この研究の最も不穏な発見がこれだ。学習直後に「1週間後、どれくらい覚えていると思うか」を7点尺度で尋ねると、最も多く読んだSSSS群が最も高い自信（4.8）を示し、最もテストしたSTTT群が最も低かった（4.0）。つまり、最も読み込んで最も自信のあった群が、1週間後には最も忘れていた。自信と実力が、きれいに逆を向いていたのだ。これこそ、第2部で見た「流暢性の錯覚」の正体である。読み返すほど自信は増し、実力は痩せていく。

「覚えたら、もう解かなくていい」が最悪の戦略である理由

多くの参考書や勉強法が、こう勧める——「一度できた問題は飛ばして、できない問題に集中しよう」。効率的に聞こえる。だが、検索練習の研究は、これが長期記憶にとって最悪に近い戦略だと示す。

Karpicke & Roediger（2008, Science）の実験を見よう。被験者は大学生、教材はスワヒリ語と英語の対連合40語（たとえば mashua = boat）。彼らを4つの条件に分けた。混同しやすいので丁寧に説明する。

標準条件：毎回、全40語を学習し、全40語をテストする。
学習を省く条件：いったん正答できた語は、以降「学習」からは外すが、「テスト」は最後まで全語続ける。
テストを省く条件：いったん正答できた語は、以降「テスト」からは外すが、「学習」は最後まで全語続ける。
両方省く条件：正答できた語は、学習からもテストからも外す（＝多くの人が勧める「できたら飛ばす」方式）。

学習フェーズでの習得の速さは、4条件でほぼ同じだった。どの群も、ほぼ全語を覚えきった。にもかかわらず、1週間後の成績は劇的に割れた。テストを最後まで続けた条件は約80%を再生できたのに対し、テストを途中で省いた条件は36%・33%まで崩落した。

決定的なのは、ここだ。「テストを省く条件」の被験者は、正答した語も含めて毎回「学習」だけは全語続けていた。それでも、テストを止めた途端に長期記憶は崩れた。逆に「学習を省く条件」は、いったん正答した語をもう読み返さなくても、テストさえ続ければ80%を保った。つまり、長期保持を支配していたのは「学習を繰り返すか」ではなく「テストを繰り返すか」だった。「できたら飛ばす」は、最も効く行為を真っ先に捨てる戦略なのだ。

この実験でも、メタ認知の的外れぶりが記録されている。被験者は4条件いずれでも「1週間後に40語中およそ20語（半分）は思い出せるだろう」と予測した。実際の成績が80%から33%まで割れていたにもかかわらず、である。予測と現実は、まるで相関していなかった。

問題を解くほうが、まとめノートより記憶に残る

「でも、それは単語の暗記の話でしょう。理解が必要な学習は別では？」——もっともな反論だ。これに答えるのが、Karpicke & Blunt（2011, Science）である。

彼らは、科学テキストの学習で、検索練習と「概念マップ作成」を比べた。概念マップとは、概念どうしの関係を図にして整理する、いかにも「深い理解」を促しそうな方法だ。一方の検索練習群は、テキストを読み、いったん閉じて思い出せるだけ書き出し、また読み、また思い出す、を繰り返した。学習にかける時間は両群でそろえてある。

1週間後の最終テストには、字面どおりの記憶を問う問題だけでなく、推論を要する問題も含まれた。結果、検索練習群が概念マップ群を大きく上回り、効果量は d = 1.50——標準偏差で1.5個分という、教育研究では破格の差だった。さらに念入りなことに、最終テストを「概念マップを描かせる」形式にしても、検索練習群のほうが良い成績だった。「テスト形式が学習方法と一致しているほうが有利」という説明では、この結果は説明できない。

そしてここでも、予測は外れる。学習前、120名中90名（75%）が「概念マップのほうがよく覚えられるだろう」と予測した。だが実際には、120名中101名（84%）が検索練習のほうで良い成績を取った。

効果量はどれくらいか——メタ分析の数字

個々の実験が鮮やかでも、「都合のいい結果だけが目立っているのでは」という疑いは正当だ。そこでメタ分析を見る。Rowland（2014, Psychological Bulletin）は、検索練習を再学習と比べた159の効果量を統合し、総合効果量を g = 0.50（95%信頼区間 0.42〜0.58）と算出した。Adesope, Trevisan & Sundararajan（2017, Review of Educational Research）の別のメタ分析でも、g ≒ 0.51 とほぼ同じ値が出ている。教育介入としては、かなり大きく、かつ安定した効果だ。

ここまでなら、よくある「テスト効果は最強」記事と変わらない。だが、本当に踏み込むべきはここからだ。テスト効果には、効く条件と効かない条件がある。

境界条件①——フィードバックがなく、半分も思い出せないなら、効果はほぼゼロ

Rowland のメタ分析は、効果がどんな条件で大きく/小さくなるかも分析している。最大級の調整要因がフィードバックだった。正解を確認できる（フィードバックあり）テストは g = 0.73 と非常に大きいが、フィードバックなしでは g = 0.39 に下がる。

さらに衝撃的なのは、フィードバックがなく、かつ最初のテストで半分も思い出せない（初回正答率50%以下）場合、効果量は g = 0.03——統計的にゼロと区別がつかない値まで落ちることだ。つまり、「解けない問題を、答え合わせもせずに解き続ける」ことには、ほとんど学習効果がない。テスト効果は「思い出せること」と「正解を確認すること」がそろって初めて頑健に働く。やみくもに過去問を「解いた気」になるだけでは、効かないのだ。

加えて、テストの形式でも効果は変わる。このメタ分析では、手がかりから思い出す cued recall が g = 0.61 と最も大きく、選択肢から選ぶ再認（recognition）テストは g = 0.29 と小さかった。与えられた手がかりをもとに能動的に思い出す形式ほど、効果が大きい傾向である。そして保持期間が1日未満だと g = 0.41、1日以上だと g = 0.69——遅れて測るほど、テスト効果は大きく見える。再学習が有利なのは直後だけ、という実験1の逆転と符合する。

境界条件②——「テストしたもの」しか強くならない（転移の壁）

もうひとつ、しばしば誇張される点がある。「過去問を解けば応用力がつく」という主張だ。検索練習は、本当に「解いていない問題」にまで波及するのか。

これを正面から検証したのが、Pan & Rickard（2018, Psychological Bulletin）の、転移（transfer）に絞ったメタ分析である。192の効果量を統合した結論はこうだ。検索練習の効果は「テストしたのと同じ項目」には強く出るが、別の文脈・推論・応用への転移は d = 0.40 程度に縮む。しかも著者らは、応答の形式が一致している・精緻な検索を促している・初回の正答率が高い、といった有利な条件が一つもそろわない素の状態では、転移はしばしばゼロになると明言している。

具体的に転移が弱いのは、刺激と応答を入れ替えた問題、学習時にテストしなかった隣接情報、そして例題つきの問題解決だった。「英単語の意味を問う問題」を解いても「その単語を使って英作文する力」が自動的につくわけではない、ということだ。検索練習は強力だが、それは「思い出す訓練をしたまさにその対象」を強くするのであって、隣の知識に勝手に染み出してはくれない。転移を起こしたければ、転移させたい形そのものでテストする必要がある。

境界条件③——複雑な教材では効果が薄まるかもしれない（未決の論争）

さらに根深い論争がある。van Gog & Sweller（2015, Educational Psychology Review）は、認知負荷理論の立場から、要素どうしが複雑に絡み合う教材（高い element interactivity）では、テスト効果が減衰し、ときに消えると主張した。すでにワーキングメモリが目一杯になっている状態に、さらに「思い出す」という負荷を足すと、逆効果になりうる、という論理だ。

これに対し Karpicke & Aue（2015）が反論した。複雑な教材でも効果を示した研究が van Gog らのレビューから抜け落ちている、「複雑さ」の定義が一貫していない、効果が出なかったのは孤立した単語の即時テストに偏っている——と。この論争は、いまも決着していない。少なくとも言えるのは、「単語の暗記で爆発的に効いたテスト効果が、論証や問題解決のような高度な教材でも同じだけ効く」と断言はできない、ということだ。

なお、個人差についても先入観は禁物だ。「賢い子（ワーキングメモリの高い子）ほどテスト効果で得をする」と思いきや、Agarwal らの研究（2017, Memory）は、フィードバックつき・2日後という条件下で、むしろワーキングメモリの低い学生のほうが検索練習の恩恵を大きく受けたと報告している。検索練習は、格差を広げるどころか、底上げの道具になりうる側面を持つ。

第3部のまとめ

テスト効果は、学習科学で最も再現性の高い発見の一つだ。読み返すより思い出す。覚えた後もテストし続ける。まとめるより問いに答える。この方向性は、ほぼ揺るがない。

だが「魔法」ではない。フィードバックがなく、ろくに思い出せない状態でやみくもに問題を解いても効かない。テストした対象は強くなるが、応用に勝手には転移しない。複雑な教材では効果が薄まる可能性がある。テスト効果は、正しく設計して初めて、その大きな効果を発揮する。

第4部　忘れることを前提に設計する——分散学習と忘却曲線の実像

「忘却曲線」は、人類共通の法則ではない

検索練習と並んで「有用性・高」に格付けされたもう一本の柱が、分散学習（distributed/spaced practice）だ。間隔をあけて復習するほうが、まとめて一気にやるより長く残る。この話は、たいてい有名な「忘却曲線（forgetting curve）」とともに語られる。

忘却と、復習による「忘れにくさ」の概念図

Ebbinghaus (1885) の節約率をもとにした概念図。赤の破線は復習しなかった場合の記憶の減衰、青の実線は間隔をあけて復習した場合。復習のたびに記憶は回復し、減衰の傾きはゆるやかになっていく。ただし元データはEbbinghaus本人ひとり（n=1）の自己実験であり、数値は人類共通の定数ではない点に注意。

ところが、この忘却曲線の出所を辿ると、通説のイメージは大きく揺らぐ。曲線の元になったのは、ヘルマン・エビングハウスが1885年に発表した『記憶について』だ。彼の実験は、被験者が本人ただ一人（n = 1）の自己実験だった。材料は、意味や連想が混じらないように作った「無意味綴り（nonsense syllables）」——DAX、BUP のような子音・母音・子音の音節である。方法は「節約法（savings method）」。リストを完全に暗唱できるまで覚え、一定時間後にもう一度覚え直すとき、必要な反復が何割減ったか（＝どれだけ記憶が残っていたか）を測った。

よく出回る「20分後に約58%、1時間後に約44%、1日後に約34%まで落ち、その後は2割前後で下げ止まる」という数値は、このエビングハウス本人の節約率である。「人間は20分で6割忘れる」という言い方をしばしば目にするが、それは厳密には「エビングハウスという一人の人物が、無意味な音節を、この方法で覚えたときの値」であって、母集団から推定された人類の定数ではない。標準誤差も信頼区間も、そもそも一人分のデータには存在しない。

現代の追試も、この限界を裏書きする。Murre & Dros（2015, PLoS ONE）はエビングハウスの実験を丁寧に再現したが、その被験者もまた一人だった。曲線の「形」——急に落ちて、やがてゆるやかに下げ止まる——は再現されたものの、31日後の保持率はオリジナルより低く、個人差・材料差の存在をうかがわせた。「忘却曲線が再現された」とは、特定のパーセンテージが万人に当てはまることの証明ではなく、減衰の形が頑健だ、という意味にとどまる。

エビングハウスを否定したいのではない。彼は記憶を初めて定量的に測った巨人であり、しかも彼自身が、同じ反復回数なら分散したほうが定着が良いことをすでに観察していた。分散学習の発見者でもあるのだ。重要なのは、「科学が証明した人類普遍の忘却率」というよくある触れ込みが、出所をたどると一人の自己実験だ、という事実を正確に押さえておくことである。

一夜漬けが負けるのは「努力不足」ではなく「配分」

では、「間隔をあける」ことの効果は、もっと頑健に確かめられているのか。ここは、エビングハウスとは比較にならないほど分厚いエビデンスがある。

Cepeda, Pashler, Vul, Wixted & Rohrer（2006, Psychological Bulletin）は、分散学習を扱った膨大な研究を統合した。よく「254件の研究」と紹介されるが、これは不正確で、一次資料を読むと317の実験（184論文）を対象にしている。結論は明快だった。同じ総学習時間を使うなら、間隔をあけて分散したほうが、まとめて集中するより長期保持で上回る。これがほぼ普遍的に観察された。正答率でならすと、分散群が約47%、集中群が約37%と、おおよそ10ポイントの差がついた。

この事実の含意は重い。一夜漬けが負けるのは、勉強量が足りないからではない。同じ総時間でも負けるのだ。差は「どれだけやったか（量）」ではなく「いつやったか（配分）」にある。3時間を一晩でやるか、1時間を3日に分けるか——後者のほうが、同じ3時間でも長く残る。

なぜか。直感に反するが、いったん少し忘れかけたものを思い出すときに、記憶はより強く固定される。間隔をあけることは、第3部の検索練習と地続きなのだ。間隔があくからこそ「思い出す」努力が生じ、その努力が記憶を鍛える。だから一夜漬けは、楽に感じる（流暢性が高い）わりに、効かない。

「間隔は空ければ空けるほどいい」も、また誤り

ところが、ここで通説がもう一段ひっくり返る。「では間隔は長ければ長いほどいいのか」というと、そうではない。

Cepeda ら（2008, Psychological Science）は、1350人以上を対象に、26通りの復習スケジュールを比較した。学習してから一度復習し、最大1年後に最終テストを行う、という大規模な設計だ。発見は、最適な間隔が「非単調」だということ。間隔をあけるほど成績は最初は上がるが、あるところを越えると今度は下がる。山なりの関係なのだ。

しかも、その最適点は「テストがどれだけ先か」で変わる。最終テストが遠い未来になるほど、最適な復習間隔も長くなる。おおまかには、最適な間隔は目標とする保持期間の1割前後から数割で、テストが近い未来ほどその比率は大きくなる（1年先のような遠い未来ほど、比率としては小さく＝絶対値としては長くとる）。1週間後の試験のためなら数日おき、1年後にも使いたい知識なら数週間〜月単位、というイメージだ。「とにかく間隔をあければいい」のではなく、「いつ使いたいかから逆算して間隔を決める」のが正しい。

手応えがないのが、むしろ正常

分散学習の最大の敵は、それが「効いている実感を伴わない」ことだ。集中してまとめてやるほうが、その場ではスラスラできて手応えがある。分散すると、前回やったことを半分忘れていて、毎回しんどい。

Kornell（2009, Applied Cognitive Psychology）は、これを実験で可視化した。GRE型の単語ペアを、一つの大きなまとまりで学ぶ（分散に近い）か、4つの小さなまとまりに分けて学ぶ（相対的に集中に近い）かを比べると、分散のほうが90%の被験者で成績が高かった。にもかかわらず、72%の学生が「集中したほうが効いた」と誤って判断した。手応えと定着が逆を向く——ここでも同じ構図が繰り返される。

長期保持の威力を示す古典もある。Bahrick ら（1993, Psychological Science）は、外国語の語彙を、間隔を変えて反復学習させ、最大5年後まで追跡した。広い間隔（たとえば56日おき）での学習は、習得こそやや遅いものの、数年後の保持では狭い間隔を大きく上回った。間隔をあけることの恩恵は、テストが遠い未来であるほど大きくなる。

なお、「だんだん間隔を広げていく方式（拡張型）が最強だ」という話もよく聞くが、これは過信しないほうがいい。短い遅延では拡張型が有利でも、24時間以上の長い遅延では等間隔と差がなくなる、という反証が複数ある。万能の最適スケジュールが確立しているわけではない。

第4部のまとめ

忘却曲線という「人類普遍の法則」のイメージは、出所をたどると一人の自己実験に行き着く。だが、そこから派生した「分散学習が集中学習に勝つ」という発見そのものは、317の実験を統合したメタ分析が支える、きわめて頑健なものだ。

要点はこうだ。一夜漬けが負けるのは量ではなく配分のせい。間隔はあければいいのではなく、最適点がある。その最適点は「いつ使うか」で動く。そして、分散は「効いている実感がない」のが正常で、その手応えのなさを「効いていない」と取り違えてはいけない。

第5部　「混ぜる」と伸びる、でも何でも混ぜればいいわけではない

練習中の正答率が高いほど、本番で崩れるという逆説

第2部の格付けで「中」だったインターリービング（interleaved practice）は、近年とくに注目される方法だ。同じ種類の問題をまとめて練習する（ブロック練習）のではなく、異なる種類の問題を混ぜて練習する。これが、なぜか定着を高める。

象徴的なのが、Rohrer & Taylor（2007, Instructional Science）の数学実験だ。大学生に、4種類の立体の体積を求める問題を練習させた。一方の群は同じ種類を4問ずつまとめて解き（ブロック）、もう一方は4種類を1問ずつ混ぜて解いた（インターリーブ）。なお、両群とも練習は1週間あけた2回に分けてあり、「間隔（分散）」の効果は統制してある。純粋に「混ぜる」効果だけを取り出した設計だ。

練習中の正答率は、ブロック群89%に対し混合群60%。まとめて解いたほうが、その場ではずっとよくできた。ところが1週間後のテストでは、混合群63%に対しブロック群はわずか20%。効果量は d = 1.34 という巨大な差で、立場が完全に逆転した。

ここでも、第3部・第4部と同じ教訓が顔を出す。練習中の「できている感」は、将来の実力をまるで保証しない。それどころか、練習正答率の高さは、将来の成績の「負の予測子」にすらなりうる。ブロック練習は、その場の手応えで学習者と教師の両方を欺くのだ。これが、効果が確かなのに教育現場でインターリービングがなかなか採用されない最大の理由でもある。

子どもでも、実際のカリキュラムでも効く

「大学生の人工的な課題でしょう」という疑いに、後続研究が答えている。Taylor & Rohrer（2010, Applied Cognitive Psychology）は、小学4年生を対象に、角柱の面・角・辺・頂点の数を求める4種類の問題で同じ比較を行った。練習中はやはりインターリーブが不利だったが、1日後のテストでは混合群77%に対しブロック群38%——スコアがほぼ2倍、効果量 d = 1.21 だった。

この研究は、なぜ効くのかの手がかりも与えてくれる。誤答を「どの手順を使うべきか取り違えた弁別エラー」と「手順は合っているが計算を間違えた実行エラー」に分けて分析すると、弁別エラーがブロック群で46%、インターリーブ群で10%と激減していた。混ぜて練習すると、「いま解くべきはどのタイプの問題か」を見分ける力が鍛えられるのだ。

さらに、生態学的妥当性（現実の教室にどれだけ近いか）が最も高いのが、Rohrer, Dedrick & Stershic（2015, Journal of Educational Psychology）である。中学1年生126名を対象に、3か月間、学区の実際の数学カリキュラムに組み込む形でインターリービングを実施した。総問題数も間隔もそろえ、「混ぜるかどうか」だけを操作している。抜き打ちで行った30日後のテストでは、インターリーブ群が約74%、ブロック群が約42%（効果量 d = 0.79）。問題タイプ別では、グラフ問題で84%対54%という差がついた。人工的な実験室ではなく、本物の授業の中でも効いたのだ。

なぜ効くのか——「間隔」ではなく「対比」

この「混ぜると効く」現象は、概念やカテゴリーの学習でも観察される。Kornell & Bjork（2008, Psychological Science）は、12人の画家それぞれの作風を、絵を見せて学ばせた。一人の画家の絵をまとめて見せる（ブロック）群と、いろいろな画家の絵を交互に見せる（インターリーブ）群を比べ、最後に「初めて見る絵」が誰の作品かを当てさせた。これは丸暗記ではなく、作風を帰納的に掴む課題だ。結果、インターリーブ群77%に対しブロック群67%（d = 0.41）で、混ぜたほうが新しい絵の作者を当てられた。

そしてここでも、約80%の被験者が「まとめて見たほうが学べた」と誤って判断した。この錯覚は、後の追試（Verkoeijen & Bouwmeester 2014）でも71%が同じ誤りを犯し、再現されている。

「混ぜる」がなぜ効くのか。「間隔があくから（分散効果）」なのか、「異なるものを並べることで違いが際立つから（対比効果）」なのか。これを切り分けたのが Kang & Pashler（2012, Applied Cognitive Psychology）だ。彼らは、ブロックのまま時間間隔だけを広げた条件と、異なる画家の絵を「同時に並べて」見せる（間隔ゼロ）条件を作った。結果、時間をあけただけのブロックは効果がなく、間隔ゼロでも異なる絵を並べた条件はインターリーブと同等に効いた。つまり、効いているのは「時間的な間隔」ではなく「カテゴリー間の対比」だった。混ぜることの本質は、似たものを並べて違いに注意を向けさせる点にある。

「混ぜれば何でも伸びる」はウソ——材料が決める

ここからが、インターリービングを語る記事がほとんど書かない核心だ。混ぜることは、いつでもどこでも効くわけではない。

Brunmair & Richter（2019, Psychological Bulletin）は、インターリービングのメタ分析を行い、論文タイトルに結論を掲げた——「Similarity matters（似ていることが鍵だ）」。全体の効果量は g = 0.42 と中程度だが、材料によって大きく違った。

インターリービングは、材料によって効きも逆効果にもなる

Brunmair & Richter (2019, Psychological Bulletin) のメタ分析より、材料別のインターリービング効果量 g。0より右は『混ぜると有利』、左は『まとめた方が有利』。絵画の作風学習では大きく効くが、単語・語彙の暗記ではむしろ逆効果（g = −0.39）だった。混ぜるべきは『紛らわしくて取り違えやすい似たタイプ』だけ、という教訓。

絵画の作風のように「カテゴリー間が似ていて紛らわしい」材料では g = 0.67 と大きく効いた。数学の問題で g = 0.34、説明文の理解では g = 0.21 で有意とは言えず、そして単語・語彙の暗記では g = −0.39——つまり、混ぜるとむしろ成績が下がった。

メタ分析の整理はこうだ。カテゴリー間が似ていて、カテゴリー内のばらつきがあり、材料が複雑なほど、インターリービングは効く。逆に、互いに無関係なものをただ混ぜても効かないどころか害になる。英単語を覚えるときに単語をシャッフルしても無意味で、むしろ集中して覚えたほうがいい。混ぜるべきなのは、「公式の選択を間違えやすい数学」「似た文法事項」「紛らわしい診断・分類」のような、取り違えやすい類似タイプだけなのだ。

「望ましい困難」は万能の呪文ではない

ここまでの第3部から第5部に共通する原理を、Bjork は「望ましい困難（desirable difficulties）」と名づけた。検索練習も、分散も、インターリービングも、いずれも学習を「その場では遅く・難しく」感じさせるが、長期の保持と転移を高める。逆に、学習を速く・楽に感じさせる操作（再読など）は定着しにくい。手応えと定着が逆を向くのは、この原理の現れだ。

ただし、Bjork 自身が重要な留保をつけている。困難が「望ましい」のは、学習者がその困難に立ち向かえるだけの前提知識・技能を持っている場合に限る。土台のない初学者に、いきなり難しい困難を課しても、それはただの失敗体験——「望ましくない困難」になる。検索練習も、まったく学んでいないことを「思い出せ」と言われても思い出しようがない。望ましい困難は、万能の呪文ではなく、学習者の段階に合わせて処方すべきものなのだ。

第6部　「あなたの学習タイプ」という神話

効果を検証するのに必要な、たった一つの実験設計

「自分は目で見て覚える視覚型だ」「私は耳で聞いたほうが頭に入る聴覚型だ」——こうした「学習スタイル（learning styles）」の考え方は、教育現場にも一般にも深く根づいている。VARK（視覚・聴覚・読み書き・運動）などの「学習タイプ診断」を受けたことがある人も多いだろう。そして「自分のタイプに合った方法で学べば効率が上がる」と、多くの人が信じている。

この「タイプに合わせると伸びる」という主張を、専門的には「かみ合わせ仮説（meshing hypothesis）」と呼ぶ。Pashler, McDaniel, Rohrer & Bjork（2008, Psychological Science in the Public Interest）は、この仮説が科学的にどれだけ支持されているかを、徹底的に検証した。

彼らがまず示したのは、この仮説を検証するには、ある特定の実験設計が必要だ、ということだ。具体的には——(1)学習者を学習スタイルで分類し（視覚型/聴覚型など）、(2)各タイプ内で、複数の指導法に無作為に割り当て、(3)全員に同一のテストを課し、(4)あるタイプの成績を最も高める指導法が、別のタイプでは別の指導法になる、という「交差交互作用（crossover interaction）」を示す必要がある。

この交差が肝だ。「視覚型は視覚教材で、聴覚型は聴覚教材で、それぞれ最も伸びる」という交差したパターンが出て初めて、仮説は支持される。逆に「両タイプとも同じ方法でいちばん伸びた」のなら、それは仮説の反証だ。

ただし、「完全に否定された」と言いすぎない

ここで、誠実さのために一線を引いておく必要がある。Pashler ら自身が、この種の否定的結果を「学習スタイル仮説そのものの決定的な反証とみなすのは明白な誤りだ」と注意している。否定されているのは、あくまで「現在広く使われている、特定の学習スタイル介入」であって、将来、何らかの測定法と指導法の組み合わせが適切な基準を満たして効果を示す可能性が、論理的に消えたわけではない。

また、「人には学び方の好み（preference）がある」こと自体は、誰も否定していない。否定されているのは「好みに合わせて教えると成績が上がる」という、かみ合わせの部分だけだ。好みは本物。ただ、その好みに合わせることが学習効果を高める、という橋が架かっていない——これが正確な理解である。

実用的な含意はシンプルだ。「あなたは聴覚型だから、ひたすら聞いて勉強しなさい」という助言には、根拠がない。むしろ、第3部から第5部で見た「検索練習・分散・適切なインターリービング」のように、タイプを問わず誰にでも効く方法に時間を割いたほうが、賢明だ。

第7部　ラボの真実を、現実の勉強にどう翻訳するか

再現性危機の中の、頑健な例外

ここまで多くの研究を引いてきた。だが、心理学という分野そのものが、近年「再現性危機（replication crisis）」に揺れたことを忘れてはならない。Open Science Collaboration（2015, Science）が著名な心理学研究100件を追試したところ、統計的に有意な結果が再現できたのは36%にとどまり、再現できた場合でも効果量はおおむね元の半分だった。「論文に書いてあるから正しい」とは限らない時代なのだ。

この厳しい目で見たとき、学習科学の主要な発見はどう評価されるのか。幸い、テスト効果と分散効果は、この危機の「弱くて消えた」グループとは別格に位置づけられている。どちらも1世紀以上前（テスト効果は1917年、分散は1939年の研究にさかのぼる）から繰り返し確認され、数百の研究で一貫して再現されてきた、学習科学で最も頑健な現象群だ。だからこそ、この記事は他の多くの「効果」よりも、この2本柱を信頼して中心に据えている。

それでも残る、外的妥当性のギャップ

頑健であることと、「あなたの勉強にそのまま当てはまる」ことは、別の話だ。ここに、学習法記事が最も語りたがらない問題がある——外的妥当性（external validity）のギャップである。

古典的な学習科学の研究の多くは、(a)大学生という偏ったサンプル、(b)単語リストや対連合、短い散文といった人工的な教材、(c)数分から1週間という短い保持期間、(d)一回きりの学習、というラボ条件に依存している。これを、何か月も続く、複雑で、何度も復習する現実の学習にそのまま外挿していいのか、という問いだ。

近年の大規模レビューが、この点を率直に扱っている。Agarwal, Nunes & Blunt（2021, Educational Psychology Review）は、実際の教室で行われた検索練習の50実験（のべ5374名）を体系的にレビューした。結論として、教室でも検索練習はおおむね有効で、効果量が中〜大だった研究が57%、逆効果だったのはわずか6%だった。これは心強い。

だが同じレビューが、限界も正直に並べている。第一に、50実験の94%が「WEIRD」と呼ばれる、米国を中心とする欧米圏で行われ、非欧米圏（パキスタン・台湾・トルコ）はわずか6%・3実験だった。第二に、検索練習の効果量は、ラボのメタ分析ではおよそ g = 0.50 だが、教室研究ではより小ぶりになりやすい（教室は効果量のばらつきが大きく、Agarwal らも一律のプール値は出していない）。第三に、ラボでは「遅れて測るほど効果が大きい」のに、教室データではむしろ1〜3日後のほうが学期末より効果が大きい場合があった——現実は曝露条件が違うので、単純な外挿が効かない。第四に、研究は理科や心理学に偏り、数学・語学・技能学習のデータは薄い。「どの教科でも同じだけ効く」とは、まだ言えないのだ。

そして第5部で見たように、インターリービングは材料次第で逆効果にすらなる。万能の学習法は、存在しない。あるのは「この条件では、これがよく効く」という、境界つきの道具の集まりだ。

学生は、知っていても、やらない

最後に、身も蓋もない現実を直視しておく。Hartwig & Dunlosky（2012）や Blasiman, Dunlosky & Rawson（2017）の調査によれば、多くの大学生は、効果の低い再読を主軸にし、試験直前に集中する一夜漬けに流れ、計画した学習時間より実際にはずっと少なくしか勉強しない。効く方法が分かっていても、人は楽な方法に流れる。だからこそ——次の第8部で見るように——意志に頼るのではなく、「設計」と「環境」で自分を仕向ける必要がある。

第8部　科学が指し示す「設計」——何時間ではなく、思い出す回数 × 間隔 × 混在

ここまでの検証を、実際の勉強に翻訳しよう。確かなのは「方向」だ。読むより思い出す、まとめてより分散、紛らわしいものは混ぜる。あとは、これを自分の試験までの期間に合わせて組み立てる。鍵は「何時間やるか」ではなく、「思い出す回数 × 間隔 × 混在」を設計することだ。

教科書をいったん閉じ、問題集と単語カードで「思い出す」練習をする。読み返すよりも、閉じて思い出すほうが長く記憶に残る。

最も効果が高いとされる組み合わせが、検索練習と分散をかけ合わせた「連続再学習（successive relearning）」である。Rawson & Dunlosky（2011）が示したこの方法は、各回「正答できるまで思い出す」を、数日の間隔をあけて複数サイクル繰り返す。テスト効果と分散効果という、最も頑健な2本柱を同時に使う、いわば王道だ。

具体的な設計指針に落とすと、こうなる。

主軸を「読む」から「思い出す」に移す。教科書を読み返す時間を、過去問・問題集・自己テストに置き換える。ノートやテキストを閉じた状態で、何も見ずに思い出す（閉本での想起）。これが検索練習の最低条件だ。
必ずフィードバックを挟む。第3部で見たとおり、答え合わせをせず、半分も思い出せないまま解き続けても効果はほぼゼロになる。解けなかった箇所こそ、正解を確認して埋める。
本番の形でテストする。検索練習は「テストした形」を強くするが、応用には勝手に転移しない。記述式で問われるなら記述で、選択式なら選択でも記述でも——本番に出る形そのもので思い出す練習をする。
間隔をあけて再テストする。一度解けた問題も「できたら飛ばす」ではなく、数日後にもう一度解く。間隔は「いつ使うか」から逆算する。数日後の試験なら短い間隔で、長く使う知識なら間隔を広げる。
混ぜるのは「紛らわしい似たタイプ」に限る。公式の選択を間違えやすい数学、混同しやすい文法や分類のように、取り違えやすいものを混ぜて解く。一方、無関係な暗記事項をやみくもにシャッフルしても効かない（単語暗記はむしろまとめたほうがいい）。
「手応え」を成功の指標にしない。スラスラ読めた、よく分かった気がする——この流暢性は、定着の証拠ではない。指標にすべきは「何も見ずに思い出せたか」だけだ。手応えがないのは、しばしば、効いている証拠ですらある。
計画倒れを仕組みで防ぐ。人は計画より少なくしか勉強せず、直前に集約する。固定した時間枠、締め切りの前倒し、そして次に述べる「環境」で、意志の弱さを補う。

短期の試験と、長く使う知識とでは、最適なスケジュールが違うことも忘れずに。明日の小テストなら集中も機能するが、半年後の本番や、その先も使う実力をつけたいなら、分散と連続再学習が効いてくる。

第9部　環境は意志の代わりにならない、が「続ける」を支える

中断は、検索練習と相性が悪い

科学が示す学習法には、ひとつ共通点がある。どれも「楽ではない」のだ。検索練習は思い出す努力を要し、分散は手応えのなさに耐えることを求め、インターリービングはわざと混乱を招く。つまり、これらの方法の勝敗は、結局「その負荷をかけ続けられるか」にかかっている。

ここで効いてくるのが環境だ。授業中のスマホ利用やマルチタスクが学業成績と負の関連を示すことは、多くの研究で一貫して報告されている（ただし、その多くは相関研究であり、「中断さえなくせば成績が上がる」という因果を厳密に示すものではない点には注意したい）。検索練習のように集中して負荷をかけ続ける作業は、通知やマルチタスクによる中断ととりわけ相性が悪い。思い出そうとした瞬間に通知が来れば、その「思い出す努力」そのものが断ち切られてしまう。

だからこそ、中断の少ない専用の環境——自習室や図書館——は、「望ましい困難」を続けるための足場になりうる。自宅は誘惑と中断の宝庫だ。集中を要する検索練習や、手応えのない分散学習を淡々と続けるには、最初から余計な刺激の少ない場所に身を置くほうが、意志の消耗が少なくて済む。

中断の少ない自習室や図書館は、つらく感じる「望ましい困難」を続けるための足場になる。ただし「その席に座れば記憶力が上がる」わけではない点には注意。

自習室比較ナビでは、24時間使える自習室や、お住まいの地域の自習室・学習スペース、静かに集中できる図書館を、設備や料金から比較して探せる。「どこでやるか」は些細な問題に見えて、続けられるかどうかを左右する。

ただし、「同じ席に座れば記憶が良くなる」わけではない

環境の価値を、誇張しないことも大切だ。「お気に入りの静かな席にこそ集中の秘密がある」と言いたくなるが、記憶の研究はむしろ逆の面も示している。

Smith, Glenberg & Bjork（1978）の古典的な実験では、学習を2つの異なる部屋に分けて行った群のほうが、同じ部屋で2回学習した群より、自由再生の成績が大きく上回った。学ぶ場所を変えると、記憶を引き出す手がかりが増え、特定の場所に縛られにくくなるためと考えられている。長期的には、勉強する場所をある程度変える（自宅・自習室・図書館を行き来する）ことが、記憶の手がかりを多様にする利点を持つ。

だから、環境について誠実に言えるのはこうだ。専用の環境の価値は「中断を減らし、つらい方法を続けやすくする」点にある。「その席に座れば記憶力が上がる」という話ではない。環境は意志の代わりではなく、科学的な設計を回し続けるための足場である。そして長い目で見れば、その足場を一か所に固定しすぎないほうが、記憶にはむしろ良い。

まとめ——時間ではなく、設計を

長い検証を、3つの結論に畳んでおきたい。

第一に、「何時間やったか」は、思ったほど実力を決めない。練習量が成績のばらつきを説明する割合は、領域によっては数%にすぎず、しかも「1万時間の法則」は原典に存在しない俗説だった。決めるのは時間の量ではなく、その時間で何をやったか——設計だ。

第二に、科学が指し示す設計は、直感に反する。読み返すより思い出す。まとめてより間隔をあけて。紛らわしいものは混ぜる。そして、これらはどれも「その場では楽に感じない」。手応え（流暢性）は、しばしば定着と逆を向く。だから、成功の指標を「分かった気」から「何も見ずに思い出せたか」へと置き換える必要がある。

第三に、これらの効果は確かだが、自動でも万能でもない。フィードバックのない検索練習はほぼ効かず、無関係なものを混ぜるインターリービングは逆効果になり、ラボの効果量は教室では縮む。「科学的に正しい唯一の勉強法」を売る言説を疑い、境界つきの道具として使いこなす——それが、研究に誠実に向き合う態度だ。

勉強時間の目安は、出発点としては悪くない。だが、そこに「1日3時間 × 100日」と書き込んだあと、本当に問うべきは「その300時間を、思い出す回数 × 間隔 × 混在として、どう設計するか」だ。時間は器にすぎない。中身を決めるのは、あなたの設計である。

主な参考文献（原典）

この記事で踏み込んだ主な研究を、確認しやすいように挙げておく。

Ericsson, K. A., Krampe, R. T., & Tesch-Römer, C. (1993). The Role of Deliberate Practice in the Acquisition of Expert Performance. Psychological Review, 100(3), 363–406.
Macnamara, B. N., Hambrick, D. Z., & Oswald, F. L. (2014). Deliberate Practice and Performance in Music, Games, Sports, Education, and Professions: A Meta-Analysis. Psychological Science, 25(8), 1608–1618.
Macnamara, B. N., & Maitra, M. (2019). The role of deliberate practice in expert performance: revisiting Ericsson, Krampe & Tesch-Römer (1993). Royal Society Open Science, 6(8), 190327.
Dunlosky, J., Rawson, K. A., Marsh, E. J., Nathan, M. J., & Willingham, D. T. (2013). Improving Students' Learning With Effective Learning Techniques. Psychological Science in the Public Interest, 14(1), 4–58.
Roediger, H. L., & Karpicke, J. D. (2006). Test-Enhanced Learning: Taking Memory Tests Improves Long-Term Retention. Psychological Science, 17(3), 249–255.
Karpicke, J. D., & Roediger, H. L. (2008). The Critical Importance of Retrieval for Learning. Science, 319(5865), 966–968.
Karpicke, J. D., & Blunt, J. R. (2011). Retrieval Practice Produces More Learning than Elaborative Studying with Concept Mapping. Science, 331(6018), 772–775.
Rowland, C. A. (2014). The Effect of Testing Versus Restudy on Retention: A Meta-Analytic Review of the Testing Effect. Psychological Bulletin, 140(6), 1432–1463.
Adesope, O. O., Trevisan, D. A., & Sundararajan, N. (2017). Rethinking the Use of Tests: A Meta-Analysis of Practice Testing. Review of Educational Research, 87(3), 659–701.
Pan, S. C., & Rickard, T. C. (2018). Transfer of Test-Enhanced Learning: Meta-Analytic Review and Synthesis. Psychological Bulletin, 144(7), 710–756.
Ebbinghaus, H. (1885). Über das Gedächtnis（記憶について）.
Murre, J. M. J., & Dros, J. (2015). Replication and Analysis of Ebbinghaus' Forgetting Curve. PLoS ONE, 10(7), e0120644.
Cepeda, N. J., Pashler, H., Vul, E., Wixted, J. T., & Rohrer, D. (2006). Distributed Practice in Verbal Recall Tasks: A Review and Quantitative Synthesis. Psychological Bulletin, 132(3), 354–380.
Cepeda, N. J., Vul, E., Rohrer, D., Wixted, J. T., & Pashler, H. (2008). Spacing Effects in Learning: A Temporal Ridgeline of Optimal Retention. Psychological Science, 19(11), 1095–1102.
Kornell, N. (2009). Optimising learning using flashcards: Spacing is more effective than cramming. Applied Cognitive Psychology, 23(9), 1297–1317.
Rohrer, D., & Taylor, K. (2007). The shuffling of mathematics problems improves learning. Instructional Science, 35, 481–498.
Taylor, K., & Rohrer, D. (2010). The effects of interleaved practice. Applied Cognitive Psychology, 24(6), 837–848.
Rohrer, D., Dedrick, R. F., & Stershic, S. (2015). Interleaved Practice Improves Mathematics Learning. Journal of Educational Psychology, 107(3), 900–908.
Kornell, N., & Bjork, R. A. (2008). Learning Concepts and Categories: Is Spacing the "Enemy of Induction"? Psychological Science, 19(6), 585–592.
Brunmair, M., & Richter, T. (2019). Similarity Matters: A Meta-Analysis of Interleaved Learning and Its Moderators. Psychological Bulletin, 145(11), 1029–1052.
Pashler, H., McDaniel, M., Rohrer, D., & Bjork, R. (2008). Learning Styles: Concepts and Evidence. Psychological Science in the Public Interest, 9(3), 105–119.
Rogowsky, B. A., Calhoun, B. M., & Tallal, P. (2015). Matching Learning Style to Instructional Method: Effects on Comprehension. Journal of Educational Psychology, 107(1), 64–78.
Karpicke, J. D., Butler, A. C., & Roediger, H. L. (2009). Metacognitive strategies in student learning. Memory, 17(4), 471–479.
Agarwal, P. K., Nunes, L. D., & Blunt, J. R. (2021). Retrieval Practice Consistently Benefits Student Learning: A Systematic Review of Applied Research in Schools and Classrooms. Educational Psychology Review, 33, 1409–1453.
Open Science Collaboration (2015). Estimating the reproducibility of psychological science. Science, 349(6251), aac4716.
Ericsson, K. A., & Pool, R. (2016). Peak: Secrets from the New Science of Expertise. Houghton Mifflin Harcourt.
Bjork, R. A. (1994). Memory and metamemory considerations in the training of human beings. In J. Metcalfe & A. Shimamura (Eds.), Metacognition: Knowing about Knowing (pp. 185–205). MIT Press.
Kornell, N., & Bjork, R. A. (2009). A Stability Bias in Human Memory: Overestimating Remembering and Underestimating Learning. Journal of Experimental Psychology: General, 138(4), 449–468.
van Gog, T., & Sweller, J. (2015). Not New, but Nearly Forgotten: The Testing Effect Decreases or Even Disappears as the Complexity of Learning Materials Increases. Educational Psychology Review, 27(2), 247–264.
Karpicke, J. D., & Aue, W. R. (2015). The Testing Effect Is Alive and Well with Complex Materials. Educational Psychology Review, 27(2), 317–326.
Agarwal, P. K., Finley, J. R., Rose, N. S., & Roediger, H. L. (2017). Benefits from retrieval practice are greater for students with lower working memory capacity. Memory, 25(6), 764–771.
Bahrick, H. P., Bahrick, L. E., Bahrick, A. S., & Bahrick, P. E. (1993). Maintenance of Foreign Language Vocabulary and the Spacing Effect. Psychological Science, 4(5), 316–321.
Verkoeijen, P. P. J. L., & Bouwmeester, S. (2014). Is spacing really the "friend of induction"? Frontiers in Psychology, 5, 259.
Kang, S. H. K., & Pashler, H. (2012). Learning Painting Styles: Spacing is Advantageous when it Promotes Discriminative Contrast. Applied Cognitive Psychology, 26(1), 97–103.
Massa, L. J., & Mayer, R. E. (2006). Testing the ATI hypothesis: Should multimedia instruction accommodate verbalizer-visualizer cognitive style? Learning and Individual Differences, 16(4), 321–335.
Rogowsky, B. A., Calhoun, B. M., & Tallal, P. (2020). Providing Instruction Based on Students' Learning Style Preferences Does Not Improve Learning. Frontiers in Psychology, 11, 164.
Macdonald, K., Germine, L., Anderson, A., Christodoulou, J., & McGrath, L. M. (2017). Dispelling the Myth: Training in Education or Neuroscience Decreases but Does Not Eliminate Beliefs in Neuromyths. Frontiers in Psychology, 8, 1314.
Newton, P. M. (2015). The Learning Styles Myth is Thriving in Higher Education. Frontiers in Psychology, 6, 1908.
Hartwig, M. K., & Dunlosky, J. (2012). Study strategies of college students: Are self-testing and scheduling related to achievement? Psychonomic Bulletin & Review, 19(1), 126–134.
Blasiman, R. N., Dunlosky, J., & Rawson, K. A. (2017). The what, how much, and when of study strategies: comparing intended versus actual study behaviour. Memory, 25(6), 784–792.
Smith, S. M., Glenberg, A., & Bjork, R. A. (1978). Environmental context and human memory. Memory & Cognition, 6(4), 342–353.
Rawson, K. A., & Dunlosky, J. (2011). Optimizing schedules of retrieval practice for durable and efficient learning: How much is enough? Journal of Experimental Psychology: General, 140(3), 283–302.

注記

この記事は学習科学の一般向け解説であり、特定の資格・試験の合否や、個人の学習成果を保証するものではありません。引用した数値・効果量は各原著論文の報告に基づきますが、研究には被験者・教材・期間などの条件があり、すべての学習状況にそのまま当てはまるとは限りません。本文では、できるだけ「どこまで言えて、どこからは言えないか」を明示するよう努めました。気になった研究は、ぜひ上の原典に当たって確かめてほしい。

関連記事

行政書士試験はどう変わったか — 合格率が乱高下する絶対評価、受験者回復の20年と現在地

建築家・隈研吾の図書館｜梼原「雲の上の図書館」からTOYAMAキラリへ

安藤忠雄、本の森をつくる｜光と打ち放しコンクリートで「子どもに本と出会う場所」を全国へ