2020.11.09

コンピュータを使った全国学力テストはなぜ失敗しそうなのか――『全国学力テストはなぜ失敗したのか』（岩波書店）

川口俊明（著者）教育学・教育社会学

全国学力テストはなぜ失敗したのか――学力調査を科学する

著者：川口俊明
出版社：岩波書店

2007年以降、日本では子どもたちの学力実態を把握し、教育政策や指導改善に活かすという趣旨から、小学6年生・中学3年生の全員が参加する全国学力・学習状況調査（以下、全国学力テスト）が実施されています。毎年都道府県ごとの平均正答率が報道されるため、自治体間・学校間の点数競争を煽るとか、抽出調査で十分なのではないかといった批判を受けながらも、このテストは10年以上に渡って続けられてきました。

2020年現在、この全国学力テストをコンピュータを使った学力テスト（Computer Based Testing: CBTと呼びます）に変えていこうという議論が進んでいます。先だって８月には、文科省のCBT化検討ワーキンググループで、「中間まとめ」が提出されました。いろいろな論点があるのですが、その中で世間の注目を集めたのが、今の全員参加（悉皆）の学力テストをCBT化することの課題です。

ところが、この中間まとめが報告された直後の会見で、萩生田文科省大臣は「悉皆でやってきたことに大きな意義がある」「抽出に戻るというのはいかがなものか」と発言します。これは大変に問題のある発言なので、この場を借りて、あらためて悉皆の全国学力テストをCBT化するのは止めた方がよい理由を説明したいと思います。

CBTの魅力はいくつかありますが、その一つが「受験者の学力に応じて出題する問題を差し替えることができる」というものです。紙のテストでは出題を変更することはできませんが、CBTなら最初の数問で様子を見て、受験者の学力が高そうなら難しい問題に、手こずっているようなら簡単な問題に差し替えることで、紙のテストよりも正確に受験者の学力を測定することができます。また、サーバへの同時アクセスによる負荷がCBTの課題だと言われることもありますが、実際には受験者が都合のいい日に受験し、サーバへの負荷を分散することは可能です。

ただ、ここで考えないといけない課題があります。それは「違うテストを受けた人同士の成績を比べる」にはどうすればよいのかという点です。受験者の学力に応じて問題を差し替えるということは、個々の受験者は違うテストを受けているということです。異なる日に受験するというのも同じことで、同じ内容のテストを出題したのでは、後に受験した人ほど有利になりますから、テスト内容は変えなければなりません。

実は「違うテストを受けた人同士の成績を比べる」ことは、日本の小中学校でおなじみの100点満点のテストでは困難です。詳しくは専門書に譲りますが、ここで重要になるのがIRT（Item Response Theory：項目反応理論）というテスト理論です。IRTでは個々のテスト問題に、固有の難易度（易しい／難しい、レベル1／レベル2／レベル3など）があると考えます。IRTの考え方を導入すれば、受験者の学力に応じてテストの難易度を変更したり、異なる内容のテストを問題の難易度の観点から比較したりといったことが可能になります。この発想を応用すると異なる年度のテスト結果を比較して、学力が向上した／低下したという分析もできるようになるので、PISAやTIMSSといった有名な国際学力調査でも利用されてきました。その意味では、IRTはテスト理論のグローバル・スタンダードと言ってもよいでしょう。

ただIRTを利用するためには、重要な前提があります。それは、事前に出題する問題の難易度を調べなければならないという点です。それには予備調査を行い、統計的な手続きを踏む必要があります。加えて、問題が受験者に漏洩していないことも重要です。問題が受験者に漏洩すると、試験対策が行われ難易度が変わってしまうからです。

困ったことに、毎年全員が受験する全国学力テストで、この前提を満たすことは恐ろしく困難です。受験する学年で予備調査をすると問題が漏洩しますから、事前に難易度を確定することができません。受験対象外の学年で予備調査をすることも考えられますが、平均正答率を気にして何が何でも成績を高めようとしている自治体・学校が少なくない現状で、果たして予備調査に参加した人たちは誠実に秘密を守るでしょうか？

このような懸念も踏まえて、ワーキンググループでは「調査の目的と実施方法等を総合的に検討する必要」があるという見解が示されたのです。残念なことに、この論点はIRTという専門的な話題が絡むせいかニュースバリューに乏しく、「サーバへの同時アクセスによる負荷が過大だから」というわかりやすい報道が先行してしまったように思います。しかし、IRTが採用できないならCBTの魅力は大きく損なわれますから、ことはサーバの負荷などよりはるかに深刻です。予備調査が必須、かつ問題の秘匿が必要なIRTを採用したテストと、悉皆実施の学力調査は決定的に相性が悪いのです。

ちなみにCBTの話を抜きにしても、10年以上も悉皆で全国学力テストを実施してきたということは、日本がIRTというグローバル・スタンダードなテスト理論を無視して学力テストを設計してきたということを意味します。先の会見で大臣は、「悉皆でやってきたことに意義がある」と仰っていますが、それはこれまでテスト理論を無視してきた「全国学力テストの失敗の歴史」を誇っているわけで、科学技術を司る文部科学省の長の発言としては少々問題含みです。無理に悉皆の学力テストをCBT化して失敗を繰り返すより、抽出調査に変更し、CBTの魅力を十全に活かしたテストを設計する方が、はるかに日本の国益に叶います。

ぜひとも本書を読み、これまでの全国学力テストの失敗の歴史と、その改善方策について思いをめぐらせていただければ幸いです。

プロフィール

川口俊明教育学・教育社会学

福岡教育大学教育学部准教授。大阪大学大学院人間科学研究科博士後期課程修了。専門は教育学・教育社会学。日本の学力格差の実態を明らかにするため、学力調査の分析や学校での参与観察調査をしています。

著書に『全国学力テストはなぜ失敗したのか』（岩波書店）、主な論文に、「教育学における混合研究法の可能性」『教育学研究』78(4)、 pp.386-397、「日本の学力研究の現状と課題」『日本労働研究雑誌』53(9)、 pp.6-15など。

この執筆者の記事