査読者1

（Primary）レビューサマリ

本研究は、入門的なプログラミング教育において受講生が犯しがちな初歩的なミスを、LLMによる自動採点システムでスクリーニングすることで、受講生は軽微なミスを素早く修正でき、教員とTAはそのチェックを通過した提出物だけを確認の対象にできるという手法を提案しています。

スコアが 5,5,5,4 となっており、多人数の授業を少人数の教員とTAで効果的に実施するという現場のニーズに対して，LLMを活用することで受講生と教える側の双方にメリットをもたらすことと，120名以上の受講生がいる授業で1学期間の実運用を経た知見となっていることが肯定的に評価されています。

一方で，提案システムを有効に適用できる課題の性質について説明が不十分であること、再提出に要する時間の評価がややアンフェアに見えること、提案手法を使わない場合との比較も本来は必要であることについて指摘がなされています．

シンポジウムの登壇発表としては十分に有意義と考えられるため、採録と判断しました。

（Primary）採録時コメント

本研究は，入門的なプログラミング教育において受講生が犯しがちな初歩的なミスを，LLMによる自動採点システムでスクリーニングする手法を提案している．結果として，受講生は単純なミスについてはLLMの指摘で素早く修正することができ，また教員やTAはそのチェックを通過した提出物の採点に注力できるため，双方に有益なシステムになっている．120名以上が受講する1学期間の授業で運用した実績を含めて報告されており，採録に足る論文と判断した．

（Primary）論文誌として必要な改善点

提案システムを有効に適用できる課題の性質について説明を追記すること、再提出に要する時間の定義と、時間の比較がややアンフェアに見えることについては十分な説明の追加が必要と考えます。
提案手法を使わない場合との比較も本来は必要ですが、同一科目の運用の中で実施するのは難しいとも思います。限定的な数の実験協力者でも結構ですので、比較についてご検討ください。

総合点 (1: 強く不採録～6: 強く採録)

5: 採録

確信度 (1: 専門外である～3: 自身の専門分野とマッチしている)

3: 自身の専門分野とマッチしている

採否理由

・新規性
対話・質問形式を通じたプログラミング学習やLLMによる自動採点を試みる先行研究はあるが、スクリーニング的な簡易チェックにLLMを利用することで試行錯誤を加速しようとする試みは新規性が認められます。

・有用性、正確性
1学期間の授業を通じて実運用した経験に基づく報告は有意義です。
一方で、提案手法の有用性を示すには以下の2点でやや不足しているとも感じました。
1点目は、LLMフィードバックとTA採点とで再提出までの時間の差異についてです。後者の時間が長いのは、LLMによる簡易チェックを通過してしまうような、本質的にやや難しいポイントを修正しているためと考えられます。具体的な誤りの内容を分析できると、この点を補強できると思います。
2点目は、LLMフィードバックでチェックする採点基準を、提出前のセルフチェックリストとして提示することとの違いについてです。一般には自動採点の方が受講生の負担が小さいですが、ある程度の判定ミスがあることを考えると単純なチェックリストも一定の有効性を発揮するとも言えると思います。この点は、プログラミングに苦手意識がある層に限定すると、提案手法のアドバンテージを示せるのではと感じました。

・論文の記述
概ね分かりやすく記述されています。

改善コメント

5.3節で、「課題の評価に影響しない指摘は参考にならないと評価された」とありますが、重複する計算を減点とする評価尺度も考えられると思います。受講生は何が評価対象となっているのか、把握できていたのでしょうか。また、主要な機能を実装していないプログラムを提出することで、LLMからの指摘によりチェック項目を知ることもできそうに思いましたが、そのような利用は可能/許容されるのでしょうか。

5.5節、「人手で確認する際に注目すべき点がわかりやすくなる」のはLLMによるスクリーニングを経ているからと理解しましたが、判定ミスを前提としていることとの関連がよく理解できませんでした。

以下はtypoと思われます。
6.2節：仕組み実現する予定
文献[34]：情報処理学会報教育シンポジウム

査読者2

総合点 (1: 強く不採録～6: 強く採録)

4: どちらかと言えば採録

確信度 (1: 専門外である～3: 自身の専門分野とマッチしている)

2: やや専門からは外れる

採否理由

1.新規性の評価: 4
論文「PP-Checker: プログラミング教育における大規模言語モデルと協調した曖昧性のある自動採点システム」は、大規模言語モデル（LLM）を活用し、プログラミング教育における曖昧な課題採点を自動化するシステムを提案している。LLMを使用して曖昧な課題を即座にフィードバックし、学生が再提出を迅速に行える点は、従来のルールベースの採点システムとの差異があり、新規性が認められる。また、動的プロンプト生成により採点基準をリアルタイムで変更できる点は、他の自動採点システムには見受けられない機能であり、教育の現場でも役立つという結果を確認している。一方マルチモダル大規模言語モデルを活用して、挙動の確認も可能であることから、より高度な新規性を追求できると考える。

2. 有用性の評価: 4
実際にPP-Checkerが授業で使用され、曖昧な採点課題への対応や再提出のスピード向上に寄与したことが実証されており、有用性は高い。特に、再提出までの時間が平均3.6分に短縮され、学生が即座にフィードバックを受けられる環境が整っている点は、プログラミング教育において大きな利点である。また、アンケート調査での学生の肯定的な反応も、システムの実用性を裏付けている。

3. 正確性: 3
TA採点後とTA 採点前にLLM のフィードバックを受けて修正した場合の比較があるが、本システムの有効性を検証する上で適切でないように見える。TA採点してもらうバージョンは学生がある程度試行錯誤したものを提出している可能性が高く、再提出に向けたチェック等に時間をかけるのも理解できる。一方LLMでのフィードバックは簡易なエラーチェッカーとして使っている場合、再提出時間は自然と早くなる。フィードバックの内容や難易度にも言及すると良いと思う。採点者視点の比較もあるが、6名と数がサンプル数がすくないため、２グループにわけた二つのシステムの比較の結果等があるとより正確である。

4. 論文自体の記述の質: 4
論文の記述は全体的にわかりやすく、システムの構造や動作、評価実験の結果が明確に示されている。実装や実験方法が詳細に説明されているため、読者はPP-Checkerの仕組みを理解しやすい。ただし、具体的なプロンプトの改善方法や、画像入力等による挙動の確認手法の展望等があるとさらに良い。

改善コメント

本システムの利用ありとなしの比較実験があると説得力がますと思います。プロンプトの動的変更はほ本提案のキーアイディアの一つでもあると思うので、どのような状況のときにどのような改善があったか、報告があるとより有用な論文になると思います。
さらに画像入力等による挙動の確認手法の展望等があると、次の研究につながる論文になると思います。

査読者3

総合点 (1: 強く不採録～6: 強く採録)

5: 採録

確信度 (1: 専門外である～3: 自身の専門分野とマッチしている)

2: やや専門からは外れる

採否理由

本論文では，プログラミング教育における採点業務の効率化を目指して，LLMを用いた自動採点システムを提案しています．教員やTAは，提案システムを用いた自動採点でフィードバックを受けた提出物を採点することになるため，初歩的なミスや同じ間違いの指摘などの業務から解放されます．その結果，質問の対応に時間が割けるようになったり，より精度の高い採点が行えるようになったと報告されています．

自動採点を用いた学習システムやプログラミングにLLMが活用されている事例は数多くありますが，教育現場の教員やTAに注目した点は非常に興味深く，特に採点基準を曖昧な判定を許容するように調整可能なシステムを構築したところに新規性があります．以降に述べる有用性についての疑問がいくつかありますが，非常に充実した研究内容であり，LLMを用いたプログラミング教育に関する研究として優れた論文であると判定します．

有用性について，提案システムが対象にできる・できない課題の種類や性質が十分に理解できませんでした．論文中からは，基本的な制御構文やマウス座標を用いた描画課題（図1，2など），マウスやキーボード入力，関数，異なるデザインを含む課題などを対象にできることが読み取れます．これ以外の要素，たとえば，Processingの複数ファイル（タブ）を用いるコード，外部のライブラリを用いた課題，クラスを用いた課題なども扱うことができるでしょうか．提案システムは汎用的に活用できるものとなっているはずですので，適用可能な課題の詳細が説明されているとシステムの有用性がより正しく伝わると思います．

5.2節によれば，提案システムによる自動採点によって，TA採点のときよりも再提出までの時間が短くなった（20.3分から3.6分）と報告されています．この採点時間の計測はどのタイミングで開始されているでしょうか．もし，TAの作業時間や採点が完了したと表示（あるいは通知）されてからそれに気づくまでの時間を含めて「再提出までの時間」と呼んでいるのであれば，その旨を明記されるべきです．

論文は非常に良く書かれていますが，提案システムの機能や画面が誰に向けて設計されているのかわかりづらいです．たとえば，4章の節タイトルを「4.2 課題提出（自動採点）画面（学生用）」や「4.4 手動チェック画面（教員・TA用）」のようにするだけでも理解しやすくなると思います．ページ数に限度がありますが，提案システムを用いた学生とTAとのやりとりをシナリオ形式で紹介する，といった方法も検討していただくと良いと思います．

改善コメント

生成AIやLLMの進歩は目覚ましく，この投稿の間にも，複雑な問題に対して思考過程を生成そして精査することが可能な「OpenAI o1」が発表されました．本研究に組み込むことで，エラーを起こしてしまった学生の思考過程を再現してみせたり，採点を行う教員・TAが注目しているところ教えたりするといった用途で利用できるのではないかと想像しました．新しいモデルを用いることで可能になるFuture Workを発見されましたら，ぜひWISSで共有していただきたいと思います．

査読者4

総合点 (1: 強く不採録～6: 強く採録)

5: 採録

確信度 (1: 専門外である～3: 自身の専門分野とマッチしている)

2: やや専門からは外れる

採否理由

プログラミング学習におけるLLMを利用した自動採点システムの研究です。LLMをプログラミング学習に応用する研究は盛んに行われていますが、インタラクティブなプログラミングに対応している点、TAを含めた授業中での対応を念頭に入れてデザインされている点に新規性があると考えます。

プログラミング教育において普遍的な課題を扱っており、現段階で既に有用性が高いシステムが示されています。LLMの動作を絶対視せず、学習者・教員側の双方がインタラクティブに対応できるように設計する方針は妥当であり、設計方針から運用まで全体的にわかりやすく報告されています。

不備を指摘するストレスが減るなど、議論を喚起しそうな指摘が散りばめられていてワークショップ論文として適しているとも考えます。

本研究の新規性・有用性を強く損ねるものではありませんが、以下の研究などは引用されていてほしいと思いました。
CodeAid: Evaluating a Classroom Deployment of an LLM-based Programming Assistant that Balances Student and Educator Needs
https://dl.acm.org/doi/full/10.1145/3613904.3642773

Combining LLM-Generated and Test-Based Feedback in a MOOC for Programming
https://dl.acm.org/doi/abs/10.1145/3657604.3662040

改善コメント

「再提出までの時間」が短くなることがなぜよいことなのか本稿からは理解しづらかったです。LLMは簡単に修正できる内容しかフィードバックできず、TAが指摘する内容の方が高度な内容を含んでいたために時間が長くなったと考えることもできます。もう少し詳しく説明していただけるとよいと思います。

教員側の立場に立ったとき、誤答をLLMが見落とすことで、LLMを使わないときよりも誤答を見落としやすくなることはないのか？という疑問がわきました。WISSでの発表や議論に向けて、6ページには収めきれなかった個別の具体事例をできるだけたくさん見せられるように準備しておいていただけるとうれしいです。

全般的に、図中の字が小さくて読みづらいので紙幅は限られますが、できるだけ見やすくしてほしいです。