Archive - The AI Evaluation Substack

September 2025

2025 September "AI Evaluation" Digest

What could possibly go wrong?

Sep 26 •

August 2025

2025 August "AI Evaluation" Digest

Between a rock and a hard place

Aug 29 •

July 2025

2025 July "AI Evaluation" Digest

Long live OpenML!

Jul 25 •

June 2025

2025 June "AI Evaluation" Digest

Illusion is all you need

Jun 27 •

May 2025

2025 May "AI Evaluation" Digest

Ethical standards in AI evaluation

May 30 •

April 2025

2025 April "AI Evaluation" Digest

En attendant Turing: a Tragicomedy in Two Acts

Apr 25 •

March 2025

2025 March "AI Evaluation" Digest

Overhauling Difficulty in Item Response Theory.

Mar 28 •

February 2025

2025 February "AI Evaluation" Digest

It’s high time to change the paradigm.

Feb 28 •

January 2025

2025 January "AI Evaluation" Digest

Distil, baby, distil!

Jan 31 •

December 2024

2024 December "AI Evaluation" Digest

Think before you act!

Dec 27, 2024 •

#nojs-banner { position: fixed; bottom: 0; left: 0; padding: 16px 16px 16px 32px; width: 100%; box-sizing: border-box; background: red; color: white; font-family: -apple-system, "Segoe UI", Roboto, Helvetica, Arial, sans-serif, "Apple Color Emoji", "Segoe UI Emoji", "Segoe UI Symbol"; font-size: 13px; line-height: 13px; } #nojs-banner a { color: inherit; text-decoration: underline; } This site requires JavaScript to run correctly. Please turn on JavaScript or unblock scripts