Qualitative Evaluations
Owarai
evaluations

フロンティアAIの「笑い」を、人間が裁くベンチマーク。

知性のベンチマークは各社が出している。
このグラフだけは、ここにしかない。

① OpenRouter API キー

キーがあると起動時に最新モデル一覧を自動取得します。config.local.js(git除外)からも読み込み可。

② 出場モデル(2〜6体)

全モデルから自由に選べます。同じ会社のモデル同士の対戦もOK(例: Opus vs Sonnet)。

③ ルール(採点はあなた)

採点中はどのモデルの回答か伏せられます(ブラインド・提示順ランダム)。全採点後に正体が判明します。

④ 戦績の保存先

「結果フォルダを連携」で ippon-grand-prix/results/ を選ぶと、バトル結果JSONが自動保存され通算集計されます(Chrome/Edge)。

お題 / Prompt

Scoreboard

回答者の正体はラウンドの全採点後に判明します。

Owarai evaluations
優勝

Cumulative owarai benchmark
IPPON
10 / 10 — exceptional humor
共有画像