← ベンチマーク一覧

漢字読み取り (Read Kanji)

JIS 第一水準漢字 (常用範囲をほぼカバーする 2,965 字) を画像にレンダリングし、VLM がどれだけ正確に読めるかを測定。

対象は JIS X 0208 第一水準漢字。常用漢字 + 人名・地名で頻出する文字を含む、日本語実用範囲のコア。複数フォント・複数分割サイズで提示し、形状・コンテキスト依存のばらつきも観測。

更新: 2026年4月30日 23:30

テスト構成

フォント
4
  • NotoSansJP-VariableFont_wght.ttf
  • NotoSerifJP-VariableFont_wght.ttf
  • RampartOne-Regular.ttf
  • ZenKurenaido-Regular.ttf
分割サイズ
100 / 50 / 25
ユニーク漢字
2,965
1モデル/文字あたり試行回数
12

モデル別正解率

厳密 = 完全一致のみ正解。寛容 = 旧字体・異体字も正解と見なす。

正解率 × コスト

右上ほど高精度・低コストではない (左上が理想)。点クリックでモデル詳細へ。

コスト比較 (USD)

本ベンチ実施に要した OpenRouter 経由の課金額。

トークン使用量

入力 / 出力 / 総計で切替。

出力速度

completion tok/s (provider 依存・あくまで目安)。実時間はレート制限で振れるため省略。

漢字別ヒートマップ (全モデル平均)

緑 = よく当てられる / 赤 = 苦手。Hover で文字とヒット数。

沿
橿
竿
稿
使
姿
鹿
湿
寿
宿
駿
西
穿
退
辿
調
椿
殿
禿
廿
尿
便
簿
貿
麿
婿
綿
輿
耀

苦手漢字 Top30

全モデルで最も正解率の低かった漢字。

厳密

0.7%
1.4%
2.8%
7.6%
11.1%
13.9%
14.6%
15.3%
16.0%
16.0%
18.1%
19.4%
19.4%
麿
19.4%
20.1%
20.8%
20.8%
20.8%
21.5%
22.9%
23.6%
24.3%
24.3%
25.0%
25.0%
25.0%
25.7%
25.7%
26.4%
27.1%

寛容

0.7%
13.9%
14.6%
15.3%
16.0%
16.0%
18.1%
19.4%
麿
19.4%
20.1%
20.8%
20.8%
23.6%
24.3%
24.3%
25.0%
25.0%
25.7%
27.1%
27.8%
27.8%
27.8%
28.5%
29.2%
29.9%
29.9%
30.6%
30.6%
31.3%
31.3%

モデル別詳細

カードをクリックでモデル毎の詳細ページへ。

claude haiku 4.5

Amazon Bedrock

厳密
52.1%
寛容
53.5%
コスト
$1.9205
時間
1863s
トークン
1,285,190
異体字許容
502
詳細を見る →

gemini 2.5 flash

Google

厳密
96.0%
寛容
97.5%
コスト
$0.3546
時間
2100s
トークン
905,395
異体字許容
500
詳細を見る →

gemini 2.5 flash lite

Google

厳密
92.1%
寛容
93.7%
コスト
$0.0998
時間
1686s
トークン
882,024
異体字許容
588
詳細を見る →

gemini 3 flash preview

Google

厳密
95.0%
寛容
95.2%
コスト
$0.8389
時間
1780s
トークン
1,175,064
異体字許容
64
詳細を見る →

Gemini 3.1 Flash Lite (preview)

Google AI Studio

厳密
96.5%
寛容
97.2%
コスト
$0.5084
時間
2258s
トークン
1,269,272
異体字許容
259
詳細を見る →

Gemma 4 26B-A4B Instruct

Ionstream

厳密
84.1%
寛容
86.7%
コスト
$0.0802
時間
0s
トークン
597,528
異体字許容
905
詳細を見る →

gpt 5.4

OpenAI

厳密
78.2%
寛容
78.8%
コスト
$2.5183
時間
1613s
トークン
504,038
異体字許容
225
詳細を見る →

gpt 5.4 mini

OpenAI

厳密
71.7%
寛容
72.7%
コスト
$0.7505
時間
1909s
トークン
501,560
異体字許容
355
詳細を見る →

gpt 5.4 nano

OpenAI

厳密
47.7%
寛容
48.4%
コスト
$0.2059
時間
1895s
トークン
500,316
異体字許容
247
詳細を見る →

Qwen3-VL 30B-A3B Instruct

DeepInfra

厳密
91.4%
寛容
93.4%
コスト
$0.1410
時間
2438s
トークン
585,122
異体字許容
711
詳細を見る →

qwen3.5 35b a3b

Parasail

厳密
95.6%
寛容
96.7%
コスト
$0.2311
時間
1938s
トークン
674,217
異体字許容
389
詳細を見る →

grok 4.1 fast

xAI

厳密
0.9%
寛容
0.9%
コスト
$0.1713
時間
1799s
トークン
1,036,823
異体字許容
11
詳細を見る →