Best LLMs for Relevance, Classification & Matching

Semantic similarity judgment: does this thing belong in that bucket / match that target?

14 capabilities in this category.

Task-by-task breakdown

Model	Quality (% of best)	Confidence	Overpay
MiniMax M3 ★	90%	RANKED	best value
DeepSeek V4 Pro	92%	MEDIUM	1.3x
Qwen 3.6 Plus	96%	HIGH	2.7x
Meta Muse Spark 1.1	91%	HIGH	5.7x
GPT-5.6 Sol best	100%	HIGH	11x
GPT-5.5	99%	MEDIUM	21x

Model	Quality (% of best)	Confidence	Overpay
Meta Muse Spark 1.1 ★ best	100%	MEDIUM	best value

Scores batched X-com posts against synthesis capability (x_post_relevance stage). Split from pooled relevance_scoring on 2026-05-17. GENERIC_RELEVANCE_SCORE_{SYSTEM,USER}_PROMPT, batched input (≥20k …

Model	Quality (% of best)	Confidence	Overpay
MiniMax M3 ★	98%	RANKED	best value
Gemini 3.5 Flash best	100%	MEDIUM	2.6x
Meta Muse Spark 1.1	94%	MEDIUM	5.6x
Grok 4.5	92%	MEDIUM	7x

Task detail →

Engagement Reply Review

Independent quality review of a drafted engagement reply.

Model	Quality (% of best)	Confidence	Overpay
Gemini 3.1 Flash Lite ★	99%	RANKED	best value
Qwen 3.5 Flash	98%	RANKED	8.5x
Claude Sonnet 5	91%	MEDIUM	30x
Qwen 3.6 Plus best	100%	RANKED	38x
Claude Opus 4.8	99%	RANKED	58x
Kimi K2.6	96%	MEDIUM	83x

Task detail →

Subreddit Quality Vetting

Decides whether a subreddit permits automated posting via the Reddit API for substantive analytical content. Fails closed only on explicit prohibitions; topic restrictions, flair requirements, and …

Model	Quality (% of best)	Confidence	Overpay
MiniMax M3 ★	90%	HIGH	best value
GPT-5.6 Luna best	100%	MEDIUM	2.5x
GPT-5.6 Terra	98%	MEDIUM	4.6x
Gemini 3.5 Flash	92%	MEDIUM	7.3x
Claude Sonnet 5	98%	HIGH	7.7x
GPT-5.6 Sol	98%	MEDIUM	9.8x

Task detail →

Social Post Relevance Scoring

Scores RetrievedContent against synthesis capability description (stage 40 relevance_analysis). Split from pooled relevance_scoring on 2026-05-17 to remove inter-family σ inflation. …

Model	Quality (% of best)	Confidence	Overpay
Gemini 3.5 Flash ★ best	100%	MEDIUM	best value
Grok 4.5	91%	HIGH	1.3x

Task detail →

Author Living-Person Safety Check

Postmortem-publicity-rights safety check for AI author personas. Determines whether the real figure behind a persona name has been deceased for ≥100 years (the threshold safely clears CA §3344.1, TN …

Model	Quality (% of best)	Confidence	Overpay
DeepSeek V4 Flash ★	96%	MEDIUM	best value
DeepSeek V4 Pro best	100%	RANKED	5.8x
Qwen 3.6 Plus	93%	MEDIUM	11x
GPT-5.6 Terra	95%	MEDIUM	12x
Gemini 3.1 Pro Preview	94%	HIGH	16x
Gemini 3.5 Flash	96%	RANKED	18x
Kimi K2.6	96%	MEDIUM	23x
GPT-5.6 Sol	97%	HIGH	23x
Meta Muse Spark 1.1	98%	HIGH	25x
Grok 4.5	93%	RANKED	43x
GPT-5.5	98%	MEDIUM	59x

Task detail →

Language Detection

Identifies the primary language of a text snippet. Returns only the two-letter ISO 639-1 code (e.g. 'en', 'es', 'zh'). Used upstream of the translation pipeline.

Model	Quality (% of best)	Confidence	Overpay
NVIDIA Nemotron-3 Nano 30B-A3B ★	95%	MEDIUM	best value
Gemini 3.1 Flash Lite	99%	RANKED	1.4x
DeepSeek V4 Flash	98%	RANKED	1.4x
GPT-5.4 Nano	99%	RANKED	1.5x
GPT-5.4 Mini	99%	RANKED	2.7x
NVIDIA Nemotron-3 Super 120B	98%	HIGH	3.1x
Tencent Hy3	98%	RANKED	3.8x
MiniMax M3	99%	RANKED	5.8x
DeepSeek V4 Pro	98%	RANKED	6.1x
GPT-5.6 Luna	99%	RANKED	7.2x
NVIDIA Nemotron-3 Ultra 550B	99%	RANKED	14x
Claude Haiku 4.5	99%	RANKED	16x
Qwen 3.5 Flash	99%	RANKED	17x
GPT-5.6 Terra	99%	RANKED	17x
Gemini 3.5 Flash	99%	RANKED	35x
Claude Sonnet 5 best	100%	RANKED	35x
GPT-5.5	99%	RANKED	37x
GPT-5.6 Sol	99%	RANKED	38x
Qwen 3.7 Plus	99%	RANKED	39x
Gemini 3.1 Pro Preview	99%	RANKED	48x
Qwen 3.6 Plus	99%	RANKED	50x
Claude Sonnet 4.6	99%	RANKED	52x
Qwen 3.6 Flash	99%	RANKED	66x
Meta Muse Spark 1.1	98%	HIGH	76x
Claude Opus 4.8	99%	RANKED	86x
Grok 4.5	99%	RANKED	89x
Kimi K2.6	98%	RANKED	143x

Task detail →

Topic Report Relevance Scoring

Scores TOPIC_REPORT PartialSyntheses against analysis template (stage 132) and report chapters (stage 134). Split from pooled relevance_scoring on 2026-05-17. …

Model	Quality (% of best)	Confidence	Overpay
Qwen 3.6 Flash ★	91%	MEDIUM	best value
Gemini 3.5 Flash best	100%	MEDIUM	1.3x
Qwen 3.7 Plus	97%	MEDIUM	1.9x
GPT-5.6 Terra	97%	MEDIUM	3.6x
GPT-5.5	91%	HIGH	4.3x
Grok 4.5	93%	RANKED	4.9x
Meta Muse Spark 1.1	96%	MEDIUM	5.1x
GPT-5.6 Sol	100%	MEDIUM	7.4x

Task detail →

Subreddit Selection for Research

Picks relevant, active subreddits for researching a subject. Balances large communities (more content) with niche ones (more focused). Filters for accessibility (public, not quarantined) and quality …

Model	Quality (% of best)	Confidence	Overpay
GPT-5.6 Terra ★	90%	MEDIUM	best value
GPT-5.6 Sol best	100%	MEDIUM	3.3x

Task detail →

Topic Grouping and Client Matching

Groups workflow topics (per-article) under broader client topics (persistent categories) — either existing or new. Multiple workflow topics can and should share one client topic when they cover …

Model	Quality (% of best)	Confidence	Overpay
DeepSeek V4 Flash ★	95%	RANKED	best value
DeepSeek V4 Pro	94%	RANKED	2.4x
GPT-5.6 Luna	93%	MEDIUM	2.7x
Qwen 3.7 Plus	95%	HIGH	4.3x
Qwen 3.6 Plus	91%	HIGH	4.6x
Gemini 3.1 Pro Preview	93%	RANKED	6.2x
Kimi K2.6	92%	HIGH	10x
GPT-5.6 Terra	98%	HIGH	11x
Gemini 3.5 Flash	99%	RANKED	12x
Grok 4.5	98%	RANKED	14x
Meta Muse Spark 1.1	96%	HIGH	14x
GPT-5.6 Sol best	100%	HIGH	16x
GPT-5.5	94%	MEDIUM	21x

Task detail →

Engagement Triage

Decide engage/ignore + risk + angle for one social post.

Model	Quality (% of best)	Confidence	Overpay
DeepSeek V4 Flash ★	92%	HIGH	best value
GPT-5.4 Nano	94%	RANKED	1.6x
Gemini 3.1 Flash Lite	94%	RANKED	1.6x
Tencent Hy3	94%	MEDIUM	1.8x
GPT-5.4 Mini	93%	HIGH	2.8x
NVIDIA Nemotron-3 Super 120B	93%	MEDIUM	3.8x
MiniMax M3	98%	RANKED	4.7x
GPT-5.6 Luna	97%	HIGH	8.1x
Qwen 3.5 Flash	94%	RANKED	9.1x
Claude Haiku 4.5	98%	RANKED	11x
GPT-5.6 Terra	98%	RANKED	15x
Qwen 3.7 Plus	98%	RANKED	17x
Gemini 3.5 Flash	96%	RANKED	23x
Gemini 3.1 Pro Preview	95%	RANKED	26x
Claude Sonnet 5	97%	RANKED	28x
NVIDIA Nemotron-3 Ultra 550B	96%	HIGH	34x
Claude Sonnet 4.6 best	100%	RANKED	34x
GPT-5.6 Sol	93%	MEDIUM	38x
Qwen 3.6 Plus	95%	HIGH	43x
Grok 4.5	98%	RANKED	46x
GPT-5.5	95%	RANKED	55x
Meta Muse Spark 1.1	99%	HIGH	57x
Claude Opus 4.8	98%	RANKED	64x
Kimi K2.6	97%	RANKED	77x

Task detail →

X Post Selection

Picks the best N X.com posts to publish within a daily budget. Ranks by engagement potential, topic diversity (avoid bunching), content quality, and timeliness; returns only the chosen post IDs.

Model	Quality (% of best)	Confidence	Overpay
DeepSeek V4 Flash ★	100%	RANKED	best value
Gemini 3.1 Flash Lite	97%	HIGH	1.6x
GPT-5.4 Mini	93%	MEDIUM	2.1x
Qwen 3.5 Flash	97%	HIGH	2.7x
MiniMax M3	96%	RANKED	4.7x
DeepSeek V4 Pro	96%	HIGH	4.9x
GPT-5.6 Luna	96%	HIGH	5.1x
Tencent Hy3	93%	HIGH	6x
Qwen 3.6 Plus	97%	RANKED	7.5x
Claude Haiku 4.5	92%	MEDIUM	7.6x
GPT-5.6 Terra	98%	RANKED	11x
Gemini 3.1 Pro Preview	97%	HIGH	12x
Kimi K2.6	99%	RANKED	17x
Claude Sonnet 5	95%	RANKED	20x
Claude Sonnet 4.6	100%	HIGH	23x
Qwen 3.7 Plus	95%	RANKED	24x
GPT-5.5 best	100%	RANKED	25x
GPT-5.6 Sol	97%	RANKED	27x
Qwen 3.6 Flash	98%	RANKED	33x
Gemini 3.5 Flash	97%	RANKED	37x
Grok 4.5	95%	RANKED	89x
Meta Muse Spark 1.1	96%	HIGH	97x

Task detail →

Author Matching

Matches content to fictional authors or creates new author personas

Model	Quality (% of best)	Confidence	Overpay
DeepSeek V4 Pro ★	93%	HIGH	best value
Qwen 3.6 Plus	90%	MEDIUM	1.4x
Gemini 3.1 Pro Preview	93%	HIGH	1.8x
Gemini 3.5 Flash	92%	MEDIUM	2.6x
Kimi K2.6	93%	HIGH	3.5x
Claude Sonnet 4.6	91%	MEDIUM	3.6x
Grok 4.5 best	100%	MEDIUM	5.2x
GPT-5.5	93%	HIGH	6.4x

Task detail →

Confidence — how sure we are about the quality score (more judgments + more agreement = higher confidence): RANKED many independent judges scored this model's outputs and their agreement is very high (most confident) — HIGH many judges have scored it and they mostly agree (well-pinned) — MEDIUM enough judges have weighed in to publish, but they disagree more than we'd like (treat with a small grain of salt). LOW-confidence cells are hidden everywhere on the site. See the methodology for the exact thresholds.

Best LLMs for Relevance, Classification & Matching

Task-by-task breakdown

Vetted News Site Selection

Content Domain Suggestion

X Post Relevance Scoring

Engagement Reply Review

Subreddit Quality Vetting

Social Post Relevance Scoring

Author Living-Person Safety Check

Language Detection

Topic Report Relevance Scoring

Subreddit Selection for Research

Topic Grouping and Client Matching

Engagement Triage

X Post Selection

Author Matching