nomic-ai/modernbert-embed-base

Primitive: /encode · Encode · ModernBERT

ModernBERT Embed is an embedding model trained from ModernBERT-base, bringing the new advances of ModernBERT to embeddings!

Long contextDense

View on Hugging Face → Fine-tuned from answerdotai/ModernBERT-base

Overview

Hardware: — drives latency, throughput & cost

Size	149M params
Tasks	/encode
License	apache-2.0
Languages	en
Latency	—
Throughput	—
Cost	— /1M tok

Cost is approximate — computed from list GPU prices; your actual price depends on the provider you deploy SIE with.

Embedding

Output types	Dense
Dimensions	dense: 768
Max sequence length	8,192
Inputs	text

Benchmarks

CQADupstackPhysicsRetrieval

scientific retrieval en

Duplicate question retrieval from StackExchange Physics

Corpus: 38,314 Queries: 1,039

Quality

ndcg at 10 0.4479

map at 10 0.3889

mrr at 10 0.4444

Reference →

FiQA2018

finance retrieval en

Financial opinion mining and question answering

Corpus: 57,599 Queries: 648

Quality

ndcg at 10 0.4073

map at 10 0.3289

mrr at 10 0.4936

Reference →

NFCorpus

medical retrieval en

Biomedical literature search from NutritionFacts.org

Corpus: 3,593 Queries: 323

Quality

ndcg at 10 0.3337

map at 10 0.1219

mrr at 10 0.5311

Reference →

SCIDOCS

scientific retrieval en

Citation prediction, document classification, and recommendation for scientific papers

Corpus: 25,656 Queries: 1,000

Quality

ndcg at 10 0.1855

map at 10 0.1100

mrr at 10 0.3229

Reference →

SciFact

scientific retrieval en

Scientific claim verification using research literature

Corpus: 5,183 Queries: 300

Quality

ndcg at 10 0.6968

map at 10 0.6479

mrr at 10 0.6625

Reference →

nomic-ai/modernbert-embed-base

Overview

Embedding

Benchmarks

CQADupstackPhysicsRetrieval

FiQA2018

NFCorpus

SCIDOCS

SciFact

Open source inference for agents