nvidia/llama-nemoretriever-colembed-3b-v1

Primitive: /encode · Encode · llama_nemoretrievercolembed

The nvidia/llama-nemoretriever-colembed-3b-v1 is a late interaction embedding model fine-tuned for query-document retrieval. Users can input `queries`, which are text, or `documents` which are page images, to the model.

MultimodalMultilingualLong contextMulti-vector

View on Hugging Face →

Overview

Hardware: — drives latency, throughput & cost

Size	4.4B params
Tasks	/encode
License	other
Languages	multilingual
Latency	6.1 s
Throughput	0.7 img/s
Cost	— /1M tok

Cost is approximate — computed from list GPU prices; your actual price depends on the provider you deploy SIE with.

Embedding

Output types	Multi-Vec
Dimensions	multivector: 128
Max sequence length	8,192
Inputs	text · image

Benchmarks

Vidore3ComputerScienceRetrieval

technology retrieval en

Visual document retrieval on computer science papers and slides

Performance L4 b1 c4

Corpus 0.6 img/s

Corpus p50 6.0s

Query 381 tok/s

Query p50 182.9ms

Reference →

Vidore3FinanceEnRetrieval

finance retrieval en

Visual document retrieval on financial reports

Performance L4 b1 c4

Corpus 0.6 img/s

Corpus p50 6.1s

Query 502 tok/s

Query p50 152.7ms

Reference →

Vidore3HrRetrieval

general retrieval en

Visual document retrieval on HR-related documents

Quality

ndcg at 10 0.6513

map at 10 0.5053

mrr at 10 0.7844

Performance L4 b1 c16

Corpus 0.9 img/s

Corpus p50 17.9s

Query 689 tok/s

Query p50 740.7ms

Reference →

Vidore3PharmaceuticalsRetrieval

medical retrieval en

Visual document retrieval on pharmaceutical documents

Performance L4 b1 c4

Corpus 0.7 img/s

Corpus p50 6.0s

Query 420 tok/s

Query p50 185.5ms

Reference →

nvidia/llama-nemoretriever-colembed-3b-v1

Overview

Embedding

Benchmarks

Vidore3ComputerScienceRetrieval

Vidore3FinanceEnRetrieval

Vidore3HrRetrieval

Vidore3PharmaceuticalsRetrieval

Open source inference for agents