Class MultimodalIndexer

Indexes non-text content (images, audio) into the vector store by generating text descriptions and embeddings.

Image indexing flow

If the image is a Buffer, convert to base64 data URL.
Send to the vision LLM to generate a text description.
Embed the description via the embedding manager.
Store in the vector store with modality: 'image' metadata.

Audio indexing flow

Send the audio buffer to the STT provider for transcription.
Embed the transcript via the embedding manager.
Store in the vector store with modality: 'audio' metadata.

Cross-modal search

Embed the text query via the embedding manager.
Query the vector store with optional modality filters.
Return results annotated with their source modality.

Example

import { MultimodalIndexer } from '@framers/agentos/rag/multimodal';

const indexer = new MultimodalIndexer({
  embeddingManager,
  vectorStore,
  visionProvider,
  sttProvider,
});

// Index an image
const imgResult = await indexer.indexImage({
  image: fs.readFileSync('./photo.jpg'),
  metadata: { source: 'upload' },
});

// Index audio
const audioResult = await indexer.indexAudio({
  audio: fs.readFileSync('./meeting.wav'),
  language: 'en',
});

// Search across all modalities
const results = await indexer.search('cats on a beach');

Index

Constructors

constructor

Methods

setHydeRetriever indexImage indexAudio search createMemoryBridge

Constructors

constructor

new MultimodalIndexer(deps): MultimodalIndexer
Create a new multimodal indexer.
Parameters
- deps: {
      embeddingManager: IEmbeddingManager;
      vectorStore: IVectorStore;
      visionProvider?: IVisionProvider;
      visionPipeline?: VisionPipeline;
      sttProvider?: ISpeechToTextProvider;
      config?: MultimodalIndexerConfig;
  }
  Dependency injection container.
  - embeddingManager: IEmbeddingManager
    Manager for generating text embeddings.
  - vectorStore: IVectorStore
    Vector store for document storage and search.
  - Optional visionProvider?: IVisionProvider
    Optional vision LLM for image description.
  - Optional visionPipeline?: VisionPipeline
    Optional full vision pipeline with OCR, handwriting, document understanding, CLIP embeddings, and cloud fallback. When provided, it is wrapped as an IVisionProvider via PipelineVisionProvider, overriding any visionProvider passed alongside it.
  - Optional sttProvider?: ISpeechToTextProvider
    Optional STT provider for audio transcription.
  - Optional config?: MultimodalIndexerConfig
    Optional configuration overrides.
Returns MultimodalIndexer
Throws
If embeddingManager or vectorStore is missing.

Example
```
// With a simple vision LLM provider
const indexer = new MultimodalIndexer({
  embeddingManager,
  vectorStore,
  visionProvider: myVisionLLM,
  sttProvider: myWhisperService,
  config: { defaultCollection: 'knowledge' },
});

// With the full vision pipeline (recommended)
const indexer = new MultimodalIndexer({
  embeddingManager,
  vectorStore,
  visionPipeline: myVisionPipeline,
});
```
- Defined in src/rag/multimodal/MultimodalIndexer.ts:204

Methods

setHydeRetriever

setHydeRetriever(retriever): void
Attach a HyDE retriever to enable hypothesis-driven multimodal search.

Once set, pass hyde: { enabled: true } in the search() options to activate HyDE for that query. The retriever generates a hypothetical answer using an LLM, then embeds that answer instead of the raw query text, which typically yields better recall for exploratory queries.
Parameters
- retriever: HydeRetriever
  A pre-configured HydeRetriever instance.
Returns void
Example
```
indexer.setHydeRetriever(new HydeRetriever({
  llmCaller: myLlmCaller,
  embeddingManager: myEmbeddingManager,
  config: { enabled: true },
}));

const results = await indexer.search('cats on a beach', {
  hyde: { enabled: true },
});
```
- Defined in src/rag/multimodal/MultimodalIndexer.ts:273

indexImage

indexImage(opts): Promise<ImageIndexResult>
Index an image by generating a text description via vision LLM, then embedding and storing the description.
Parameters
- opts: ImageIndexOptions
  Image data, metadata, and collection options.
Returns Promise<ImageIndexResult>
The document ID and generated description.
Throws
If no vision provider is configured.

Throws
If the vision LLM fails to describe the image.

Throws
If embedding generation or vector store upsert fails.

Example
```
const result = await indexer.indexImage({
  image: 'https://example.com/photo.jpg',
  metadata: { source: 'web-scrape', url: 'https://example.com' },
});
console.log(result.description); // "A golden retriever playing fetch..."
```
- Defined in src/rag/multimodal/MultimodalIndexer.ts:301

indexAudio

indexAudio(opts): Promise<AudioIndexResult>
Index an audio file by transcribing via STT, then embedding and storing the transcript.
Parameters
- opts: AudioIndexOptions
  Audio data, metadata, collection, and language options.
Returns Promise<AudioIndexResult>
The document ID and generated transcript.
Throws
If no STT provider is configured.

Throws
If the STT provider fails to transcribe.

Throws
If embedding generation or vector store upsert fails.

Example
```
const result = await indexer.indexAudio({
  audio: fs.readFileSync('./podcast.mp3'),
  metadata: { source: 'podcast', episode: 42 },
  language: 'en',
});
console.log(result.transcript); // "Welcome to episode 42..."
```
- Defined in src/rag/multimodal/MultimodalIndexer.ts:394

search

search(query, opts?): Promise<MultimodalSearchResult[]>
Search across all modalities (text + image descriptions + audio transcripts).

The query text is embedded, then the vector store is searched with optional modality filtering. Results are returned with their source modality indicated.
Parameters
- query: string
  Natural language search query.
- Optional opts: MultimodalSearchOptions
  Optional search parameters (topK, modalities, collection).
Returns Promise<MultimodalSearchResult[]>
Array of search results sorted by relevance score (descending).
Throws
If embedding generation fails.

Example
```
// Search only image descriptions
const imageResults = await indexer.search('cats playing', {
  modalities: ['image'],
  topK: 10,
});

// Search across all modalities
const allResults = await indexer.search('machine learning tutorial');
```
- Defined in src/rag/multimodal/MultimodalIndexer.ts:482

createMemoryBridge

createMemoryBridge(memoryManager?, options?): MultimodalMemoryBridge
Create a MultimodalMemoryBridge using this indexer's providers.

The bridge extends this indexer's RAG capabilities with cognitive memory integration, enabling multimodal content to be stored in both the vector store (for search) and long-term memory (for recall during conversation).
Parameters
- Optional memoryManager: ICognitiveMemoryManager
  Optional cognitive memory manager for memory trace creation. When omitted, the bridge still indexes into RAG but creates no memory traces.
- Optional options: MultimodalBridgeOptions
  Bridge configuration overrides (mood, chunk sizes, etc.)
Returns MultimodalMemoryBridge
A configured multimodal memory bridge instance.
Example
```
const bridge = indexer.createMemoryBridge(memoryManager, {
  enableMemory: true,
  defaultChunkSize: 800,
});

await bridge.ingestImage(imageBuffer, { source: 'user-upload' });
```
See MultimodalMemoryBridge for full documentation.
- Defined in src/rag/multimodal/MultimodalIndexer.ts:598

Class MultimodalIndexer

Image indexing flow

Audio indexing flow

Cross-modal search

Example

Index

Constructors

Methods

Constructors

constructor

Parameters

embeddingManager: IEmbeddingManager

vectorStore: IVectorStore

Optional visionProvider?: IVisionProvider

Optional visionPipeline?: VisionPipeline

Optional sttProvider?: ISpeechToTextProvider

Optional config?: MultimodalIndexerConfig

Returns MultimodalIndexer

Throws

Example

Methods

setHydeRetriever

Parameters

Returns void

Example

indexImage

Parameters

Returns Promise<ImageIndexResult>

Throws

Throws

Throws

Example

indexAudio

Parameters

Returns Promise<AudioIndexResult>

Throws

Throws

Throws

Example

search

Parameters

Returns Promise<MultimodalSearchResult[]>

Throws

Example

createMemoryBridge

Parameters

Returns MultimodalMemoryBridge

Example

Settings

Member Visibility

Theme

On This Page

`Optional` visionProvider?: IVisionProvider

`Optional` visionPipeline?: VisionPipeline

`Optional` sttProvider?: ISpeechToTextProvider

`Optional` config?: MultimodalIndexerConfig