Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2412.07769

about 1 month ago

Cataract-1K: Cataract Surgery Dataset for Scene Segmentation, Phase Recognition, and Irregularity Detection

Paper • 2312.06295 • Published Dec 11, 2023
A Quantitative Evaluation of Dense 3D Reconstruction of Sinus Anatomy from Monocular Endoscopic Video

Paper • 2310.14364 • Published Oct 22, 2023 • 1
SegVol: Universal and Interactive Volumetric Medical Image Segmentation

Paper • 2311.13385 • Published Nov 22, 2023
CADS: A Comprehensive Anatomical Dataset and Segmentation for Whole-Body Anatomy in Computed Tomography

Paper • 2507.22953 • Published Jul 29

BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities

Paper • 2412.07769 • Published Dec 10, 2024 • 30
Running

Featured

16k

DeepSite v3

🐳

16k

Generate any application by Vibe Coding

MIT-10M: A Large Scale Parallel Corpus of Multilingual Image Translation

Paper • 2412.07147 • Published Dec 10, 2024 • 5
Grounding Descriptions in Images informs Zero-Shot Visual Recognition

Paper • 2412.04429 • Published Dec 5, 2024
Exploring Multi-Grained Concept Annotations for Multimodal Large Language Models

Paper • 2412.05939 • Published Dec 8, 2024 • 16
Euclid: Supercharging Multimodal LLMs with Synthetic High-Fidelity Visual Descriptions

Paper • 2412.08737 • Published Dec 11, 2024 • 54

Multimodal Benchmarks

Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model

Paper • 2407.07053 • Published Jul 9, 2024 • 47
LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models

Paper • 2407.12772 • Published Jul 17, 2024 • 35
VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models

Paper • 2407.11691 • Published Jul 16, 2024 • 15
MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models

Paper • 2408.02718 • Published Aug 5, 2024 • 62

Domain-specific

On Domain-Specific Post-Training for Multimodal Large Language Models

Paper • 2411.19930 • Published Nov 29, 2024 • 29
BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities

Paper • 2412.07769 • Published Dec 10, 2024 • 30

AI models in Healthcare

A Survey of Medical Vision-and-Language Applications and Their Techniques

Paper • 2411.12195 • Published Nov 19, 2024
GMAI-VL & GMAI-VL-5.5M: A Large Vision-Language Model and A Comprehensive Multimodal Dataset Towards General Medical AI

Paper • 2411.14522 • Published Nov 21, 2024 • 39
BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities

Paper • 2412.07769 • Published Dec 10, 2024 • 30

BiMediX2 : Bio-Medical EXpert LMM for Diverse Medical Modalities

MBZUAI/BiMediX2-8B-hf

Image-Text-to-Text • 8B • Updated Jun 3 • 307 • 1
MBZUAI/BiMediX2-8B

Image-Text-to-Text • 8B • Updated Dec 15, 2024 • 21 • 6
MBZUAI/BiMediX2-8B-Bi

Image-Text-to-Text • 8B • Updated Dec 15, 2024 • 10
MBZUAI/BiMediX2-70B

Image-Text-to-Text • 71B • Updated Dec 15, 2024 • 9 • 2

DocLLM: A layout-aware generative language model for multimodal document understanding

Paper • 2401.00908 • Published Dec 31, 2023 • 189
COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training

Paper • 2401.00849 • Published Jan 1, 2024 • 17
LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents

Paper • 2311.05437 • Published Nov 9, 2023 • 51
LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing

Paper • 2311.00571 • Published Nov 1, 2023 • 43

about 1 month ago

Cataract-1K: Cataract Surgery Dataset for Scene Segmentation, Phase Recognition, and Irregularity Detection

Paper • 2312.06295 • Published Dec 11, 2023
A Quantitative Evaluation of Dense 3D Reconstruction of Sinus Anatomy from Monocular Endoscopic Video

Paper • 2310.14364 • Published Oct 22, 2023 • 1
SegVol: Universal and Interactive Volumetric Medical Image Segmentation

Paper • 2311.13385 • Published Nov 22, 2023
CADS: A Comprehensive Anatomical Dataset and Segmentation for Whole-Body Anatomy in Computed Tomography

Paper • 2507.22953 • Published Jul 29

Domain-specific

On Domain-Specific Post-Training for Multimodal Large Language Models

Paper • 2411.19930 • Published Nov 29, 2024 • 29
BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities

Paper • 2412.07769 • Published Dec 10, 2024 • 30

BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities

Paper • 2412.07769 • Published Dec 10, 2024 • 30
Running

Featured

16k

DeepSite v3

🐳

16k

Generate any application by Vibe Coding

AI models in Healthcare

A Survey of Medical Vision-and-Language Applications and Their Techniques

Paper • 2411.12195 • Published Nov 19, 2024
GMAI-VL & GMAI-VL-5.5M: A Large Vision-Language Model and A Comprehensive Multimodal Dataset Towards General Medical AI

Paper • 2411.14522 • Published Nov 21, 2024 • 39
BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities

Paper • 2412.07769 • Published Dec 10, 2024 • 30

MIT-10M: A Large Scale Parallel Corpus of Multilingual Image Translation

Paper • 2412.07147 • Published Dec 10, 2024 • 5
Grounding Descriptions in Images informs Zero-Shot Visual Recognition

Paper • 2412.04429 • Published Dec 5, 2024
Exploring Multi-Grained Concept Annotations for Multimodal Large Language Models

Paper • 2412.05939 • Published Dec 8, 2024 • 16
Euclid: Supercharging Multimodal LLMs with Synthetic High-Fidelity Visual Descriptions

Paper • 2412.08737 • Published Dec 11, 2024 • 54

BiMediX2 : Bio-Medical EXpert LMM for Diverse Medical Modalities

MBZUAI/BiMediX2-8B-hf

Image-Text-to-Text • 8B • Updated Jun 3 • 307 • 1
MBZUAI/BiMediX2-8B

Image-Text-to-Text • 8B • Updated Dec 15, 2024 • 21 • 6
MBZUAI/BiMediX2-8B-Bi

Image-Text-to-Text • 8B • Updated Dec 15, 2024 • 10
MBZUAI/BiMediX2-70B

Image-Text-to-Text • 71B • Updated Dec 15, 2024 • 9 • 2

Multimodal Benchmarks

Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model

Paper • 2407.07053 • Published Jul 9, 2024 • 47
LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models

Paper • 2407.12772 • Published Jul 17, 2024 • 35
VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models

Paper • 2407.11691 • Published Jul 16, 2024 • 15
MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models

Paper • 2408.02718 • Published Aug 5, 2024 • 62

DocLLM: A layout-aware generative language model for multimodal document understanding

Paper • 2401.00908 • Published Dec 31, 2023 • 189
COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training

Paper • 2401.00849 • Published Jan 1, 2024 • 17
LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents

Paper • 2311.05437 • Published Nov 9, 2023 • 51
LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing

Paper • 2311.00571 • Published Nov 1, 2023 • 43

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs