Namespace AiDotNet.Document.VisionLanguage

Classes

DocOwl<T>: DocOwl (mPLUG-DocOwl) for document understanding with multimodal large language model.

InfographicVQA<T>: InfographicVQA for visual question answering on infographics.

UDOP<T>: UDOP (Unifying Vision, Text, and Layout for Universal Document Processing) neural network.