Публикация

NVIDIA LocateAnything-3B: сверхточная визуальная локализация с открытым** исходным кодом**

NVIDIA выпустила модель на 3 млрд параметров, которая решает главную проблему классической детекции — поиск объектов в «плотных» сценах, где всё стоит вплотную друг к другу.

Ключевые фишки: • Параллельное декодирование: В отличие от старых моделей, которые предсказывают координаты рамок по одной цифре, LocateAnything выдает готовую рамку сразу. Это делает детекцию в разы стабильнее и быстрее. • Работа в «толпе»: Модель идеально справляется с выделением отдельных объектов, даже если их десятки и они перекрывают друг друга (например, толпа миньонов). • Универсальность: Благодаря обучению на данных OCR и интерфейсов, она одинаково хорошо находит как реальные предметы, так и кнопки в приложении или текстовые блоки в документах.

Проект полностью открыт и отлично подходит для задач робототехники, анализа интерфейсов и автоматизации работы с документами.

Посмотреть проект

Комментарии