Сжатие нейронных сетей для классификации гиперспектральных изображений

Исследование методов сжатия нейронных сетей для классификации гиперспектральных изображений было проведено 5 марта 2026 года. Авторы исследования - Сай Ши. В работе рассматривается возможность уменьшения размера модели и вычислительных затрат при сохранении предсказательной способности, что важно для использования на платформах с ограниченными ресурсами, таких как устройства дистанционного зондирования и периферийные системы. В исследовании систематически оценивались методы сжатия нейронных сетей для задачи дистанционного зондирования, а именно классификации наземного покрова по гиперспектральным данным.

Рассмотрены три широко используемые стратегии сжатия для сверточных нейронных сетей: обрезка, квантование и дистилляция знаний. Эксперименты проводились на двух эталонных наборах гиперспектральных данных, учитывались точность классификации, потребление памяти и эффективность вывода. Результаты показали, что сжатые модели могут значительно уменьшить размер модели и вычислительные затраты, сохраняя при этом конкурентоспособную точность классификации. Полученные данные дают представление об компромиссах между коэффициентом сжатия, эффективностью и точностью, и подчеркивают потенциал методов сжатия для эффективного развертывания глубокого обучения в приложениях дистанционного зондирования. View on Hugging Face Read PDF

5 марта 2026 года было предложено гибридное решение для распределения вычислительных ресурсов с учетом целей уровня обслуживания (SLO) для вывода больших языковых моделей (LLM) с использованием стратегии Prefill-Decode (P/D). Авторы исследования - Лучанг Ли, Дунфан Ли, Бочжао Гун и Ю Чжан. В настоящее время отсутствует общепринятая методология для определения оптимального количества аппаратных ресурсов P/D, с учетом ограничений на общую пропускную способность, SLO и характеристики запросов, а именно длины входных и выходных данных.

Предложенный подход сочетает теоретическое моделирование с эмпирическими измерениями. Авторы представили теоретическую модель для расчета количества ресурсов P/D, основанную на требованиях к общей пропускной способности, длине входных и выходных данных запроса, а также пропускной способности предварительной загрузки и декодирования. Для получения фактической пропускной способности предварительной загрузки и декодирования в условиях SLO, процесс предварительной загрузки был смоделирован с использованием теории массового обслуживания M/M/1, извлекая достигнутую пропускную способность предварительной загрузки из измеренной максимальной пропускной способности предварительной загрузки и времени до первого токена (TTFT). Для фазы декодирования были определены размеры пакетов декодирования, удовлетворяющие требованиям времени на выходной токен (TPOT), и получена соответствующая пропускная способность декодирования посредством эмпирических измерений. Экспериментальные результаты показали, что предложенный метод может точно прогнозировать оптимальное распределение ресурсов P/D в реальных сценариях вывода LLM. View on Hugging Face Read PDF

Похожие новости

Новые исследования в области обработки естественного языка (nlp) в 2026 году

ai research updates: march 5, 2026

Исследования в нейросетях: безопасное «забывание», роботы с предсказанием и у

Axios и ИИ в журналистике: оптимизация новостного процесса

dict внедряет "digital bayanihan" для обучения ИИ и цифровизации

utonia: к единому энкодеру для всех облаков точек