scaling in, not up? testing thick citation context analysis with gpt-5

Scaling In, Not Up? Testing Thick Citation Context Analysis with GPT-5 and Fragile Prompts

25 февраля 2026 года была опубликована работа, которая тестирует, могут ли большие языковые модели (LLM) поддерживать интерпретативный анализ контекста цитирования (CCA), масштабируясь при помощи глубокого, основанного на тексте прочтения одного сложного случая, а не масштабируясь с помощью типологических меток. В исследовании акцентируется анализ чувствительности к запросам как методологическая проблема, путем изменения структуры и формулировки запроса в сбалансированной схеме 2x3.

Используя сноску 6 в работе Чубина и Мойтры (1975) и реконструкцию Гилберта (1977) в качестве пробника, авторы реализовали двухэтапный конвейер GPT-5: классификацию и ожидания, основанные только на тексте цитирования, за которой следует кросс-документальная интерпретативная реконструкция с использованием полного текста цитируемых и цитирующих текстов. В 90 реконструкциях модель генерирует 450 различных гипотез.

Тщательное чтение и индуктивное кодирование выявляют 21 повторяющуюся интерпретативную операцию, а линейные вероятностные модели оценивают, как выбор запроса меняет их частоту и лексический репертуар. Поверхностный проход GPT-5 является весьма стабильным, последовательно классифицируя цитирование как "дополнительное". В реконструкции модель генерирует структурированное пространство правдоподобных альтернатив, но структура и примеры перераспределяют внимание и словарный запас, иногда приводя к натянутым интерпретациям. По сравнению с Гилбертом, GPT-5 обнаруживает одни и те же текстовые точки соприкосновения, но чаще интерпретирует их как родословную и позиционирование, чем как порицание.

Исследование описывает возможности и риски использования LLM в качестве управляемых соавторов для проверяемого и оспариваемого интерпретативного CCA и показывает, что структура и формулировка запроса систематически изменяют, какие правдоподобные интерпретации и словарный запас модель выводит на первый план. View on Hugging Face Read PDF

Enabling clinical use of foundation models in histopathology

Опубликована работа, показывающая, что введение новых регуляризационных потерь во время обучения моделей, специфичных для задач, снижает чувствительность к техническим вариациям. Для обучения тысяч моделей на основе признаков восьми популярных базовых моделей для вычислительной патологии использовался специально разработанный комплексный экспериментальный набор с 27 042 WSI от 6155 пациентов.

В дополнение к значительному улучшению устойчивости, авторы наблюдали улучшение точности прогнозирования за счет концентрации внимания на биологически релевантных признаках. Подход успешно смягчает проблемы устойчивости базовых моделей для вычислительной патологии, не переобучая сами базовые модели, что обеспечивает разработку надежных моделей вычислительной патологии, применимых к реальным данным в обычной клинической практике. View on Hugging Face Read PDF

Probing the Geometry of Diffusion Models with the String Method

Представлен фреймворк, основанный на методе "нитки", который вычисляет непрерывные пути между образцами, развивая кривые под обученной функцией оценки. Подход работает на предварительно обученных моделях без повторного обучения и выполняет интерполяцию между тремя режимами: чистый генеративный транспорт, динамика, доминируемая градиентом, и динамика нити при конечной температуре, которые вычисляют главные кривые — самосогласованные пути, которые балансируют энергию и энтропию.

Для диффузионных моделей изображений MEP содержат высоковероятные, но нереалистичные "мультяшные" изображения, подтверждая предыдущие наблюдения о том, что максимумы правдоподобия кажутся нереалистичными, а главные кривые вместо этого дают реалистичные последовательности морфинга, несмотря на более низкое правдоподобие. Для прогнозирования структуры белка метод вычисляет пути перехода между метастабильными конформерами непосредственно из моделей, обученных на статических структурах, обеспечивая пути с физически правдоподобными промежуточными состояниями. View on Hugging Face Read PDF

Don't stop me now: Rethinking Validation Criteria for Model Parameter Selection

Проведено систематическое эмпирическое и статистическое исследование того, как критерий валидации, используемый для выбора модели, влияет на производительность теста в нейронных классификаторах с учетом ранней остановки. Использовались полностью связанные сети на стандартных эталонах при оценке k-fold. Сравнивались: (i) ранняя остановка с терпением и (ii) постобработка по всем эпохам (т.е. без ранней остановки).

Модели обучались с использованием перекрестной энтропии, C-Loss или PolyLoss, а выбор параметра модели на наборе валидации осуществлялся с использованием точности или одной из трех функций потерь, каждая из которых рассматривалась отдельно. Выявлены три основных вывода: (1) ранняя остановка на основе точности валидации работает хуже всего, последовательно выбирая контрольные точки с более низкой точностью теста, чем обе ранние остановки на основе потерь и постобработка. (2) Критерии валидации на основе потерь дают сопоставимую и более стабильную точность теста. (3) На всех наборах данных и фолдах любое единое правило валидации часто уступает контрольной точке, оптимальной для теста. В целом, выбранная модель обычно достигает производительности тестового набора, статистически более низкой, чем лучшая производительность по всем эпохам, независимо от критерия валидации.

Результаты показывают, что следует избегать точности валидации (особенно с ранней остановкой) для выбора параметров, предпочитая критерии валидации на основе потерь. View on Hugging Face Read PDF

scaling in, not up? testing thick citation context analysis with gpt-5