genesis ai vivian sun to advance commercialization

Beyond the Illusion of Consensus: From Surface Heuristics to Knowledge-Grounded Evaluation in LLM-as-a-Judge

Исследование "Beyond the Illusion of Consensus: From Surface Heuristics to Knowledge-Grounded Evaluation in LLM-as-a-Judge", представленное 11 марта 2026 года, авторами Mao Zheng и Chenning Xu, и Mingyang Song, ставит под сомнение надежность оценки на основе согласия между моделями LLM. Авторы обнаружили, что высокий уровень согласия между LLM не всегда указывает на объективную и надежную оценку. Исследование выявило феномен "Иллюзии консенсуса", когда LLM генерируют развернутую критику, но при этом опираются на общие поверхностные эвристики, а не на реальное качество. В исследовании, охватывающем 105 600 оценок (32 LLM, 3 ведущих судьи, 100 задач, 11 температур), было показано, что высокий уровень согласия между моделями может маскировать низкий уровень согласия при рассмотрении отдельных примеров. Добавление структуры рубрики восстанавливает 62% общего согласия. Высококачественные результаты парадоксальным образом получают наименее последовательные оценки. Динамическое генерирование оценочных рубрик, основанных на предметных знаниях, приводит к более значимой оценке. Использование MERG (Metacognitive Enhanced Rubric Generation), фреймворка для генерации рубрик на основе знаний, подтверждает этот эффект. Согласие увеличивается в кодифицированных областях, таких как образование (+22%) и академическая сфера (+27%), где знания помогают оценщикам придерживаться общих стандартов, и уменьшается в субъективных областях, где возникает подлинный плюрализм оценок. Эти результаты показывают, что оценочные рубрики следует динамически дополнять экспертными знаниями, а не полагаться на универсальные критерии. View on Hugging Face Read PDF

A Systematic Study of Pseudo-Relevance Feedback with LLMs

Систематическое исследование псевдо-релевантной обратной связи с использованием LLM, представленное 11 марта 2026 года авторами Nour Jedidi и Jimmy Lin, изучает влияние различных параметров на эффективность псевдо-релевантной обратной связи (PRF). Исследование показало, что выбор модели обратной связи может играть решающую роль в эффективности PRF. Обратная связь, полученная исключительно из текста, сгенерированного LLM, является наиболее экономически эффективным решением. Обратная связь, полученная из корпуса, наиболее полезна при использовании кандидатов документов от сильного поискового движка первого этапа. Исследование было проведено на 13 малоресурсных задачах BEIR с использованием пяти методов PRF на основе LLM. View on Hugging Face Read PDF

RCTs & Human Uplift Studies: Methodological Challenges and Practical Solutions for Frontier AI Evaluation

Исследование "RCTs & Human Uplift Studies: Methodological Challenges and Practical Solutions for Frontier AI Evaluation", представленное 11 марта 2026 года авторами Valerie Chen, Umang Bhatt, Dan Bateyko, Gailius Praninskas, Ella Guest и еще пятью экспертами, рассматривает методологические проблемы, связанные с изучением влияния передовых систем ИИ на производительность человека. Исследование, основанное на интервью с 16 экспертами, выявило напряженность между стандартными предположениями каузальной инференции и особенностями передовых систем ИИ. Быстрое развитие ИИ-систем, меняющиеся базовые показатели, гетерогенность и изменяющаяся квалификация пользователей, и "пористая" реальная среда ставят под сомнение внутреннюю, внешнюю и конструктивную валидность, что затрудняет интерпретацию и использование данных. Авторы синтезировали эти проблемы и представили практические решения, определяя пределы и соответствующее использование доказательств из исследований, посвященных повышению эффективности человека при принятии важных решений. View on Hugging Face Read PDF

genesis ai vivian sun to advance commercialization