EVMbench: AI-тест для безопасности смарт-контрактов и ещё 11 новости

EVMbench: AI-тест для безопасности смарт-контрактов

Разработчики из OpenAI и Paradigm представили EVMbench – инструмент для оценки возможностей искусственного интеллекта в области обнаружения, исправления и использования уязвимостей в смарт-контрактах. Тест позволяет проверить, насколько эффективно AI-агенты справляются с поиском и нейтрализацией серьёзных проблем в коде.

EVMbench создан для проверки способности AI к решению сложных задач, связанных с безопасностью блокчейна Ethereum. Он включает в себя сценарии, имитирующие реальные уязвимости, и оценивает, как быстро и точно агенты могут их выявить и устранить. Разработчики надеются, что новый бенчмарк поможет улучшить инструменты и методы обеспечения безопасности смарт-контрактов.

Информация об открытом доступе или лицензии на данный момент отсутствует.

TruLens и OpenAI: Инструментирование LLM-приложений

TruLens — это инструмент для отслеживания и оценки LLM-приложений, позволяющий регистрировать этапы работы, вычислять показатели и сравнивать различные версии. Вместо рассмотрения LLM как "черного ящика", TruLens позволяет анализировать входные данные, промежуточные шаги и результаты.

В основе работы лежат функции обратной связи, которые количественно оценивают поведение модели по параметрам, таким как релевантность, обоснованность и соответствие контексту. Это позволяет проводить эксперименты, обеспечивать воспроизводимость и улучшать LLM-системы на основе данных.

В примере показано создание pipeline для оценки с использованием TruLens и моделей OpenAI, включая установку необходимых библиотек, настройку базы данных и определение функций обратной связи для анализа качества ответов.

Результаты экспериментов представлены в виде лидера и интерактивной панели управления для анализа производительности различных версий системы.

Taalas: Специализированные чипы для ИИ вместо GPU

Компания Taalas из Торонто делает ставку на аппаратную оптимизацию, а не на гибкость GPU, чтобы сделать ИИ более доступным. Разработчики считают, что для широкого распространения ИИ необходимо не "симулировать" интеллект на универсальных компьютерах, а напрямую "отливать" его в кремнии.

Основная проблема современных систем — "узкое место памяти". Традиционные процессоры (GPU) разделяют вычисления и память, тратя значительную часть энергии на перемещение данных. Решение Taalas заключается в устранении этого цикла передачи данных путём прямого преобразования вычислительного графа модели в физическую структуру чипа.

В их чипе HC1 веса и архитектура модели буквально встроены в кремний. Это позволило достичь скорости обработки в 17 000 токенов в секунду при работе с моделью Llama-3.1 8B — значительно выше, чем у NVIDIA H100. Также заявлено 1000-кратное повышение эффективности по сравнению с традиционными чипами.

Автоматизация процесса проектирования позволяет Taalas создавать новые чипы всего за два месяца, что позволяет быстро адаптироваться к новым моделям.

Интеллектуальное формирование луча для справедливой беспроводной связи

Ученые предложили новый подход к организации беспроводной связи, который позволяет повысить эффективность использования канала и одновременно обеспечивать более справедливое распределение ресурсов между пользователями. Ключевая проблема – баланс между общей пропускной способностью сети и равными возможностями для всех подключенных устройств.

В основе разработки лежит архитектура WiT (Wireless Transformer) – нейронная сеть, которая обучается на данных о состоянии радиоканала. Она использует алгоритм двойного подъема для автоматической настройки параметров, контролирующих соотношение между пропускной способностью и "справедливостью". Это позволяет находить оптимальный компромисс, соответствующий заданным требованиям.

Предложенный метод позволяет гибко настраивать приоритеты, добиваясь максимальной пропускной способности при сохранении приемлемого уровня справедливости для всех пользователей сети. Результаты исследования показали, что разработанный подход эффективен в сложных сценариях.

OpenAI и Jony Ive создают "умную" колонку с AI

OpenAI и бывший дизайнер Apple Jony Ive работают над созданием аппаратного обеспечения с использованием искусственного интеллекта. Их первым устройством, как сообщается, станет "умная" колонка с камерой, способной распознавать лица и совершать покупки. Разработка идёт полным ходом, а выпуск запланирован на 2027 год.

Команда состоит из более чем 200 человек, куда вошли ветераны Apple, отвечающие за разработку, дизайн и поставки. Колонка сможет "подталкивать" пользователей к действиям, а камера будет использоваться для идентификации пользователей при совершении покупок. Помимо колонки, в планах разработка "умных" очков и ламп, но они появятся позже.

Этот продукт станет прямым конкурентом Amazon Alexa, Apple Siri и Google Assistant. Учитывая планы Apple по разработке собственных AI-устройств, OpenAI нужно успеть занять свою нишу на рынке.

ИИ несправедлив к уязвимым слоям населения - исследование MIT

Новое исследование Массачусетского технологического института (MIT) показало, что популярные AI-чатботы могут предоставлять менее точную или полезную информацию пользователям, находящимся в уязвимом положении. К ним относятся люди, для которых английский язык не является родным, и те, кто имеет более низкий уровень образования.

В ходе тестирования выяснилось, что ответы чатботов ухудшаются, если вопросы задаются с грамматическими ошибками или на упрощенном языке. Это создает проблему равенства доступа к информации.

Проблема предвзятости в ИИ уже известна, однако исследование MIT позволило ее количественно оценить. Некачественная работа чатботов особенно опасна, поскольку они все чаще становятся основным источником информации в сферах, таких как здравоохранение, образование и юриспруденция.

Исследователи призывают к более тщательному тестированию, использованию более разнообразных данных и большей ответственности разработчиков при создании ИИ. Важно, чтобы эти инструменты работали одинаково хорошо для всех пользователей, независимо от их языковых навыков или образования.

5 шаблонов проектирования для надёжных AI-агентов

Разработка надёжных AI-агентов, способных к сложным задачам, требует не только продвинутых алгоритмов, но и грамотного проектирования. Предлагаются пять основных шаблонов, которые помогут перейти от прототипов к стабильным и масштабируемым решениям.

Эти шаблоны охватывают важные аспекты, такие как организация циклов "Реакция-Рассуждение" (ReAct), координация работы нескольких агентов и эффективное управление состоянием. Применение этих подходов позволяет создавать системы, способные надёжно функционировать в реальных условиях.

Особое внимание уделяется управлению сложностью и обеспечению предсказуемости поведения агентов. Это критически важно для развёртывания AI-систем в производственной среде. Шаблоны помогают структурировать код и упростить отладку, делая систему более понятной и ремонтопригодной.

В конечном итоге, использование этих шаблонов позволяет создавать AI-агенты, которые не просто решают поставленные задачи, но и делают это стабильно и предсказуемо.

OpenAI запускает программу для корпоративных клиентов

OpenAI представила программу Frontier Alliance Partners, предназначенную для помощи компаниям в переходе от тестирования искусственного интеллекта к его полноценному внедрению в производственные процессы.

Программа нацелена на обеспечение безопасного и масштабируемого развертывания AI-агентов – программных решений, способных автономно выполнять задачи. Участники получат поддержку в интеграции технологий OpenAI в свои системы и оптимизации рабочих процессов.

Frontier Alliance Partners позволит предприятиям уверенно внедрять ИИ, учитывая вопросы безопасности и масштабируемости, что является ключевым фактором для успешного перехода к новым технологиям. Подробности о программе и условиях участия можно узнать на сайте OpenAI.

MCP: Стандартизация и безопасность ИИ для предприятий

Разговор с исследователем ИИ Себастьяном Валькётером проливает свет на вопросы стандартизации и проблем безопасности, возникающих при внедрении искусственного интеллекта в предприятиях. Основная задача – найти практические и надежные способы использования ИИ.

MCP (Model Contract Protocol) – это попытка создать стандартизированный подход к работе с моделями машинного обучения. Он призван решить проблемы, связанные с воспроизводимостью, безопасностью и управляемостью ИИ-систем. Валькётер подчеркивает необходимость чёткого определения "контракта" между разработчиками моделей и теми, кто их использует.

Ключевые аспекты MCP включают контроль версий, управление зависимостями и механизмы мониторинга производительности. Это позволяет предприятиям более уверенно внедрять ИИ, снижая риски и обеспечивая соответствие нормативным требованиям.

По мнению исследователя, предприятиям необходимо сосредоточиться на конкретных, измеримых сценариях применения ИИ, чтобы избежать неоправданных ожиданий и разочарований. Успех внедрения ИИ зависит от четкого понимания задач, которые он должен решать, и от наличия необходимых данных.

SWE-bench Verified: Ненадежные данные при оценке моделей кодирования

SWE-bench Verified больше не оценивается: проблема в недостоверности данных

Разработчики прекращают использовать SWE-bench Verified для оценки прогресса в области кодирования. Анализ показал, что тесты оказались некорректными, а результаты обучения демонстрируют утечку данных. Это приводит к завышенным оценкам и искажает реальную картину прогресса.

SWE-bench – это набор тестов, предназначенный для измерения эффективности моделей кодирования. Версия "Verified" оказалась скомпрометированной из-за ошибок в самих тестах и возможности "подглядывания" в данные во время обучения моделей.

Вместо SWE-bench Verified предлагается использовать более надежную версию – SWE-bench Pro, которая должна обеспечивать более точные и объективные результаты.

3LM: Новый тест для оценки LLM на арабском языке

Разработан новый комплексный тест под названием 3LM, предназначенный для оценки возможностей больших языковых моделей (LLM) в области STEM (наука, технология, инженерия и математика) и программирования на арабском языке. До этого момента большинство тестов LLM создавались и оптимизировались для английского языка, что создавало трудности при оценке моделей, работающих с другими языками.

3LM включает в себя задачи, охватывающие математические рассуждения, научные вопросы и написание кода. Тест использует набор данных, включающий более 16 тысяч вопросов, разделенных на эти три категории. Исследователи отмечают, что 3LM позволит получить более точную картину способностей арабских LLM и поможет в их дальнейшем развитии.

Набор данных 3LM находится в открытом доступе и доступен для использования исследователям и разработчикам. Это позволит создавать и совершенствовать модели, способные эффективно работать с арабским языком в научных и технических областях.

Griptape: Автоматизация поддержки клиентов с помощью AI

Разработана система автоматизации клиентской поддержки на базе Griptape, сочетающая строгие правила и возможности агентов для обработки запросов. Система включает инструменты для удаления конфиденциальной информации, категоризации обращений, определения приоритетов с указанием сроков выполнения и создания структурированных запросов на эскалацию.

Затем Griptape Agent использует эти данные для создания профессиональных ответов клиентам и внутренних заметок. Такой подход обеспечивает контролируемые, проверяемые и готовые к производству AI-рабочие процессы, без необходимости использования внешних баз знаний.

В основе системы лежат детерминированные правила для обработки данных, классификации и эскалации, а агент используется только там, где требуется оценка на основе естественного языка. Это обеспечивает надежность и предсказуемость работы.