ChatGPT v4 сдает экзамены, SAT и может выявлять эксплойты в контрактах ETH

GPT-4, последняя версия чат-бота с искусственным интеллектом ChatGPT, может сдавать тесты для средней школы и экзамены на юридические факультеты с оценками в 90-м процентиле и обладает новыми возможностями обработки данных, которые были недоступны для предыдущей версии.

Данными о результатах тестирования GPT-4 поделился 14 марта создатель OpenAI, сообщив, что он также может преобразовывать изображения, аудио и видео в текст, а также более творчески и надежно обрабатывать «гораздо более тонкие инструкции».

«Он сдает симулированный экзамен на адвоката с результатом около 10% лучших участников теста», — добавили в OpenAI. «В отличие от этого, результат GPT-3.5 был примерно в нижних 10%».

По данным, GPT-4 набрал 163 балла в 88-м процентиле на экзамене LSAT — тесте, который студенты колледжей должны сдать в США, чтобы поступить в юридический колледж.

Результаты экзаменов GPT-4 и GPT-3.5 на ряде последних экзаменов в США. Источник: OpenAI

По результатам экзамена GPT4 может быть принят в 20 лучших юридических школ, и ему не хватает всего нескольких баллов для поступления в такие престижные школы, как Гарвард, Стэнфорд, Принстон или Йель.

Предыдущая версия ChatGPT набрала всего 149 баллов на экзамене LSAT, попав в нижние 40 %.

GPT-4 также набрала 298 баллов из 400 на Едином экзамене на адвоката — тесте, который сдают недавно окончившие юридический факультет студенты, чтобы получить право заниматься адвокатской практикой в любой юрисдикции США.

Баллы ЕГЭ, необходимые для допуска к адвокатской практике в каждой юрисдикции США. Источник: Национальная конференция экзаменаторов адвокатов

Старая версия ChatGPT не справилась с этим тестом, попав в нижние 10% с результатом 213 баллов из 400.

Что касается экзаменов SAT Evidence-Based Reading & Writing и SAT Math, которые сдают американские старшеклассники для оценки своей готовности к поступлению в колледж, GPT-4 набрал 93 и 89 процентов соответственно.

ГПТ-4 преуспел и в «трудных» науках, набрав гораздо больше среднего процентного балла по биологии AP (85-100%), химии (71-88%) и физике 2 (66-84%).

Результаты экзаменов GPT-4 и GPT-3.5 на ряде последних экзаменов в США. Источник: OpenAI

В то же время его результат по AP Calculus был довольно средним, он занял места с 43-го по 59-й процентили.

Еще одной областью, где GPT-4 не хватило баллов, были экзамены по английской литературе: по двум отдельным тестам он показал результаты с 8-го по 44-й процентили.

OpenAI заявила, что GPT-4 и GPT-3.5 взяли эти тесты из тренировочных экзаменов 2022-2023 годов, и что «никакой специальной подготовки» инструменты обработки языка не проходили:

«Мы не проводили никакой специальной подготовки для этих экзаменов. Меньшинство проблем на экзаменах были замечены моделью во время обучения, но мы считаем результаты репрезентативными.»

Результаты вызвали опасения и в сообществе Twitter.

Ник Алмонд, основатель FactoryDAO, 14 марта сообщил своим 14 300 подписчикам в Твиттере, что GPT4 «напугает людей» и «обрушит» мировую систему образования.

Теория оценивания была большим куском моей жизни в течение нескольких лет. Я говорил о том, что этот день наступит много лет назад. В то время я буквально звучал как местный чудак.

Но… на самом деле это означает, что с этого момента со всем, кроме оценки под надзором, покончено.

— drnick ️² (@DrNickA) 14 марта 2023 г.

Бывший директор Coinbase Конор Гроган рассказал, что он вставил в GPT-4 живой смарт-контракт Ethereum, и чатбот мгновенно указал на несколько «уязвимостей безопасности» и описал, как код может быть использован:

Я бросил живой контракт Ethereum в GPT-4.

В одно мгновение он выделил ряд уязвимостей в системе безопасности и указал области, где контракт может быть использован. Затем он проверил конкретный способ, которым я мог использовать контракт pic.twitter.com/its5puakUW

— Конор (@jconorgrogan) 14 марта 2023 г.

Более ранние проверки смарт-контракта ChatGPT показали, что его первая версия также была способна в достаточной степени обнаруживать ошибки в коде.

Роуэн Чунг, основатель информационного бюллетеня об ИИ The Rundown, поделился видеозаписью того, как GPT переводит в код нарисованный от руки на листе бумаги поддельный веб-сайт.

Я только что наблюдал, как GPT-4 превращает нарисованный от руки эскиз в функциональный веб-сайт.

Это безумие. pic.twitter.com/P5nSjrk7Wn

— Роуэн Чунг (@rowancheung) 14 марта 2023 г.