ChatGPT v4 сдает экзамены, SAT и может выявлять эксплойты в контрактах ETH
GPT-4, последняя версия чат-бота с искусственным интеллектом ChatGPT, может сдавать тесты для средней школы и экзамены на юридические факультеты с оценками в 90-м процентиле и обладает новыми возможностями обработки данных, которые были недоступны для предыдущей версии.
Данными о результатах тестирования GPT-4 поделился 14 марта создатель OpenAI, сообщив, что он также может преобразовывать изображения, аудио и видео в текст, а также более творчески и надежно обрабатывать «гораздо более тонкие инструкции».
«Он сдает симулированный экзамен на адвоката с результатом около 10% лучших участников теста», — добавили в OpenAI. «В отличие от этого, результат GPT-3.5 был примерно в нижних 10%».
По данным, GPT-4 набрал 163 балла в 88-м процентиле на экзамене LSAT — тесте, который студенты колледжей должны сдать в США, чтобы поступить в юридический колледж.
Результаты экзаменов GPT-4 и GPT-3.5 на ряде последних экзаменов в США. Источник: OpenAI
По результатам экзамена GPT4 может быть принят в 20 лучших юридических школ, и ему не хватает всего нескольких баллов для поступления в такие престижные школы, как Гарвард, Стэнфорд, Принстон или Йель.
Предыдущая версия ChatGPT набрала всего 149 баллов на экзамене LSAT, попав в нижние 40 %.
GPT-4 также набрала 298 баллов из 400 на Едином экзамене на адвоката — тесте, который сдают недавно окончившие юридический факультет студенты, чтобы получить право заниматься адвокатской практикой в любой юрисдикции США.
Баллы ЕГЭ, необходимые для допуска к адвокатской практике в каждой юрисдикции США. Источник: Национальная конференция экзаменаторов адвокатов
Старая версия ChatGPT не справилась с этим тестом, попав в нижние 10% с результатом 213 баллов из 400.
Что касается экзаменов SAT Evidence-Based Reading & Writing и SAT Math, которые сдают американские старшеклассники для оценки своей готовности к поступлению в колледж, GPT-4 набрал 93 и 89 процентов соответственно.
ГПТ-4 преуспел и в «трудных» науках, набрав гораздо больше среднего процентного балла по биологии AP (85-100%), химии (71-88%) и физике 2 (66-84%).
Результаты экзаменов GPT-4 и GPT-3.5 на ряде последних экзаменов в США. Источник: OpenAI
В то же время его результат по AP Calculus был довольно средним, он занял места с 43-го по 59-й процентили.
Еще одной областью, где GPT-4 не хватило баллов, были экзамены по английской литературе: по двум отдельным тестам он показал результаты с 8-го по 44-й процентили.
OpenAI заявила, что GPT-4 и GPT-3.5 взяли эти тесты из тренировочных экзаменов 2022-2023 годов, и что «никакой специальной подготовки» инструменты обработки языка не проходили:
«Мы не проводили никакой специальной подготовки для этих экзаменов. Меньшинство проблем на экзаменах были замечены моделью во время обучения, но мы считаем результаты репрезентативными.»
Результаты вызвали опасения и в сообществе Twitter.
Ник Алмонд, основатель FactoryDAO, 14 марта сообщил своим 14 300 подписчикам в Твиттере, что GPT4 «напугает людей» и «обрушит» мировую систему образования.
Теория оценивания была большим куском моей жизни в течение нескольких лет. Я говорил о том, что этот день наступит много лет назад. В то время я буквально звучал как местный чудак.
Но… на самом деле это означает, что с этого момента со всем, кроме оценки под надзором, покончено.
— drnick ️² (@DrNickA) 14 марта 2023 г.
Бывший директор Coinbase Конор Гроган рассказал, что он вставил в GPT-4 живой смарт-контракт Ethereum, и чатбот мгновенно указал на несколько «уязвимостей безопасности» и описал, как код может быть использован:
Я бросил живой контракт Ethereum в GPT-4.
В одно мгновение он выделил ряд уязвимостей в системе безопасности и указал области, где контракт может быть использован. Затем он проверил конкретный способ, которым я мог использовать контракт pic.twitter.com/its5puakUW
— Конор (@jconorgrogan) 14 марта 2023 г.
Более ранние проверки смарт-контракта ChatGPT показали, что его первая версия также была способна в достаточной степени обнаруживать ошибки в коде.
Роуэн Чунг, основатель информационного бюллетеня об ИИ The Rundown, поделился видеозаписью того, как GPT переводит в код нарисованный от руки на листе бумаги поддельный веб-сайт.
Я только что наблюдал, как GPT-4 превращает нарисованный от руки эскиз в функциональный веб-сайт.
Это безумие. pic.twitter.com/P5nSjrk7Wn
— Роуэн Чунг (@rowancheung) 14 марта 2023 г.