В мгновение ока большая модель с открытым исходным кодом снова улучшилась. Действительно ли у Google и OpenAI нет рва?
«Я только что взял 30-минутный перерыв на обед, и наша область снова изменилась?» Увидев последний рейтинг крупных моделей с открытым исходным кодом, предприниматель в области ИИ спросил свою душу.
Ссылка на таблицу лидеров:
«Новички» в красной рамке выше — это две большие модели из лаборатории Stability AI и CarperAI: FreeWilly 1 и FreeWilly 2. Только что они превзошли Llama-2-70b-hf, выпущенную Meta три дня назад, и успешно достигли вершины таблицы лидеров HuggingFace Open LLM.
Что более поразительно, так это то, что FreeWilly 2 также превзошла ChatGPT (GPT-3.5) во многих тестах, став первой моделью с открытым исходным кодом, которая действительно может конкурировать с GPT-3.5, чего не удалось Llama 2.
FreeWilly 1 создан на основе оригинальной базовой модели LLaMA 65B и тщательно контролируемой тонкой настройки (SFT) с использованием новых синтетических наборов данных в стандартном формате Alpaca. FreeWilly2 основан на последней базовой модели LLaMA 2 70B.
Из блога, опубликованного Stability AI, мы можем увидеть некоторые подробности об этих двух новых моделях:
Источники данных
Метод обучения модели FreeWilly напрямую вдохновлен методом, впервые предложенным Microsoft в их статье «Orca: Progressive Learning from Complex Explanation Traces of GPT-4». Хотя процесс генерации данных FreeWilly похож, существуют различия в источнике данных.
Набор данных FreeWilly содержит 600 000 точек данных (примерно 10% от размера набора данных, использованного в исходной статье Orca), и он был создан с помощью вдохновляющих языковых моделей из следующего высококачественного набора данных инструкций, созданного Энрико Шипполом:
Оригинальный субмикс COT
Оригинал субмикса NIV2
Оригинал сабмикса FLAN 2021
Оригинал субмикс T0
Используя этот подход, исследователи создали 500 000 примеров с использованием более простой модели LLM и еще 100 000 примеров с использованием более сложной модели LLM. Чтобы обеспечить справедливое сравнение, они тщательно проверили эти наборы данных и удалили примеры, полученные из эталонного теста. Хотя количество обучающих выборок составляет всего 1/10 от исходной бумаги Orca (что значительно снижает стоимость и углеродный след обучения модели по сравнению с исходной бумагой), полученная модель FreeWilly хорошо работает на различных тестах, подтверждая эффективность их подхода с помощью синтетических наборов данных.
Данные о производительности
Для внутренней оценки этих моделей исследователи использовали тест EleutherAI lm–harness, включающий AGI.
Среди них тест lm–harness был создан некоммерческой исследовательской лабораторией искусственного интеллекта EleutherAI, которая стоит за вышеупомянутой таблицей лидеров HuggingFace Open LLM.
AGI был создан Microsoft для оценки производительности базовой модели в стандартизированных тестах, ориентированных на человека, таких как математические соревнования и экзамены на адвоката.
Обе модели FreeWilly очень хорошо работают по многим направлениям, включая сложные рассуждения, понимание языковых тонкостей и ответы на сложные вопросы, связанные со специализированными областями, такими как юридические и математические вопросы.
Результаты оценки двух моделей в тесте lm-harness следующие (эти результаты теста FreeWilly были оценены исследователями Stability AI):
Производительность двух на тесте AGI выглядит следующим образом (все 0-выстрел):
Кроме того, они протестировали две модели на тесте GPT4ALL (все 0-выстрел):
В целом производительность этих двух моделей очень высока, что еще больше сокращает разрыв с лучшими моделями ИИ, такими как ChatGPT. Студенты, которые хотят получить модель, могут нажать на ссылку ниже.
Фривилли 1:
Фривилли 2:
Судя по реакции всех сторон, появление модели FreeWilly вызвало у всех небольшой шок, так как они пришли слишком быстро, ведь Llama 2 запущена всего 3 дня, а позиции в рейтинге не горячие. Один исследователь сказал, что недавно перенес операцию на глазах и неделю не смотрел новости, но чувствовал себя так, как будто целый год находился в коме. Итак, это период «не могу моргнуть».
Однако важно отметить, что хотя обе модели находятся в открытом доступе, в отличие от Llama 2, они выпущены под некоммерческой лицензией только для исследовательских целей.
Однако такой подход вызвал сомнения у пользователей сети.
В ответ исследователи Stability AI ответили, что эта ситуация (только для исследовательских целей) носит временный характер, и в будущем ожидается, что FreeWilly разрешит коммерческое использование, такое как Llama 2.
Кроме того, некоторые люди поставили под сомнение принятый тестом эталон:
Это также более сложная проблема в настоящее время. Если раньше событие, что модель Falcon раздавила Ламу в лидерборде HuggingFace, было спорным, то позже событие было полностью обратным: оказалось, что Ламу не раздавил Falcon, и для этого HuggingFace также переписали код лидерборда. Сегодня, с появлением больших моделей, как эффективно оценивать эти модели, все еще остается проблемой, заслуживающей обсуждения. Поэтому нам необходимо сохранять более осторожное отношение к этим топовым моделям и ждать публикации дополнительных результатов оценки.
Ссылка на ссылку:
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Победив Llama 2 и соперничая с GPT-3.5, новая модель Stability AI возглавила рейтинг больших моделей с открытым исходным кодом.
Первоисточник: Сердце машины
В мгновение ока большая модель с открытым исходным кодом снова улучшилась. Действительно ли у Google и OpenAI нет рва?
«Я только что взял 30-минутный перерыв на обед, и наша область снова изменилась?» Увидев последний рейтинг крупных моделей с открытым исходным кодом, предприниматель в области ИИ спросил свою душу.
«Новички» в красной рамке выше — это две большие модели из лаборатории Stability AI и CarperAI: FreeWilly 1 и FreeWilly 2. Только что они превзошли Llama-2-70b-hf, выпущенную Meta три дня назад, и успешно достигли вершины таблицы лидеров HuggingFace Open LLM.
Что более поразительно, так это то, что FreeWilly 2 также превзошла ChatGPT (GPT-3.5) во многих тестах, став первой моделью с открытым исходным кодом, которая действительно может конкурировать с GPT-3.5, чего не удалось Llama 2.
Из блога, опубликованного Stability AI, мы можем увидеть некоторые подробности об этих двух новых моделях:
Источники данных
Метод обучения модели FreeWilly напрямую вдохновлен методом, впервые предложенным Microsoft в их статье «Orca: Progressive Learning from Complex Explanation Traces of GPT-4». Хотя процесс генерации данных FreeWilly похож, существуют различия в источнике данных.
Набор данных FreeWilly содержит 600 000 точек данных (примерно 10% от размера набора данных, использованного в исходной статье Orca), и он был создан с помощью вдохновляющих языковых моделей из следующего высококачественного набора данных инструкций, созданного Энрико Шипполом:
Используя этот подход, исследователи создали 500 000 примеров с использованием более простой модели LLM и еще 100 000 примеров с использованием более сложной модели LLM. Чтобы обеспечить справедливое сравнение, они тщательно проверили эти наборы данных и удалили примеры, полученные из эталонного теста. Хотя количество обучающих выборок составляет всего 1/10 от исходной бумаги Orca (что значительно снижает стоимость и углеродный след обучения модели по сравнению с исходной бумагой), полученная модель FreeWilly хорошо работает на различных тестах, подтверждая эффективность их подхода с помощью синтетических наборов данных.
Данные о производительности
Для внутренней оценки этих моделей исследователи использовали тест EleutherAI lm–harness, включающий AGI.
Среди них тест lm–harness был создан некоммерческой исследовательской лабораторией искусственного интеллекта EleutherAI, которая стоит за вышеупомянутой таблицей лидеров HuggingFace Open LLM.
AGI был создан Microsoft для оценки производительности базовой модели в стандартизированных тестах, ориентированных на человека, таких как математические соревнования и экзамены на адвоката.
Обе модели FreeWilly очень хорошо работают по многим направлениям, включая сложные рассуждения, понимание языковых тонкостей и ответы на сложные вопросы, связанные со специализированными областями, такими как юридические и математические вопросы.
Результаты оценки двух моделей в тесте lm-harness следующие (эти результаты теста FreeWilly были оценены исследователями Stability AI):
Фривилли 1:
Фривилли 2:
Судя по реакции всех сторон, появление модели FreeWilly вызвало у всех небольшой шок, так как они пришли слишком быстро, ведь Llama 2 запущена всего 3 дня, а позиции в рейтинге не горячие. Один исследователь сказал, что недавно перенес операцию на глазах и неделю не смотрел новости, но чувствовал себя так, как будто целый год находился в коме. Итак, это период «не могу моргнуть».
Ссылка на ссылку: