Новости

Nanochat Позволяет Вам создать свой собственный LLM, который можно взломать

Немногие люди знают LLMs (большие языковые модели) так хорошо, как [Андрей Карпати], и, к счастью для всех нас, он выражает это в полезных проектах с открытым исходным кодом. Его новинкой является nanochat, который он рассматривает как способ создания «лучшего чата, который можно купить за 100 долларов».

Что это такое на самом деле? nanochat — это минималистичный и доступный для взлома программный проект, заключенный в один speedrun. sh скрипт — для создания простого клона ChatGPT с нуля, включая веб-интерфейс. Кодовая база содержит около 8000 строк чистого, удобочитаемого кода с минимальными зависимостями, что делает каждую отдельную часть процесса доступной для изменения. Доступная, сквозная кодовая база для создания простого клона ChatGPT делает каждую часть процесса доступной для взлома.

100 долларов — это стоимость выполнения сложной вычислительной работы по созданию модели, которая занимает около 4 часов на одном графическом процессоре NVIDIA 8XH100. В результате получилась микромодель с 1,9 миллиардами параметров, обученная примерно на 38 миллиардах токенов из открытого набора данных. Эта модель, как описывает [Андрей] в своем анонсе на X, представляет собой «маленький клон ChatGPT, с которым вы можете общаться и который может писать рассказы/стихи, отвечать на простые вопросы». Краткое описание того, как выглядит весь этот процесс, превращает его в начать работу настолько просто, насколько это возможно. Неудивительно, что стоимость всего в 100 долларов не составляет существенной конкуренции современным коммерческим предложениям. Однако, если расширить масштабы процесса, можно добиться значительных улучшений. Версия за 1000 долларов (подробно описанная здесь) гораздо более понятна и функциональна; она позволяет решать простые математические задачи или задачи по программированию и проходить тесты с несколькими вариантами ответов.

Работа Андрея Карпати хорошо поддается модификации и экспериментам, и мы уверены, что этот инструмент не станет исключением. Его прошлая работа включает в себя метод обучения GPT-2 LLM с использованием только чистого C-кода, а несколько лет назад мы видели его работу над рекуррентной нейронной сетью на основе символов (mis), используемой для генерации музыки в стиле барокко путем умного представления MIDI-событий в виде текста.


Другие новости: