Хотя в наши дни существует множество программ искусственного интеллекта, не все они работают одинаково. Большинство чат-ботов с большими языковыми моделями генерируют текст, беря входные токены и предсказывая следующий токен в последовательности. Однако генераторы изображений, такие как Stable Diffusion, используют другой подход. Неудивительно, что этот метод называется diffusion. Как это работает? [Натан Барри] хочет показать вам, используя небольшую демонстрацию под названием tiny-diffusion, которую вы можете попробовать сами. Получается «что-то вроде «Шекспира».
Для обеспечения стабильного распространения обучение начинается с изображения и соответствующей подсказки. Затем обучающая система повторно добавляет шум и изучает, как изображение постепенно превращается в шум. Во время генерации модель начинается с шума и изменяет процесс на противоположный, и получается изображение. Это немного упрощенно, но поскольку что-то вроде Stable Diffusion имеет дело с миллионами пикселей и огромными наборами данных, может быть сложно обучить и визуализировать его работу.
Прелесть tiny-diffusion в том, что он работает с символами, так что вы можете на самом деле увидеть, как происходит процесс уменьшения шума. Он достаточно мал для локального запуска, если учесть, что 10,7 миллионов параметров невелики. Он предварительно обучен на Tiny Shakespeare, поэтому в итоге получается что-то шекспировское.
Сообщается, что обучение по умолчанию заняло около 30 минут на четырех NVIDIA A100. Вы можете перепрофилировать модель, если хотите, и, возможно, использовать другие наборы данных. Интересно то, что вы можете визуализировать путь, который проходит текст от шума к прозе, прямо на терминале.
Хотите глубже погрузиться в процесс распространения? Мы можем помочь. Наш любимый способ поиска изображений — с помощью музыки.