Синтез речи существует примерно с середины 20-го века. Когда-то давным-давно требовалось чрезвычайно совершенное аппаратное обеспечение, чтобы выдавить хотя бы несколько слов. Но, как показывает этот проект [atomic14], в наши дни для этого требуется только программное обеспечение с открытым исходным кодом и микроконтроллер за 10 центов.
Синтезатор речи реализован на микроконтроллере CH32V003, известном своей удивительно низкой стоимостью при заказе в большом количестве. Это маленький быстродействующий чип RISC-V, работающий на частоте 48 МГц, хотя и с ограничением всего в 16 КБАЙТ флэш-памяти и 2 КБАЙТ SRAM на борту.
Микроконтроллер подключается к динамику с помощью простой однотранзисторной схемы, которая обеспечивает вывод звука. [atomic14] впервые продемонстрировал это, заставив чип воспроизводить шесть секунд низкокачественного звука с помощью некоторых изящных приемов экономии места, позволяющих втиснуть его в ограниченный объем доступной флэш-памяти. Затем [atomic14] показывает, как он реализовал библиотеку Talkie на чипе, который представляет собой программную реализацию архитектуры синтеза речи Texas Instruments’ LPC, которую вы, вероятно, знаете по знаменитым игрушкам Speak &Spell toys.. В нем есть тонна встроенного словаря, и вы даже можете кодировать свои собственные слова с помощью некоторых свободно доступных инструментов.
Мы и раньше видели, как [atomic14] возится с этими чипами.