На случай, если вы «не слышали», 22 октября 2025 года Интернет-архив, который размещает the Wayback Machine по адресу archive. org, отметил важную дату: один триллион веб-страниц был заархивирован для потомков. Основанная в 1996 году Брюстером Кале, организация и ее оборудование росли в конце девяностых; в 2001 году доступ к их архивам был значительно расширен благодаря внедрению Wayback Machine. На своем веб-сайте от 21 октября 2009 года они объяснили свою миссию и предназначение:
Большинство обществ придают большое значение сохранению артефактов своей культуры и наследия. Без таких артефактов цивилизация не имеет памяти и не может извлекать уроки из своих успехов и неудач. В настоящее время наша культура создает все больше и больше артефактов в цифровой форме. Миссия Архива — помочь сохранить эти артефакты и создать интернет-библиотеку для исследователей, историков и эрудитов.
Нам была интересна технология интернет-архивирования. Хранение копии (на самом деле двух копий!) Интернета — непростая задача, поэтому мы немного покопались, чтобы выяснить, как это делается. Лучшая доступная информация содержится в этой статье за 2016 год: 20 000 жестких дисков на задании. Они хранят две копии каждого “элемента ”, которые хранятся в каталогах Linux. В 2016 году у них было более 30 петабайт контента, и они поглощали его со скоростью от 13 до 15 терабайт в день, причем самыми объемными были Интернет и телевидение. В 2016 году у них было около 20 000 индивидуальных дисковых накопителей, каждый из которых размещался в специализированных компьютерах, называемых ”датанодами». В датанодах имеется 36 накопителей данных плюс по два диска с операционной системой на машину. Узлы хранения данных организованы в стойки по 10 машин, каждая из которых содержит 360 накопителей данных. Эти стойки соединены между собой высокоскоростным Ethernet, образуя кластер хранения.
Несмотря на то, что с 2012 по 2016 год объем хранилища контента увеличился втрое, количество дисковых накопителей осталось примерно на том же уровне; это связано с усовершенствованием технологии дисковых накопителей. Узлы данных, которые когда-то были заполнены 36 отдельными дисками объемом 2 терабайта, сегодня заполнены дисками объемом 8 терабайт, что увеличивает емкость одного узла с 72 терабайт (в формате 64,8 Тб) до 288 терабайт (в формате 259,2 Тб) в том же физическом пространстве. Увеличение плотности дискового пространства происходило не за один шаг, поэтому в кластерах хранения имеются накопители емкостью 2, 3, 4 и 8 т.
Мы расскажем вам о визуальном оформлении бета-версии Hackaday в 2004 году, и о том, как рано google. com или amazon. com все выглядело так же, как в прежние времена. Огромное спасибо Интернет-архиву за то, что он оказал такую бесценную услугу нашему сообществу, и поздравляем его с этим замечательным достижением.