24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Что именно произошло 23 декабря 2023?

В процессе подготовки к переносу Архивача на новый диск и расширению хранилища, мы с шокирующим удивлением обнаружили, что потеряли доступ к 3/4 (75%) нашего собственного хранилища медиаконтента (картинки и видео). Цифра 3/4 происходит из того, что медиаконтент был распределён по 4 жёстким дискам в равных долях, и незатронутым остался только 1 из 4 дисков. Наверное, это всё же лучше, чем потерять вообще всё...

Как так получилось?

Человеческий фактор + незапрошенное вмешательство программного обеспечения.

Мы изначально используем полнодисковое шифрование всех данных, что гарантирует безопасность от тов. майоров на случай, если они доберутся до сервера, но усложняет восстановление данных в случае нештатных ситуаций. То есть, все данные на каждом диске хранятся внутри одного большого шифрованного контейнера (LUKS), каждый контейнер имеет служебный заголовок, в котором хранятся ключи для шифрования/дешифрования самих данных. В процессе работы одной из программ (то ли отвечающей за разметку диска, то ли управления LVM томами) произошло негласное затирание начальных секторов существующих шифрованных томов другими данными, что сделало тома полностью нечитаемыми. Как выяснилось в дальнейшем, бэкапов заголовков шифрованных томов, которые могли бы решить неожиданную проблему с минимальными затратами, у нас тоже не оказалось (вот уж роковая небрежность). Таким образом, содержимое 3 дисков (а это десятки терабайт данных) стало полностью недоступным и не подлежит восстановлению.

Но ведь у вас должен быть бэкап (резервная копия) всего!?

Ежедневный бэкап производился только для программной составляющей Архивача и текстов сохранённых тредов, поскольку в сумме это занимает лишь несколько гигабайт. Полноценно бэкапить хранилище медиаконтента объёмом в десятки терабайт мы бы тоже хотели, но, к сожалению, для этого то не хватало материальных ресурсов, то мотивации улучшать то, что как-то работает. Вся работа по администрированию держится на плечах одного единственного человека, но в последние годы проект работал скорее в режиме автопилота, нежели как-то развивался. Стоит отметить, что интерес пользователей к какой-либо поддержке ресурса или хотя бы сохранению всех архивированных данных крайне невелик, никакие редкие донаты и реклама не покрывают всех сопутствующих затрат, и если бы не личный энтузиазм администрации, то всё могло бы закончиться гораздо раньше.

Что будет дальше?

Несмотря на все невзгоды, Архивач продолжает работу с уцелевшими данными. По мере возможностей мы будем пытаться восстановить недостающие файлы из различных сторонних источников, однако нужно учитывать, что потеряно около 26 миллионов файлов, некоторые из которых были уникальными в масштабе всего Интернета.

Хоть какие-то хорошие новости заключаются в том, что мы точно знаем, какие именно файлы нам нужны — каждый когда-то сохранённый файл идентифицировался по MD5 хэшу от его содержимого, эта информация остаётся в нашей базе данных. Если вычислить хэши для какого-либо набора файлов, то мы узнаем, какие из них нам пригодятся для восстановления.

Наши планы по восстановлению утраченного контента:

  • Пытаемся скачать из ещё активных тредов Двача всё, что доступно — это, как минимум, сотни тысяч файлов.
  • Перебор сохранённых в Wayback Machine (Internet Archive) файлов. Но туда попадало далеко не всё подряд, в основном наиболее популярное. Мы ищем разработчиков-энтузиастов (желательно на Python или PHP), которые могли бы заняться этой задачей.
  • Некоторые совсем старые файлы (примерно 2013-2015 гг.) когда-то сохранялись на внешние картинкохостинги. Из них мало что дожило до наших дней, но проверить по сохранённым ссылкам стоит.
  • Приглашаем всех пользователей поделиться с нами своими картинками и видео из числа тех, которые нам необходимы. Для этого разработана удобная программа, которая рекурсивно вычисляет хэши локальных файлов, сверяет их с нашим списком и копирует совпадающие, чтобы вам осталось только отправить их нам.

Отзывы и предложения