Сбой Amazon S3 и реакция на него

Последняя неделя выдалась непростой для «того, на чём работает интернет». Сначала Google сообщил, что научился генерировать коллизии для алгоритма SHA-1, тем самым показав его уязвимость. Но это не очень страшно, SHA-1 и так уже можно встретить всё реже, разве что на странице Алексея Шипилёва ВКонтакте:

Зато очень многие пользуются Amazon AWS. И в результате, когда вчерашним вечером у S3 произошёл сбой, это повлекло за собой проблемы разного масштаба у самых разных сервисов, в том числе актуальных для Java-разработчиков: от Slack и Trello до Gradle и OverOps. А вот Artifactory на фоне этого, наоборот, резко оказался привлекательнее. В общем, даже когда громадный сбой затрагивает самые разные сервисы и мешает самым разным людям работать, находится и тот, кто от этого в выигрыше (и почему-то мы не удивлены, что это Барух Садогурский).

https://twitter.com/edyesed/status/836707390607130624

Есть некоторая ирония в том, что среди прочего упал сайт для определения доступности сайтов Is It Down Right Now?. Но самой ироничной жертвой сбоя стала статус-страница Amazon AWS. Она бодро продолжала гореть зелёненьким — как выяснилось, из-за того, что корректная работа самой этой страницы тоже зависит от S3:

Разумеется, ситуация «статус-страница завязана на сервис, доступность которого она призвана показывать» вызвала прорву шуток: все наперебой советовали Amazon хостить страницу на конкурирующем Azure, поделиться своим архитектурным решением в качестве антипаттерна и завести статус-страницу для статус-страницы. Но были и серьёзные реплики: вспомнив недавнюю дискуссию о собеседованиях, люди замечали «и ведь небось те, кто допустил эту идиотскую ошибку, на собеседовании в Amazon отлично отвечали по алгоритмам».

Через несколько часов компания отчиталась об устранении неполадок, но, хотя всё снова заработало, произошедшее успело породить ещё одну дискуссию: насколько в принципе можно доверять одному конкретному облаку, каким бы известным и надёжным оно ни было. Например, Тим Берглунд (DataStax) категорично считает, что нельзя:

Однако ему возражают: «Всё не так однозначно. Что хуже, несколько часов недоступности в год или удвоение расходов на DevOps? Многие страдают фобией даунтайма, даже не пытаясь оценить убытки от него».

Напоследок — видео «спикер обнаруживает, что у S3 сбой, прямо во время выступления»:

  1. Алексей Шипилёв
    Работает над производительностью Java вот уже почти 10 лет. Успел позаниматься производительностью Apache Harmony в Intel, затем перешёл в Sun Microsystems, а потом и в Oracle, где работал над производительностью Sun/Oracle JDK, в том числе производительностью JVM, библиотек классов, фреймворков и приложений. На данный момент трудится в Red Hat. Являлся техническим представителем Oracle в Standard Performance Evaluation Corporation (SPEC), занятой разработкой и поддержкой промышленных бенчмарков. В данный момент серьезную часть времени тратит на Java Microbenchmark Harness, инструмент для измерения производительности Java-кода. @shipilev
  2. Барух Садогурский
    JFrog, Groovy, «Разбор полётов». Поскольку «религия не позволяет» быть евангелистом, Барух — developer advocate в компании JFrog, и делает в жизни ровно 3 вещи: зависает с разработчиками Bintray и Artifactory, пописывает для них код, и рассказывает о впечатлениях в блогах и на конференциях. И так несколько лет подряд, ни минуты об этом не жалея. @jbaruch
Tags from the story
, , ,