Будни технического директора @samatg (ex-CTO Meduza, Bookmate, RAWG, Pure)

«Закрытие Parse и куда с него переехать», очередной лонгрид «как программируют в NASA» и прочие ссылки с hackernews. Ну и истории, конечно.

Чатик @ctodailychat

​​Ну что, вчера я признался, почему мы лежали, теперь хочу похвастаться, что мы сделали за день, чтобы больше не падать.

Мы собрали неплохой дэшборд. Это сборник внутренних показателей сервиса, таких как число пользователей, открытых страниц разных типов, нагрузка на процессор и диски серверов, число задач в очередях исполнения, время загрузки страниц и доля запросов, которые заканчиваются ошибкой.

Веб-сайт, бэкенд-приложение и база данных — три разных технологии, но ошибка в одной повлечет эффект домино. Важно, чтобы человеку было просто заметить, кто был первой упавшей доминошкой — для этого мы собираем все релевантные показатели на одном экране рядом.

Для этого мы пользуемся сервисом datadog. Он дорогой, но стоит своих денег. Главная его сила — не в графиках, а в том, что кроме численных показателей он практически автоматически собирает внутреннее состояние приложения (APM, запросы к базе и вот это всё) и логи (бортовой журнал приложения). Благодаря этому, можно выделить время на графике и увидеть всю отладочную информацию из приложений только за указанный период. Или наоборот, заметить странные логи и одним нажатием посмотреть, как вели себя графики в это время. Это звучит как небольшая и очевидная функция, но во первых, это редкость, а во вторых — очень помогает. Меньше думаешь о том, как найти информацию и больше — о том, что она значит.

Вот несколько дэшбордов, которые собрали ребята. Вы можете заметить, что в них нет бизнес показателей: числа заказов и курьеров, среднего времени доставки заказов и сумм оплат — их мы добавим в ближайшее время.

​​Мы в iGooods лежали почти полдня. Стыдно! Зря я угорал вчера над утконосом, что они упали. Поделюсь честно, от чего мы лежали. Это подробный постмортем аварии с техническими подробностями, мама, извини.

Из-за коронавируса к нам начали приходить в 2-3 раза больше клиентов, чем обычно. Плюс у нас на днях запускается два новых партнерства — с Joom и с магазинами Лента. Серверы работали на 40-60 процентах емкости и мы решили «добавить железа». В 6 вечера мы налили пару новых машин в кластер приложений, в час ночи по Москве — перетащили базу на новую, ультра мощную тачку. Обе операции — необычные для iGooods, множество вещей делалось руками. Ошибка №0 — мы сделали 2 крупных изменения близко друг с другом

В 7 утра по Москве, сервер базы данных начал плавиться от нагрузки в процессор. Это компьютер с 70 ядрами, но базе нужно было минимум 300. Запросов было вроде бы не сильно больше, чем обычно, но занимали они всё больше времени. Люди просыпались у себя дома и начинали делать заказы — сервера умирали, сайт не открывался, приложения выдавали ошибки. Самое опасное — курьеры и сборщики заказов выходили на работу и не могли работать.

Мы, конечно, думали, что сможем быстро починить проблему. Через час стало понятно, что нужно хотя бы временное решение. Мы выключили все пользовательские интерфейсы iGooods, оставив рабочей только админку и внутренние приложения курьеров и пикеров (сборщиков заказов). Ошибка №1 — в случае аварии не нужно пытаться «сделать хорошо», нужно определить критичные сервисы и восстановить их первым делом.

Мы решили, что проблема в новой базе данных. Мало ли, конфигурация, железо, да хоть драйверы. Попытались вернуться на старый сервер. Мы не сохранили WAL логи между переездами, так что вместо 3 минут эта операция заняла 40 минут — пришлось перегнать всю базу данных между серверами. Мы планировали откат для приложений, но не для переноса базы — он нам казался довольно безопасной операцией. Ошибка №2 — мы решили, что «уж тут-то не взорвется», на самом деле вместе с любым изменением нужно продумывать пути отката.

Возвращение на старый сервер базы данных не помогло. Каждый раз, когда мы включали пользовательские приложения — база данных мгновенно уходила в несознанку и работа бэкофиса парализовалась. Сайт и мобильные приложения к тому моменту лежали уже больше нескольких часов. Самое страшное — мы всё ещё не были уверены, что проблема не в базе данных.

В конце концов, Женя случайно заметили ошибку, что наше rails приложение не может записать в redis-кеш. BINGO! Вот тут всё наконец-то встало на свои места. В нашем приложении есть много страниц, которые собираются очень долго. Все они кешируются rails'ами в redis. И вот этот редис кеш у нас отвалился на запись на части серверов приложений из-за кривых настроек окружения (душераздирающие подробности приложены картинкой). Кеш протухал постепенно и с каждой потерянной записью все больше тяжелых запросов грузили Postgres. Ошибки №3, 4 и 5: настройка тачек производится руками, не кодом; логи переполнены, так что сложно заметить новую ошибку; не все важные сервисы (redis, rails cache) включены в мониторинг.

Как вы можете видеть, всё довольно банально. Будь у нас настроена нормальная рабочая среда — не было бы такой аварии.

Итак, чего нам не хватило и что мы приведем в порядок:
- инфраструктура в коде (полный ansible вместо хождения руками на серверы);
- хороший, чистый мониторинг всех ключевых метрик приложения, APM — за день до аварии мы включили Datadog, но ещё не было нормальных дэшбордов и исторических данных;
- сообщения об ошибках (у нас bugsnag) засраны нерелевантными сообщеними — их нужно почистить.

Мы с Федей обозначили проблемы в первые же дни, но не успели решить их — были вещи поважнее. Знал бы прикуп — жил бы в Сочи.

Если у вас похожая ситуация — рекомендую навести порядок заранее, не ждать форс-мажора.

Ну и делать много сложных правок вместе — чревато. Стоило разнести перенос базы и деплой новых машин на день — тогда бы мы не потратили так много времени на ложный след тормозной базы.

Fin.

​​Практически идеальный симулятор эпидемии от блоггера.

В статье Washington Post не хватает возможности регулировать параметры модели и открытых исходных кодов.

Кевин Симлер в своей очень-очень крутой статье исправил обе проблемы. Он начинает с самой простой модели распространения вируса и шаг за шагом, с простыми объяснениями, вводит дополнительные условия: инкубационный период, путешествия и даже социальную изоляцию. Все параметры можно менять и перезапускать симуляции сколько хочешь раз. Он сам пишет, что цель статьи — помочь выработать интуицию. 

Вся статья и исходные коды доступны по свободной лицензии CC0. Интересно, кто первым переведёт эту работу на русский — медиа или энтузиасты? Если вы — русское медиа и вам нужна помощь с тем, чтобы встроить эти симуляции у себя — пишите в личку.

Кайф².

​​Вовремя мы взяли iGooods в клиенты. У чуваков столько новых пользователей, что серверы не выдерживают и внешние сервисы бьют лимиты.

Утром придумали хитрый внутренний прокси для облегчения нагрузки, зарегали аккаунт в AWS и вот только что задеплоили первую в компании лямбду в продакшен. Сегодня вечером придумали, а завтра, я надеюсь, уже запустим внутреннего телеграм-бота для радикального ускорения сборки заказов, тоже первого в компании.

Кстати, про лямбды: для того, чтобы не попасть под блокировки РКН, пришлось завернуть все запросы через наш собственный nginx, расположенный в России. Не забывайте про это, если работаете в России.

Интереснее сейчас, наверное, только у эпидемиологов, в медиа и в школах, которые пытаются перейти на удаленку. 🚀

Два классных ютуба про инфекцию:

Для желающих математики. 3Blue1Blue объясняет экспоненциальный рост; именно он описывает нашу эпидемию. Этот автор умеет объяснить сложную математику исходя из самых основ, понятных каждому. Да, по пути придется напрячь мозги, но все супер наглядно и никаких «шаг 2 — нарисуй сову». Почему разница между коэффициентами заражения в 1.05 и 1.15 означает разницу в миллионы жизней и что на самом деле означает «всего 3 случая заражения»? Вот бы в школе и универе иметь таких учителей.

Для всех. Джо Роган (американский, чуть постаревший и посерьезневший аналог Дудя) обстоятельно поговорил с крутым экспертом в теме эпидемий. Michael Osterholm давно предупреждал именно о том типе эпидемии, которая развивается сейчас и даже написал про это книжку (да, там есть про supply chains и про перегрузку системы здравоохранения). Он умеет объяснить сложные вещи простым языком, не теряя при этом сути. Главное, что для себя вынес я: «этот коронавирус — зима, не ураган; не ждите, что всё закончится за пару недель». Короткое, не такое душевное интервью с ним для какой-то телепередачи.

​​The Washington Post опубликовал офигенный интерактивный материал о распространении инфекции. Наглядно видно, почему ограничивать передвижение между городами и странами — не особо эффективно, а сидеть по домам — круто. Симуляции случайные, и каждый раз, когда вы откроете страницу — результаты будут чуть-чуть разные, но идея остается верной. Особенно круто, что прогать такое не особо сложно — главное было придумать идею.

Автор Harry Stevens имеет должность «Graphics reporter» в WaPo и на странице с его материалами много интересного интерактива. Он обладатель серебряной медали премии Information is beautiful за 2017 год и если вы любите инфографику — рекомендую заглянуть на страницу Showcase, там можно зависнуть надолго.

Я обожаю наблюдать, как WaPo и NYT соревнуются в плане визуализаций и интерактива и в этом случае WaPo ведет счет. Кстати, их сайт легко гуглить на предмет людей, которые отвечают за такие штуки (graphics reporter и interactive) и если закопаться чуть поглубже в их вакансии, то видно, что инженеры у них работают для построения инфраструктуры, а конкретные истории делают журналисты, которые умеют прогать. Кайф.

Набрался смелости и согласился на AMA в Тиньков-Журнале. Пока вопросы в основном «как стать программистом и зарабатывать кучу денег», что неудивительно, учитывая заголовок. Задавайте свои вопросы — отвечу.

Для тех, кто не знаком с феноменом AMA:

Главный интернет-форум и один из самых популярных сайтов на свете — reddit.

Один из самых популярных разделов реддита — r/IAmA. 20 миллионов подписчиков, 20 тысяч сообщений за прошлую неделю. Люди делают посты вида «меня зовут Самат Галимов, я техдир, спросите меня о чем угодно» и отвечают на вопросы в комментариях.

Примеры: Билл Гейтс, в числе прочего, говорит о своём богатстве, Илон Маск делится, как его любимый учитель математики мотивировал класс. На вопросы отвечали 92-летний немецкий еврей служивший в вермахте, человек, отсидевший 20 лет за убийство, которого не совершал и тысячи других людей.

Ну и раз я заговорил о реддите: в последние месяцы они активно пытаются заставить мобильных веб посетителей установить своё приложение. Началось все с назойливых и обманчивых баннеров на пол-экрана. Как вам большая кнопка «продолжить в приложении» (ведет в аппстор, конечно) и микроскопическая ссылка «открыть сайт» на мобильном сайте? Недавно тупо перестали показывать часть контента на мобилах вне приложений. Это яркий пример того, как делать не нужно. Есть даже специальный термин для такого поведения: user hostile behavior. Хорошо поднимает метрики прямо сейчас (выскребают по дну), ужасно долгосрочно.

​​В телеграме для iOS можно автоматически промотать список чатов к непрочитанным чатам! Просто зажмите и держите нажатой иконку чатов в нижнем tab bar.

В iOS Safari есть куча таких скрытых функций: долгий тап на кнопку «вкладок» вызывает меню, где можно закрыть все вкладки разом, а долгий тап на «закладки» - предложение заложить эту вкладку или все открытые вкладки. Долгий тап на кнопку «+» открытия вкладки позволяет восстановить недавно закрытые вкладки.

Хорошо ли иметь скрытые интерфейсные решения или нет — тема бесконечного UX-холивара. Одно я знаю точно - текущее решение эпл записать все эти секретики в бесплатную электронную книгу в iBooks - стремное. Вот бы опцию «покажи мне секретики», которая бы включала «интерактивный туториал» по всем классным шорткатам. Мечты!

Спецвыпуск подкаста, в котором мы с Федей договариваемся про своё дело с помощью крутого юриста Димы Грица. Только что прослушал мастер и чувствую себя раздетым от того, что вы можете послушать этот довольно личный разговор.

Последний, 15-й эпизод в этом сезоне. Уходим на месяц каникул и вернемся со вторым сезоном, ещё интереснее первого. Спасибо замечательной команде — Андрею Борзенко, Юле Яковлевой, Павлу Цурикову, Павлу Боровкову и Полине Агарковой. Вы лучшие!

Спасибо вам большое, что слушаете! Пишите в личку, что вы думаете о подкасте — даже (особенно) если вы не довольны и хотите что-то поменять.