Czego informatyka może nauczyć się od kolei? Analiza katastrof (film 44 minuty)

Dzień dobry Państwu. Chciałbym postawić tezę, którą postaram się również obronić, mianowicie dzisiejsza IT jest w gorszej sytuacji niż była kolej w latach 30-tych. Brzmi dziwnie, postaram się to udowodnić. Powiem więcej, dzisiejsza IT jest gorsza niż kolej w PRL-u była w latach 70-tych i 80-tych. Jest możliwe. Następny. Oj przepraszam, mam chyba problem techniczny z wyświetleniem? Nie, dobrze. Ręka do góry. Kto z Państwa posiada procedury i instrukcje na wszystkie rzeczy, które wykonujecie? Wszystko co się zmienia na produkcji. Kto u Państwa ma to, że wszystkie bez wyjątku? Kto z Państwa posiada własny system komunikacji niezależny od publicznej sieci telefonicznej? Operatorzy ręka do góry. Pięć osób. Kto z Państwa posiada system, który obejmuje wszystkie zlecenia i rozkazy wydawane, na przykład system ticketowy. Kto z Was ma system ticketowy w firmie? O tu dużo więcej, bardzo dobrze. Może być współdzielony. Kto z Państwa posiada własny dział audytu, który audytuje działania? Dwie, trzy, cztery osoby, pięć, sześć. Kto z Was wykorzystuje automatyzację master of puppets, te sprawy? O tu też bardzo dobrze. Kto z Was stosuje system kwalifikacji personelu? Kto może wykonywać działania na produkcji, kto nie? Trzy osoby, widzę. Dobrze. Kto z Was stosuje zarządzanie zmianą przed wyprowadzaniem nowego dokumentu? Trzy osoby. To te same, które robią kwalifikacje personelu z tego co widziałem. To są dojrzałe organizacje, które to potrafią zrobić. Kto z Was zarządza ryzykiem przed wprowadzaniem zmian w operacjach? Kto stosuje arkusze przed wprowadzeniem CR-ki? Trzy, cztery osoby. Tu jeszcze dwie były. Pięć, sześć, siedem. Bardzo dobrze. Proszę Państwa, wszystko to miała kolej w latach trzydziestych. Wszystko to tutaj, chociaż nigdzie nie było żadnego systemu informatycznego, który by to robił. No to mówiliśmy o katastrofach, to będą. To teraz pytanie, kto wprowadził pierwsze rejestratory katastroficzne? Czy to było w lotnictwie wojskowym? Było, jeszcze przed wojną, ale tak się nie nazywało. Czy to było w lotnictwie cywilnym, na kolei czy w transporcie morskim? Na kolei, dobrze. A kiedy to było? Brawo. Szwajcarska firma Hassler wyprodukowała rejestrator, który później nazywał się Telok. Tak on wygląda. Pierwszy model z dwudziestego roku, produkowany do dziś w nieco zmienionej formie, do dziś używany na PKP, na większości lokomotyw, gdzie nie ma rejestratorów elektronicznych. On zapisuje parametry na taśmie wózkowej, gdzie rysik to wydziera. Trochę inaczej już teraz wygląda spojrzenie na kolei, prawda? To jest dopiero początek. Tak wygląda fragment kabiny maszynisty, najpopularniejszej lokomotywy w Polsce przez długi czas, to jest EU07. Maszynista tak naprawdę ma do dyspozycji mnóstwo przycisków, skąd ta kierownica w ogóle. Otóż maszynista tylko nadaje prędkość i hamuje. To się nazywa nastawnik jazdy. Tu jest nastawnik kierunku i maszynista za pomocą tego nastawnika jazdy, przekręcając go na kolejne pozycje, nadaje napięcie na silniki trakcyjne. Hamuje za pomocą tego kranu, który nazywa się kran hamulca oerlikon, ma 28 razem 43 pozycje tego nastawnika, 28 jest bezoporowa, 43 również bezoporowa. Na innej lokomotywie jest 21, 36 i 48. Czy maszynista może jechać? Jak? Mówią mu sygnały i wskaźniki. Sygnał to jest to, co się wyświetla na semaforze, a wskaźnik to jest tak jak znak drogowy. I to wszystko jest regulowane przepisami, a w starszych lokomotywach takich jak EU07 wszystkie te operacje wykonywane są ręcznie. W czym to przypomina dzisiejsza IT? Brawo. Nie ma automatyzacji jeszcze w tej postaci. Wszystkie operacje na każdej z tych maszyn wykonujemy ręcznie i to jest sytuacja, kiedy mamy instalację on-premise, w której administrator musi się w ten czy inny sposób zalogować do systemu, żeby wprowadzić aktualizację. Czy to jest dobre? Było dobre. Czy to działa? Działało. A jakie ma efekty? Właśnie. Co by było, gdyby ten maszynista pojechał wbrew przepisom? Czyli mówiąc krótko, świeci się czerwone, oni mówią S1, a jednak pojechał. Otóż byłoby to. Ze strony na odcinku od Torunia w stronę na południe wyruszył pociąg osobowy i w tym samym czasie w miejscowości Otłoczyn był pociąg towarowy, który mimo czerwonego światła, czyli sygnału S1 wjechał na szlak. Tu jest szlak jednotorowy. Rzecz w tym, że zekseważył czerwone światło i dyżurny ruchu z Otłoczyna, który odpowiada za ułożenie drogi, zauważył, że on przejechał przez zwrotnicę niszcząc ją i wjechał na jednotorowy szlak. Zadzwonili do Brzozy Toruńskiej, czy ten pociąg tutaj, o którym wiedzieli, da się jeszcze zatrzymać, żeby skutki były mniejsze. Niestety on minął już ostatni semafor przed tym odcinkiem. W związku z tym obydwaj ludzie stąd wiedzieli, że będzie katastrofa, ale nic już nie mogli z tym zrobić. I to była największa powojenna katastrofa kolejowa w Otłoczynie 18 sierpnia 1980 roku. Jakie były przyczyny? Maszynista zekseważył przepisy i wyjechał na szlak mimo zakazu, mimo braku specjalnego rozkazu, który by to umożliwiał. Nie było możliwości zatrzymania awaryjnego takiego pociągu, bo nie było na to żadnych środków technicznych. Nie było żadnej łączności ani z jedną, ani z drugą lokomotywą w ogóle. I dyżurni ruchu wiedzieli, proszę sobie wyobrazić, jaka to musiała być tragedia dla tych dyżurnych ruchów, kiedy oni wiedzieli, że tragedia się musi wydarzyć i nic z tym nie mogą zrobić. Przypominam tu trochę sytuację z kontrolerów ruchu lotniczego, kiedy oni widzą, że będzie katastrofa i też nic z tym już nie mogą zrobić. Najważniejszy rezultat taki był. Otóż we wszystkich lokomotywach bez wyjątku rozpoczęto proces instalacji radiotelefonów i opracowano system radio stop, który umożliwia zatrzymanie każdego pociągu w zasięgu widokowego radiowego i uściślono kontrolę czasu pracy oraz dokumentów. Ten maszynista, który wyuchował ten pociąg, był mocno przemęczony i miał sfałszowaną dokumentację czasu pracy, ponieważ wtedy obowiązywało wypłaty za nadgodziny i te nadgodziny były bardzo dobrze płatne. W związku z tym o medycynie też będzie. Jakie będą wnioski dla IT? Po pierwsze wprowadzić szkolenie personelu i zarządzać sensownie uprawnieniami, żeby ci ludzie, którzy mogą dziwne rzeczy zrobić, nie mogli tego bez powodu wykonać na produkcji. Po drugie wprowadzić kill switch. Co to jest kill switch? To jest urządzenie, które umożliwia zatrzymanie części infrastruktury, po prostu wyłączenie jej, odłączenie jej od sieci. Na wypadek np. błędu człowieka, przykład maszyna wirtualna na Amazonie albo Azurze wystawiona nagle do internetu. System automatyczny powinien mógł taką maszynę po prostu położyć. Nieważne, że będzie przerwa w procesie biznesowym, położymy taką maszynę. Widzimy malware, np. ransomware, który się rozłazi po firmie. Położyć maszyny, wyłączonej maszyny wirtualnej, w ten sposób nic tak prosto nie ruszy. To będzie dużo trudniejsze. Włamanie komputerowe, również ten sam przypadek, oczywista sprawa, albo inny atak z zewnątrz. To samo, awaria techniczna. To zjawisko było również w ten sposób zatrzymania, taki kill switch był również znany w nawigacji. Można było po prostu zatrzymać silnik, gdyby była taka potrzeba. Bardzo rzadko używane, ale technicznie taka możliwość była. Przykład zdarzenia, awaria Cloudflare'a, całkiem niedawno, spowodowana błędnym wyrażeniem regularnym. Cloudflare posiada kill switcha i go użył, wyłączając część firewalli, które były najbardziej obłożone, jednakże to było za mało, w związku z tym wyciągnął z tego właściwe wnioski. Żeby nie było, że tylko taki przypadek się zdarza. Mieliśmy następną katastrofę, w której maszynista również zlekceważył czerwone światło, ale tym razem jechał i nie wyhamował. Dlaczego nie wyhamował? Wprowadzono system hamowania pociągów, nazywany SHP, który umożliwia pierwsze zatrzymanie takiego pociągu, po drugie przed każdym semaforem wjazdowym jest rezonator, który sprawia, że maszynista, gdyby zasnął, to wtedy pociąg będzie zatrzymany automatycznie. Jeżeli maszynista jest czujny, to naciska przycisk czujności, znaczy, że on wie, gdzie jedzie. W tym pociągu system SHP w drugiej z dwóch lokomotyw, a był to pociąg z paliwem, który jechał stąd, SHP było wyłączone. A w tą stronę jechał pociąg towarowy ze złomem i minął czerwone światło, sygnał S1 na semaforze i wjechał w koniec pociągu towarowego ze złomem. Skutek zdarzenia był taki, że sprawę zwrotu pieniędzy za spalone cysterny toczy się do dziś. To jest kwestia odszkodowania. To była jedna z największych pożarów i jedna z większych katastrof pożarowych w historii Polski. Wydarzało się w Białymstoku i to całkiem niedawno, zobaczcie, 2010 rok. Nadal ludzie tego nie wiedzieli, że trzeba pilnować czasu pracy. Jaka była przyczyna pierwotna? Maszynista się nie zatrzymał, ale dlaczego? On był krytycznie przemęczony, ponieważ pracował w dwóch spółkach, omijając w ten sposób ograniczenie czasu pracy. Najważniejszy rezultat. Po pierwsze, Państwowa Komisja Badawcza PKB WK wypadków kolejowych zawnioskowała o wprowadzenie bardzo ścisłej kontroli zatrudnienia w poszczególnych spółkach, żeby uniknąć obchodzenia limitu czasu pracy maszynistów. Oprócz tego przyspieszono wreszcie wdrożenie systemu automatycznego zarządzania ruchem kolejowym w kraju. To był bardzo ważny wniosek. Skutki były takie, że w Białymstoku jedna z nastawni była całkowicie spalona i trzy czwarte ruchu było obsługiwane ręcznie w tym miejscu, także ten pożar miał olbrzymie skutki. Wyciągnięte wnioski stamtąd. Jakie były wnioski dla IT? Przede wszystkim wprowadzić sensowny system zarządzania dostępem i uprawnieniami poszczególnych użytkowników i trzeba zrobić coś, żeby krytyczne lub złe przypadki konfiguracji były wykrywane. Dam przykład. Ktoś przygotował nowy szablon maszyny wirtualnej i wrzucił go do katalogu, żeby było to wrzucone na chmurę, czy w inny sposób. Trzeba mieć system, który wykrywa takie rzeczy i w momencie wrzucania takiej maszyny na produkcję powinien podjąć decyzję albo przynajmniej wyświetlić alarm, że ta maszyna jest skonfigurowana źle. To wpływa na te i na te maszyny. Tędy będzie płynął ruch w niewłaściwy sposób. Albo ta regułka na firewallu powoduje otwarcie tej podsieci na świat. Zróbcie coś z tym. Trzeba mieć systemy reagujące na wyjątki. W Białymstoku takiego systemu nie było, ponieważ tamta część miała jeszcze sygnalizację kształtową. Będę o tym mówił przy okazji ostatniej z katastrof omawianych dzisiaj. Przykład jest to na IT. Włamanie do Plus Banku, w którym system był nieaktualizowany przez długi czas i nikt nie podjął decyzji na czas, żeby takie aktualizacje wprowadzić. Słynna sprawa. Plus wielokrotne udostępnienie danych przez Amazon Buckets. Ostatnie było bodajże 4 tygodnie temu. Dwa portale o tym pisały, kiedy to użytkownicy tam mieli część danych medycznych udostępnionych z Amazona. Ludzie mogli sobie pobrać wyniki danych włącznie z informacjami o tym czyje to było. Dosyć słynna sprawa. Teraz trochę o procesach krytycznych. Co to jest procedura krytyczna? Jak byście to zdefiniowali? Otóż według mnie to jest taka, w której błąd, duży błąd powoduje natychmiastowe i nieodwołalne straty. Także przyczynić się może do katastrofy. Takim przykładem jest hamowanie. Jest to operacja wysokiego ryzyka, w związku z tym kolej jest na to przygotowana już od wynalazku pana Westinghousa. A w latach dwudziestych było to bardzo dobrze dopracowane. Układ hamowców pociągu wygląda tak. W lokomotywie mamy sprężarkę. Jest to układ pneumatyczny. Dlaczego nie hydrauliczny? Odpowiedź, bo pneumatycznego nie trzeba odpowietrzać. Ona generuje ciśnienie w zbiorniku głównym i to ciśnienie posłuży do zahamowania wszystkich wagonów, w których ten hamulec jest sprawny. Ja muszę niestety trochę Państwu o technologii opowiedzieć, żebyście zrozumieli, na czym polegały następne błędy, bo tu będą trzy katastrofy, które były spowodowane właśnie niedopatrzeniem. Kolejarze bardzo dokładnie wiedzą, ile taki pociąg może zahamować masy i liczą, jaka jest masa hamująca, czyli ile ton może takie coś zatrzymać. To się nazywa masa hamująca pociągu i masa rzeczywista musi być mniejsza od masy hamującej, jak się to wyliczy. Takie kolejowe obliczenia, taki wewnętrzny żargon, ale to chodzi głównie o to, czy pociąg ma szansę się zatrzymać na oczekiwanym odstępie. Pytanie za dziesięć punktów. Jaka jest droga hamowania takiego pociągu, jak dzisiaj jechałem? Ja przyjechałem do Państwa dzisiaj, wsiadłem w stacji Warszawa Centralna w pociąg Pendolino, który jechał 55 metrów na sekundę, jaka jest droga hamowania? Siedem kilometrów, a trzy i pół przy hamowaniu nagłym? No coś w ten deseń. Z dwustu kilometrów. Z racji na olbrzymią ilość energii, którą trzeba rozproszyć. Wniosek. Hamulec musi być sprawny. Żeby kolejarz wiedział, maszynista, który to prowadzi, prowadzi się hamowanie kontrolne. Zauważcie, że kiedy pociąg rusza z pierwszej stacji, w której tam wsiedliście, po rozpędzeniu się tam kawałek, maszynista zawsze hamuje. To jest hamowanie kontrolne, które trzeba wykonać, żeby maszynista miał pewność, że hamulce działają poprawnie. Dobrze, to jak taki hamulec działa? Kiedy kran hamulca jest w położeniu do przodu, czyli pociąg nie hamuje, ciśnienie ze zbiornika głównego napełnia główny przewód hamulcowy. Po czym napełnia zbiornik pomocniczy w każdym wagonie i to powietrze jest tutaj rezerwą mechaniczną, która jest potrzebna. Gdy z kolei mamy hamować, to maszynista upuszcza trochę przewodu stąd i zawór rozrządczy powoduje skierowanie powietrza ze zbiornika do cylindrów i wagon hamuje. Zauważcie, że tutaj są zawory, które umożliwiają połączenie wagonów z lokomotywą następnego wagonu również. Co będzie, kiedy ktoś tych zaworów nie otworzy? Próba hamowania na początku może się nawet powieść, chociaż będzie hamował kiepsko. Będzie to. Otóż stara rzecz, do 70. roku takie katastrofy były dosyć częste, z czego kilkanaście z nich miało poważny skutek. Ja odbierałem stamtąd trzy najważniejsze, z których ta była pierwszą o takich efektach. Pociąg towarowy na stacji Płocka-Radziwie miał dołączone dwa wagony i procedura mówi, po każdym dołączeniu wagonów wyprost pięciu układów pneumatycznego należy przeprowadzić szczegółową próbę hamulca, czyli przejść wzdłuż i zobaczyć, które hamują, odhamować, zobaczyć, które są odhamowane. I dokument tego dostarczyć maszyniści. Tak mówi procedura. To nie było zrobione. Po czym ten pociąg wjechał na nachylenie trasy? Kto z Państwa wjeżdżał Starym Mostem do Płocka od strony Radziwia? No to tam redukować było do trójki, jak się jeździło polonezem. Nachylenie takie bardzo konkretne było. Aż dziewiętnaście promili. Po czym maszynista stwierdził, że na torze leżał zając. To on się zatrzymał, a tego zająca weźmie. Autentyk, tak napisał w zeznaniach. Zachamował, ale niestety miał zakręcone kurki, w związku z tym hamowała tylko lokomotywa i on się zatrzymał, z racji na duże nachylenie, po czym zaczynał zjeżdżać w dół tą, z tym samym torem. Z tego zbocza. Kierownik pociągu wysiadł i pobiegł z telefonem do słupa, żeby dać znać do Radziwia, że coś jest nie tak. Ale oni już wiedzieli, bo kiedy on zadzwonił, to już było po wszystkim. Pociąg się stoczył, osiągnął tutaj dobrze ponad 60 km na godzinę. A na stacji Płocka-Radziwie jest taki przepis, że jeżeli pociąg wyrusza na trasę, to zwrotnica się ustawia tak, że gdyby coś się cofnęło, to trafi na boczny tor. Okej, tylko tu się cofnął cały pociąg i zniszczyło przy okazji dom. I parę jeszcze innych rzeczy. Olbrzymie zniszczenia były. Podobne zdarzenie. Szczecin nie był szefa podczas manewrów oraz całkiem niedawno w Strzelcach Krajeńskich w Zwierzynie odczepili wagony z wyłączonym hamulcem od lokomotywy i wagony sobie zbiegły. Następny też przypadek z Zagnańska z 1969 roku. Też było wysokie nachylenie trasy tutaj i maszynista miał zakręcone kurki hamulca, co potem ustalono, ale nie udało się tego na 100% udowodnić. Natomiast kolejarze w wyniku wielokrotnych prób stwierdzili, że tak musiało być. Przed czym przerżnął, czyli przejechał koło semafora wskazującego czerwony sygnał i wpakował się prosto na pociąg pospieszny, który jechał sprzeciwka. Na tyle skutecznie, że sporo ludzi zginęło. I tak dzięki temu, że kierownik pociągu miał głowę na karku, to przynajmniej zablokowali ruch w przeciwną stronę, żeby jadący następny pociąg pospieszny w to nie wjechał. Wielki plus był dla tych ludzi. Następna rzecz też związana z hamulcami. To są góry i jedzie sobie pociąg z Suchej Beskidzkiej do Żywca. Tą stronę. Taka elektryczka nazywana popularnie kiblem N57. Z racji na wrażenia zapachowe to jest jak najbardziej dobre określenie. I tenże maszynista na wysokości Pewi Wielkich, jest tutaj dosyć spory zjazd, ma problemy z hamowaniem. On wykonał hamowanie kontrolne i wie czego się może spodziewać. Teraz gdy hamuje stwierdzi, że nie ma hamowania. Coś jest nie tak. W związku z tym wywołuje przez radiotelefon dyżurną ze stacji Jeleśnia i mówi jej, że nie ma hamowania, zróbcie coś. W związku z tym pani z Jeleśni, pani Danuta, jeżeli dobrze pamiętam, tak miała na imię, mówi tak. Zamknąć wszystkie przejazdy tu, tu, tu i tu. Po czym w tą stronę już na odcinku jednotorowym jedzie pociąg i nic z tym nie można zrobić. Tak by się tylko wydawało. Otóż pani miała głowę na karku, wywołała przez radiotelefon mechanika tegoż pociągu i powiedziała mu, że z racji na wysokie nachylenie ten pociąg nie ma hamowania. W związku z tym ten ma się cofnąć i uciekać przed tym. I on to zrobił. Po czym... Uciekł na tyle, że tutaj przed mostem przyjął zderzenie przy różnicy prędkości 20 km na godzinę i zaczął hamować. Skutek był taki, że tylko dwie osoby były lekko ranne, w tym jeden maszynista. I to było dosyć sprawnie zrobione. Gdyby ta dyżurna ruchu tutaj nie podjęła takiej decyzji, to prawdopodobnie mielibyśmy kolejny otłoczen, albo jeszcze więcej, bo sporo ludzi było w tym pociągu pośpiesznym. Skończyło się tylko na drobnych potłuczeniach. Co było przyczyną? To nie było błędu maszynisty. Odpowiedź. Zastosowano tańsze klocki kompozytowe, które hamowały dobrze, dopóki było ciepło. Nie przetestowano tego w warunkach takiego mrozu, a wtedy było minus 15 stopni w tym miejscu. Takich badań nie przeprowadzono. Dobrze, to teraz jakie będą wnioski z tego zderzenia? Przyczyna. Albo było to niedbalstwo we wszystkich tych trzech przypadkach, albo niedostatecznie przetestowane podzespoły. Wprowadzono zmiany w przepisach, audyt dokumentów, wycofano kompozytowe klocki. Jakie są wnioski dla IT? Proszę Państwa, nigdy, nigdy nie testować na produkcji. Nigdy. Ja wiem, że testy na prodzie są zawsze w modzie, ale nie. I nie ma tego złego, co by na produkcję nie wyszło. Proszę Państwa, nie. O QA będzie następny slajd. Zanim wypuścicie coś na produkcję, trzeba to przetestować, to najlepiej na dwóch etapach. Najpierw na QA, a potem na preprodzie. I żeby było więcej, to środowisko preprodukcyjne, testowe, musi być identyczne ze środowiskiem produkcyjnym. Kto z Państwa ma to zaimplementowane? Chociaż trochę. Dobrze, kto ma osobne środowisko QA i preprod? Dwie, trzy osoby widzę. No to trochę trzeba będzie poprawić. Cztery osoby jeszcze tam były. Widać ściśle procedury. Nie ma CR-ki bez RM-ki. RM Risk Management. To się może u Was inaczej nazywać. Natomiast coś takiego. Kto z Państwa ma to wdrożone? Że do tiketu przez zmianę na produkcję musi być zrobiona arkusz z zarządzaniem ryzykiem. No to tu jest jedna osoba. Okej, dwie. Przykład problemu. Wyciek danych obywateli Ekwadoru. To była zmiana zrobiona na produkcji. I została. Ludzie sobie wyciągnęli wszystkie dane, z tym, którzy starali się o azyl z panem Assangem. Dobrze. Jak robić nie wolno? Pamiętacie, jak działa hamulec? Odłączenie jednego z wagonów powoduje hamowanie wszystkich pozostałych, no bo powietrze uciekło nam z przewodu. W związku z tym jechał sobie pociąg stąd i z nieznanych bliżej powodów, awaria techniczna, ale tak przypuszczamy, kilka wagonów zostało na szlaku. Wtedy był okrutny bałagan związany ze sygnałami końcowymi pociągu, bo normalnie każdy dyżurny ruchu tu i tu stwierdzał, że pociąg dojechał w całości. W związku z tym ten dyżurny stąd powiedział temu, a ten stwierdził, tak widziałem, za krytym był jeden nieczynny sygnał. Wtedy to się zdarzało. Nawet gałęzie wkładali i szmaty przywiązane na ostatnim wagonie, żeby było widać, czy cały pociąg przejechał. Wstęp w tym, że urwało się dokładnie tak, czyli taki zestaw kryty, platforma i stary sygnał końcowy był na początku i w środku i urwało się właśnie w środku, w tym miejscu. I na to najechał pociąg pospieszny. Stąd okrutna katastrofa. I to nie było pierwsze, ponieważ takie zdarzenia były również wcześniej. Co zrobiono? Po takim najechaniu stwierdzono, że przede wszystkim to była niedbałość, totalne niedbalstwo, lekceważenie wszelkich procedur i to się ciągnęło przez całe lata. Wprowadzono sygnał alarm, dzięki czemu maszynista może zasygnalizować innemu pociągowi za pomocą syreny oraz odpowiedniego układu świateł i przepisali oznakowanie końca pociągu do lokomotywy. I wprowadzono elektroniczny licznik osi. To była pierwsza automatyzacja sensowna bezpieczeństwa prowadzona w PRL-u, która umożliwiła zweryfikowanie działań dyżurnych, czy wszystkie wagony przejechały. Był licznik osi, który liczał, ile przejechało. Można było sprawdzić, czy na pewno przejechały wszystkie. Wnioski dla IT. Powinniście się upewnić, czy aby na pewno wszystkie wymagania są spełnione na każdym etapie przed wdrożeniem. Czyli jeżeli przechodzicie na następnego kroku, na przykład przygotowujecie template, który będzie uruchamiany na produkcji na chmurce, to musicie mieć pewność, że wszystkie warunki do tego template'u są gotowe, czy availability zone jest przygotowana, czy wszystkie strefy bezpieczeństwa dla poszczególnych maszyn są przygotowane, jak są skonfigurowane reguły na firewallach, czy jest tam firewall przygotowany, czy on ma reguły spójne z pozostałymi rzeczami. To wszystko powinno być z uruchomieniem procesu deployment'u, zanim pociąg wjedzie na następny odcinek, bo potem będzie już za późno. Powinniście przygotowywać kryteria sukcesu dla każdego z tych badań. I mało tego, nie tylko te badania zrobić, ale także wyniki tych badań załączyć do CR'ki. Od razu podpowiem, przy sensownie zrobionych arkuszach risk management to bardzo obniża ryzyko, bardzo obniża impakt oraz podatność. Trzeba przygotować się do możliwości wycofania zmiany, do badań z nich. Pamiętacie, przy trencie w managmencie jest taki moment, kiedy my możemy te zmiany jeszcze wycofać. W związku z tym należy obnieść przygotowane badania i wyniki, które mówią, ta zmiana, jeżeli to nie będzie zachowane, będzie porażką. Wycofujemy się z tej zmiany do poprzednio przygotowanego stanu. Czyli na przykład przywracamy poprzednią migawkę maszyny wirtualnej. To powinno być gotowe. Gdyby to było spełnione w przypadku kolejowym, to pociąg pospieszny byłby zatrzymany na poprzedniej stacji i by sobie poczekał, aż ktoś w końcu zrobi porządek z tymi pozostałymi wagonami, albo byłby puszczony po drugim torze, jeżeli jest taka techniczna możliwość. I powinniśmy mieć procedury na wypadki nadzwyczajne. Na przykład ktoś jednak coś tam puścił. No to co? Użyjemy kill switcha na przykład. Położymy część rzeczy. I każde operacje na systemie produkcyjnym, na QA najpierw sprawdzić, a na preprodzie przetestować, jak będzie wyrażone na produkcji. Teraz trochę trudniejsza rzecz, techniczna, związana z sygnalizacją. Droga hamowania jest dosyć długa, w związku z tym maszynista musi wiedzieć z pewnym wyprzedzeniem. To nie jest tak, że maszynista mówi o, tu jest czerwone światło. Nie. On wie, że to światło czerwone tam jest. To się nazywa sygnał S1. I on wie, że tam ona na niego czeka. W związku z tym on zaczyna hamować odpowiednio wcześniej. I do tego służy system sygnalizacji, który na przykład na centralnej magistrali kolejowej, to jest ten przypadek, to się nazywa samoczynna blokada liniowa. Jak pociąg podróżuje wzdłuż, to on widzi, jak jeden już sobie pojechał, jest na tym odcinku, to odcinek przedtem pokazuje się żółty, czyli tu będzie sygnał stój, tu należy zwolnić, a tutaj masz jeszcze trochę miejsca, odstępy blokowe. Te odstępy blokowe są zrobione w odległości hamowania, w związku z tym on zawsze zdąży zahamować. I to nie jest tak, że maszynista nagle mu wyrasta czerwone światło. On o tym wie z dosyć dużym wyprzedzeniem. Tam, gdzie nie ma blokady samoczynnej, stosuje się blokadę półsamoczynną, która sama wraca do poprzedniego działania, ale musi być ustawiona przez człowieka ręcznie. I sygnały na semaforze wybrałem dwa. Górny mówi, co będzie na następnym, a dolne światło mówi, co jest obowiązujące od tego semafora. Dobrze, to co będzie, kiedy maszynista z lekceważy taki sygnał? Będzie to. Tylko najpierw powiem wam jeszcze, co jest złego w tej fotce? Gdyby wszystko dobrze, maszynista albo ktoś, kto próbuje nim być, Marcin Marciniak, trzyma rękę na kranie hamulca, drugą na nastawniku i skończył próbę hamulca, zwalnia ją właśnie i będzie za chwilę ruszał pociągiem. Co jest w tym takiego złego? Jak myślicie? Ta osoba nie ma uprawnień. Brawo! Brawo! Ta osoba nie ma uprawnień. I prawdopodobnie to było przyczyną takiej katastrofy. Miejscowość Baby. Pociąg z Warszawy Wschodniej do Katowic. Jechał i z samoczynnej blokady liniowej maszynista musiał wiedzieć, że tutaj będzie sygnał, o tu, który mu każe zwolnić do 40 km na godzinę. Bo tam był rozjazd i była zmiana toru. Nie wszystkie rozjazdy umożliwiają jazdę z dużą prędkością. Kiedy będzie zmiana toru, zwolnienie jest po prostu niezbędne, bo to wynika z praw fizyki. Tej masy nie da się tak szybko przestawić z boku. Maszynista wjechał w ten rozjazd tutaj z prędkością 113 km na godzinę zamiast 40. I taki był tego skutek. Przejechał przez pierwszy z rozjazdów i tutaj ta masa była już tak duża, siły były tak duże, że w niezwykle dynamiczny sposób wykolejone były wagony, które po prostu leżały sobie z boku na tym i olbrzymie zniszczenia. Dużo ludzi zginęło. Jakie były przyczyny? Maszynista te sygnały zignorował i nie zwolnił do 40 km na godzinę. Wiadomo na pewno, że miał rozproszoną uwagę, no bo to nie ma takiej możliwości, żeby normalnie prowadzący maszynista zlekceważył taki sygnał. Po prostu nie było takiej opcji. A on odpowiedział przez radiostację o chyba semafora nie przyuważyłem. Tak jest to zapisane w raporcie. Może była tam osoba trzecia w kabinie i jest to bardzo prawdopodobne, chociaż nikt się do tego nie przyznaje. Najważniejszy wniosek. Wprowadzono dodatkowe szkolenia i wprowadzono rejestrator audio i rejestrator wideo. Ten proces rozpoczęto i we wszystkich lokomotywach PKP InterCity jest kamera, która nagrywa to, co widać przez szybę oraz dźwięki, które są w kabinie. I taki rejestrator tam jest i tak samo jak taśma z nieszczęsnego haslera, o którym wspominałem przed chwilą, tego prędkościowiazda rejestrującego. Takie informacje się zdaje po zakończeniu służby. One tam są. Przyspieszono wdrożenie ETCS, czyli systemu elektronicznego zarządzania ruchem kolejowym na Centralnej Magistrali Kolejowej. I teraz maszynista Pendolino, który prowadził dzisiejszy pociąg, on wiedział na wskaźniku, kiedy ma zacząć hamować i z jakim skutecznością, żeby w tym miejscu mieć te 40 km na godzinę, które tam jest z powodu remontów. No bo remonty się zdarzają. Jakie są wnioski dla IT? Wprowadźcie automatyzację reakcji na błędy. I jeżeli to będzie incydent bezpieczeństwa, to niech on będzie przetworzony szybko. Kto z Państwa ma Security Operations Center? Albo przynajmniej korzysta z niego. Jedna osoba, dwie, trzy, cztery. Dobrze. Czy spływają tam informacje z incydentów takich właśnie, jak wystawienie maszyny na produkcję? Powinny. Sprawdźcie to. Wygenerujcie testowo taki alert. Czy to rzeczywiście jest prawda? Przy pracach wysokiego ryzyka. Praca wysokiego ryzyka, na przykład zmiana konfiguracji głównego firewalla. Pracujemy na dwie ręce. Wykonujemy systemy klasy Privilege Access Management, które ograniczają dostęp dla innych, z wyjątkiem administratorów, którzy rzeczywiście ten dostęp mają mieć. Rejestrujemy te nagrania. Ewentualnie decyzje związane stąd możemy jeszcze odłożyć w czasie. Na przykład przygotowujemy skrypty. Master of Puppets. Była taka płyta, prawda? Była, zdecydowanie. Jest takie narzędzie, które nazywa się Puppet. W chmurze, znane. Skrypty do Puppeta przepuszczane przez CR-kę i wykonujemy za pomocą systemów klasy PAM, żeby mieć zarejestrowane, co naprawdę było podłożone i w jaki sposób, jakie są wyniki stamtąd. Kto z Państwa to robi? Ręka do góry. Trochę widzę powodów do tego, żeby jednak poprawić tę procedurę, prawda? Wymagamy testów przed działaniem na produkcji. Ja się ciągle powtarzam, ale to tak właśnie. Plus wymagamy informowania o zmianach. Gdyby ten maszynista wcześniej wiedział przez radiotelefon na przykład albo za pomocą innego sygnału, że będzie zmiana toru, to oprócz tych wskaźników by być może wiedział, że naprawdę musi zwolnić. To może trzeba informować ludzi o zmianach. Przykład problemu? Włamanie do rosyjskiego banku w lipcu ubiegłego roku. Oni wiedzieli, że takie coś się może zdarzyć, ale nikt nie zareagował, bo ludzie z lekceważyli część swoich obowiązków. I teraz najgorsza w sumie jest katastrof, o których... Ile mam czasu jeszcze? Dobrze, to akurat. I to jest najtrudniejszy z przypadków, o którym do tej pory mówiłem. To jest nastawnia poznań wola, na której dyżurny ruchu ustawia zwrotnicę. Tak on to robi. Zgodnie z zapisem w kartach przebiegu, które są tu, on mówi, że jak pociąg ma jechać stąd tutaj, to należy przestawić te dźwignie w to położenie, te dźwignie w to położenie, te dźwignie do góry żeby uzyskać pozwolenie i dopiero wtedy można podać sygnał na sanaforze. Tak działa system kierowania ruchem. W niektórych miejscach on jeszcze nastawniczy. Musi wyjść, wziąć klucz z takiej szafki albo z takiej szafki, włożyć klucz w gniazdo tutaj i ręcznie przełożyć bambułę, czyli ten ciężar taki, żeby przestawić zwrotnicę. I dopiero wtedy będzie można wydać, podać sygnał, że pociąg może jechać. Po czym? To jest autentyczny semafor kształtowy ze stacji Poznań Wola. Ostatnia stacja, która nie jest zmodernizowana na trasie Poznań-Szczecin. Akurat pracowałem w firmie, która była w Poznaniu i dosyć często nocowałem w hoteliku, który był blisko tej stacji, więc miałem okazję tam pójść zobaczyć i zrobić zdjęcia. Tak to wyglądało jeszcze parę lat temu. Dlaczego o tym mówię? Otóż w pewnym momencie przychodzi modernizacja czegoś takiego i ludzie, którzy są przyzwyczajeni do systemów działających tak, którzy znają to przez wiele lat, bo są to ludzie, którzy tam wiele lat pracują. Każdy z dyżurnych ruchów musi mieć autoryzację na daną stację i zdane odpowiednie egzaminy. I nagle dostaję to. OK, tu ma dziennik papierowy, który się przenosi na dziennik elektroniczny. Nawet dobrze, bo prościej się to wyszukuje. Tu jest OK. Tu jest system komunikacji, który mówi co zostało zrobione, co zostało zrobione, odpowiednikiem jest taki arkusz, który tutaj sobie leży. To jest OK. Natomiast różnica jest na tym. To jest system elektroniczny, który kieruje ustawieniem poszczególnych elementów, czyli wszystkich zwrotnic i sygnałów. I to dostał dyżurny ruchu, dostała pani w miejscowości Sprowa. Największa katastrofa tego typu. 2012 rok, Szczekociny. Był prowadzony remont systemów kierowania ruchem. Zamiast systemów mechanicznych wprowadzono systemy elektryczne, a w jednej z tych był już system elektryczny i był sterowany z pulpitu kostkowego. Pulpit kostkowy to jest taka makieta stacji, na której są lampki, które pokazują położenie poszczególnych zwrotnic oraz informacje o tym, gdzie stoją wagony, ile ich jest i jaka droga jest ustawiona. Czyli taki dyżurny ruch ustawia poszczególne przełączniki w odpowiedniej pozycji. One się tak dziwnie nazywają DPOW na przykład. Mają położenie minus i plus. Taka wewnętrzna terminologia. Oni muszą to ustawić, a na końcu zatwierdzają taki przejazd w uzgodnieniu z następną stacją, że mogą przyjąć albo wysłać taki pociąg. Tu był remont, w związku z tym część z tych rzeczy musiała być ominięta i nastawy zwrotnic były robione z pulpitu kostkowego, natomiast sygnały były podawane za pomocą sygnału zastępczego. Kolej ma bardzo mocno rozwiązany dział ciągłości działania i każdy z tych, nawet jeżeli jest czerwone światło, czyli sygnał S1, można go zamienić na sygnał zastępczy za pomocą białego światła, który się włącza i on odpowiednio miga. Prowadzono te remonty i wprowadzono wyjazdy na sygnały zastępcze. I to jakoś tam działało, bo były do tego odpowiednie procedury, dopóki były i ludzie wiedzieli, co naprawdę robią. Niestety to się tutaj nie udało z powodu błędu technicznego i niedopatrzenia tych dyżurnych wyprawiono dwa pociągi na ten sam tor. Przy okazji jeszcze było, że maszyniści zlekceważyli jeden z tych znaków, ale to też miało znaczenie, ale nie aż takie duże. I pierwszy przypadek, w którym sygnał zastępczy, czyli ominięcie narzędzi zarządzania ruchem spowodowało katastrofę, ponieważ podobne zdarzenie było w 67 roku na stacji Wojanów, w którym wystawiono sygnał zastępczy, pojechał parowóz, z drugiej strony jechał drugi, obydwa się zderzyły, też trochę ludzi zginęło niestety. A ja twierdzę, że przyczyną nie była awaria i przyczyną nie było to, że nie była sama modernizacja. Przyczyną było niedoszkolenie personelu. To jest autentyczny zapis dokumentu PKB WK. Ty, ja tę strzałkę mam na popielato. Na popielato to znaczy, że droga jest przygotowana do utwierdzenia. Na popielato masz, a ja mam na czerwono, bo ja użyłem DPO. To jest jeden z przycisków od zwrotnic. No jak to? To się robi? No ja już mu podaję. No to mu podaj. Podaj mu sygnał zastępczy. Oni tutaj się dogadali, że mogą wyprawić pociąg w tą stronę. Ty, ale ja nie mam, że on wyjechał od ciebie. System nie podał informacji, że tor już jest zajęty, a powinien. Na pulpicie kostkowej zmienia się barwa kreski. Bo ja użyłem DPO2L, jechałem na zastępczy, to nie wiem, WBL się do tego wbijanie. Coś tu państwu mówi? Tak. Mówi, brak doświadczenia. Ci ludzie nie wiedzieli, co tak naprawdę robią. A teraz, no. Ale u mnie i T2S, czyli ten druga, po drugiej stronie stacji, był zajęty. Ale jakby w ogóle od ciebie nie ruszył ten pociąg. Ty, a może oni znowu coś zepsuli? Nikt tego nie wie. No, zobaczymy. No to zobaczyli. Co tak naprawdę się stało? Otóż pociąg, który jechał stąd, od PSAR, miał podany sygnał zastępczy tutaj. Rzecz w tym, że sygnał, oprócz tego sygnału zastępczego, jest takie coś jak wskaźnik W24. To się może zapalić albo nie. To jest taka lampka, taki sygnał, który mówi, że pociąg będzie jechał po torze lewym, czyli przeciwnym do tego zasadniczego, po którym się powinien poruszać. Kolejarze robią takie rzeczy, kiedy na przykład jest remont albo z jakichś tam powodów puszcza się to drugim torem. Wtedy trzeba zapalić wskaźnik W24. Jeżeli tego nie można zrobić, to podaje się rozkaz szczególny M. Dyktuje się go przez radio albo dostarcza w formie pisemnej. Tutaj był podany sygnał zastępczy, bez tego wskaźnika, ponieważ pociąg miał pojechać torem prawym, przepraszam, o tu, zasadniczym. Tutaj było dobrze. Też w tym, że po sterunku od granic Starzyny była uszkodzona zwrotnica i dyżurny ruchu te zwrotnice chciał ustawić tak jak powinien, w tą stronę, ale z jakichś powodów urządzenie mechaniczne nie zadziałało. I była do tego blokada mechaniczna, którą się wprowadza, nazywana sponą. Do tego potrzebny jest klucz, to trzeba zamknąć, wtedy ręcznie ustawiamy zwrotnicę na taki kierunek. Gdyby oni to zrobili poprawnie, być może prawdopodobieństwo katastrofy byłoby mniejsze, bo oni by się zorientowali, że coś jest nie tak. Ten pociąg przejechał przez nie do końca złożoną zwrotnicę i ją rozpróczył i przejechał na wprost, niszcząc kawałek tej zwrotnicy. Taki element, który tam wyskakuje. I ten pociąg pojechał na wprost, a dyżurni ruchu tego nie wiedzieli. Z kolei z drugiej strony wyprowadzono pociąg na tor zasadniczy po remoncie, bo ten był zamknięty, z włączonym wskaźnikiem W24, czyli mówiąc, że ten pociąg ma pojechać tędy. Ewidentnie dyżurni się nie dogadali, ewidentnie wskaźniki były ustawione źle. Gdyby ten maszynista się zorientował, to prawdopodobnie wcisnął przycisk alarm i katastrofy by nie było. Ale winę ponoszą dyżurni ruchu, bo nie powinni w ogóle czegoś takiego podać. Co z tego było? No to zobaczyli, co było. Jakie były zdarzenia? Przede wszystkim przyczyna to była awaria rozjazdu, ale totalna nieznajomość systemów przez dyżurnego, niewłaściwa reakcja dyżurnego. Czy ci dyżurni ruchu, gdyby oni stwierdzili, że no nie wiemy, co oni tam znowu, ktoś tam nam zepsuł i nikt nie wie. Jaka powinna być, proszę Państwa, reakcja w takim przypadku? Stop, tak jest. Użyć przycisku alarm, który by zatrzymał obydwa pociągi za pomocą radiostopu, który jest sprawdzany przed każdym wyjazdem lokomotywy. Oni tego nie zrobili, ponieważ byli przekonani o tym, że robią to dobrze. Ale nie do końca. Maszyniści nie zareagowali na ten wskaźnik, o którym mówiłem i najważniejszy wniosek, były zmiany w procedurach. Zakazano stosowania sygnałów zastępczych przy remontach i nakazano zwolnienie do 20 km na godzinę, kiedy jedziemy na sygnał zastępczy. A na tych stacjach wprowadzono telefoniczne zapowiadanie pociągów. To jest osobna zmiana oświetlenia, żeby maszynista się zorientował, że ten po drugiej stronie jedzie tym samym torem. Katastrofę nie da się uniknąć, ale można zmniejszyć jej skutki, gdyby przynajmniej jeden z nich zahamował, no bo to jest masa razy suma prędkości do kwadratu. Więc jeżeli zmniejszymy prędkość jednego, to skutki być może będą mniejsze. Jakie są wnioski dla IT? Proszę Państwa, kiedy migrujemy coś do chmury albo do nowego rozwiązania, należy na pewno zapewnić odpowiednie szkolenia, żeby ci ludzie wiedzieli, co oni naprawdę robią. Kto pierwszy raz w życiu do niedawna może spotykał się z jakimś nowym narzędziem? Ciągle się spotykamy, dobrze. Czy potrafilibyście wykonać najważniejsze rzeczy na produkcji po pierwszym spojrzeniu na to? No nie da się, prawda? Całkiem niedawno miałem okazję zobaczyć, jak wygląda mina osoby, która pierwszy raz siada przed konsolą AWS-ową albo ażura i ma coś wykonać. Bez szkolenia to jest trochę trudne, żeby to zrobić poprawnie. Kiedy robimy migrację do nowych narzędzi, to stosujmy narzędzia bezpieczeństwa właściwe dla tej technologii. Zatem jeżeli migrujemy jakieś aplikacje do chmury w ten czy inny sposób, to stosujmy chmurowe narzędzia bezpieczeństwa, które rozumieją to, w jaki sposób zachowuje się maszyna wirtualna w chmurze, bo ona się zachowuje inaczej. Kiedy Państwo macie na produkcji podłączone maszyny wirtualne, to one mają jakieś swoje wilany, na które są dołączone, tam jest firewall, my nad tym w jakiś sposób planujemy, a w chmurze niekoniecznie tak jest, ponieważ te maszyny mogą być uruchomione w różnych strefach niedostępności, w różnych availability zone, z różnymi ustawieniami firewalli po jednej i po drugiej stronie. Jeżeli tego się nie pilnuje i nie stosuje się narzędzi, które potrafiłyby to zrobić, to możemy mieć duży problem. I to jest właśnie taki przypadek, kiedy robimy migrację za pomocą narzędzi, których ludzie nie rozumieją. Kiedy obchodzimy zabezpieczenia tylko według instrukcji i to też tylko w wyjątkowych przypadkach, to jest ten przykład sygnału zastępczego, kiedy my musimy podnieść coś, żeby wykonać jakieś operacje. Taka zmiana, powiedzmy to się nazywa emergency change, czyli zmiana na żądanie w wyjątkowych przypadkach. W razie błędu użyjemy kill switcha. Przynajmniej skutki będą mniejsze. I ostatni i w sumie bardzo ważny również punkt. Wprowadzimy automatyzację reakcji na ludzkie błędy, czyli narzędzie, które sprawdzi, że na przykład na AWS czy Azure wystawiono maszynę, która jest nieprawidłowo skonfigurowana i na przykład jest otwarta na świat, bo przedu nie ma żadnego firewalla. Ktoś to zrobił, nieistotne w tym momencie kto. Natomiast wiemy, że coś z tym trzeba będzie zrobić. Są takie narzędzia, które potrafią to zrobić. I tym optymistycznym akcentem przechodzę do rzeczy bardzo ważnej jeszcze dla Państwa. Kto z Państwa korzysta z podwykonawców? Jak macie zrobione procedury do współpracy z podwykonawcami? Czy przewidujecie na przykład wprowadzenie zmian takich jak Emergency Change i w jaki sposób one będą wykonywane? Jak są przekazywane informacje? Jakie są procedury do komunikacji z tym podwykonawcą i zwrotu informacji od niego? Na przykład jak testy są przeprowadzane? Kto przeprowadza testy? Ten sam podwykonawca czy może inny? A może dobrze by było, żeby ktoś to jeszcze zobaczył. Czy wykonawca stosuje te same procedury co Wy? Pamiętajcie o tym, ponieważ w tym przypadku częściowo winę za szczekociny ponosi ten, kto wdrażał system kierowania ruchem, bo nie przeszkolił dyżurnych ruchów w starzenie i w sprowej. Tak było? To teraz przełóżcie proszę te lekcje na typowe wdrożenie chmurowe, z którymi się wielokrotnie spotykacie. Tu są nowe narzędzia, których trzeba ludzi nauczyć, inne zasady działania no i żebyśmy kolejnych szczekocin chmurowych nie mieli. Dziękuję bardzo.

Menu

Czego informatyka może nauczyć się od kolei? Analiza katastrof (film 44 minuty)

Toggle timeline summary

Transcription