ICM projekt 1 – Euro HPC

DR NORBERT KAPIŃSKI
INTERDYSCYPLINARNE CENTRUM MODELOWANIA MATEMATYCZNEGO I KOMPUTEROWEGO
UNIWERSYTET WARSZAWSKI

DR NORBERT KARPIŃSKI
INTERDYSCYPLINARNE CENTRUM MODELOWANIA MATEMATYCZNEGO I KOMPUTEROWEGO
UNIWERSYTET WARSZAWSKI

Predykcja śmiertelności i detekcja patologii w obrazowych badaniach przesiewowych klatki piersiowej z wykorzystaniem technik głębokiego uczenia maszynowego

CEL PROJEKTU

Problem

Projekt dotyczy wykorzystania technik sztucznej inteligencji, w tym metod głębokiego uczenia maszynowego, do analizy obrazów medycznych RTG i niskodawkowej tomografii komputerowej, pochodzących z badań przesiewowych pod kątem wczesnego wykrywania zmian patologicznych i predykcji ryzyka zgonu.

Cel projektu

Celem projektu jest wykazanie, że z pomocą technik wyjaśnialnej sztucznej inteligencji (Trustworthy AI) zastosowanej do analizy obrazów medycznych w badaniach przesiewowych możliwe jest wczesne wykrywanie zmian patologicznych oraz ocena ryzyka zgonu. Główne zadania projektu obejmują opracowanie i walidację modeli sztucznej inteligencji realizujących powyższe zadania oraz opracowanie metod wyjaśnialności rezultatów modelu, w szczególności w zakresie wpływu nisko- i wysokopoziomowej informacji obrazowej.

ZADANIA DLA SUPERKOMPUTERA

01.

Podstawową technologią obliczeniową dla metod głębokiego uczenia maszynowego, w szczególności w zakresie konwolucyjnych sieci neuronowych (CNN), są tzw. obliczenia tensorowe. Jedną z najbardziej wydajnych architektur realizujących takie obliczenia są procesory graficzne (GPU). Ze względu na liczebność i rozmiary danych, rozmiary modeli oraz konieczność iteracyjnej pracy w zakresie wielu epok obliczeń, rozwiązania klasy superkomputerowej najlepiej nadają się do realizacji tego typu projektów, zapewniając moc obliczeniową procesorów GPU, duże zasoby pamięci operacyjnej hosta oraz GPU, a także szybki dostęp do składowanych zasobów danych i metadanych.

02.

Zagadnienia badane przy użyciu technik sztucznej inteligencji wymagają dużych ilości zbiorów danych i metadanych (np. etykiety) do treningu i walidacji – często rzędu dziesiątek, a nawet setek tysięcy obrazów i rekordów powiązanych. W przypadku medycznych danych obrazowych pochodzących z obrazowania 3D (np. tomografii komputerowej) pojedynczą próbką danych jest zazwyczaj całe badanie obrazowe (tzw. seria) o rozmiarze rzędu 100 MB (np. 200 obrazów 2D 512x512x2B). Zbiór treningowy obejmujący kilkadziesiąt tysięcy badań to zasoby danych na poziomie kilku–kilkunastu TB, a proces trenowania modelu wymaga wielokrotnego wykorzystania pełnego zbioru. Ponadto metadane, a w szczególności etykiety, są często przypisywane na poziomie pojedynczych przekrojów lub pojedynczych pikseli badania obrazowego, co wymaga odpowiednich zasobów bazodanowych do wydajnego składowania i przeszukiwania zasobów metadanych o liczebności o kilka rzędów wielkości większej niż liczebność samych badań.

KORZYŚCI ZE WSPÓŁPRACY Z ICM UW

Podjęte w projekcie zadanie analizy badań przesiewowych klatki piersiowej oparte zostało o zasoby danych obejmujące 90 000 serii obrazowych tomografii komputerowej. Ze względu na rozmiar danych oraz złożoność trenowanego modelu zagadnienie wymagało rozwiązania następujących problemów: wydajnego zarządzania metadanymi na poziomie pojedynczych obrazów (18 mln) dla planowania eksperymentów, wydajnego dostępu do zbiorów danych, wydajnych obliczeń oraz dużej pamięci GPU mieszczącej model i odpowiednią liczbę próbek danych (tzw. batch).

Przy użyciu zasobów Centrum zrealizowano wszystkie opisane powyżej komponenty procesu trenowania modeli. Z wykorzystaniem szybkich zasobów danych (SSD/NVME) oraz baz danych w pamięci (IMDB) przygotowano dedykowane rozwiązanie integrujące bazę danych z systemem składowania obrazów medycznych (PACS) do zarządzania metadanymi i adresację danych obrazowych.

Do obliczeń wykorzystano klaster Rysy oparty o karty GPU NVIDIA V100 32GB, zapewniając wysoką wydajność obliczeń i duży zasób pamięci modelu. Obliczenia były realizowane w języku Python w środowisku TensorFlow.

Ze względu na dużą intensywność dostępu do danych (wysoki współczynnik odczytu danych w stosunku do czasu obliczeń) oraz duży rozmiar zbioru treningowego i walidacyjnego konieczne było zapewnienie dostępu do danych z poziomu systemu obliczeniowego GPU w modelu hierarchicznym.

Dane składowane były całościowo w systemie plików Lustre (Tetyda) oraz asynchronicznie alokowane na szybkich zasobach lokalnych (SSD/NVME) klastra obliczeniowego.

Dzięki zastosowaniu infrastruktury HPC:

umożliwiono proces treningu modeli o większej złożoności przy wyższych wartościach batch-size;
zredukowano czas odpowiedzi bazy metadanych o kilka rzędów wielkości;
zredukowano czas dostępu do danych o kilka rzędów wielkości.

Realizacja obliczeń założonych w projekcie w modelu wielokrotnych eksperymentów stała się realistyczna czasowo jedynie dzięki powyższym usprawnieniom infrastrukturalnym.

90 000

SERII OBRAZOWYCH

18 mln

POJEDYNCZYCH OBRAZÓW

EFEKTY

Możliwe jest wykorzystanie wyników projektu w praktyce i przyszłe wdrożenie do
zastosowań klinicznych pod warunkiem rozszerzenia walidacji, wykazania
wiarygodności rezultatów i osadzenia w mierzalnych korzyściach klinicznych w zakresie
badań przesiewowych klatki piersiowej, ze szczególnym uwzględnieniem badań
przesiewowych raka płuc.