Przejdź do treści

DR NORBERT KAPIŃSKI
INTERDYSCYPLINARNE CENTRUM MODELOWANIA MATEMATYCZNEGO I KOMPUTEROWEGO
UNIWERSYTET WARSZAWSKI

DR NORBERT KARPIŃSKI
INTERDYSCYPLINARNE CENTRUM MODELOWANIA MATEMATYCZNEGO I KOMPUTEROWEGO
UNIWERSYTET WARSZAWSKI

Predykcja śmiertelności i detekcja patologii w obrazowych badaniach przesiewowych klatki piersiowej z wykorzystaniem technik głębokiego uczenia maszynowego

CEL PROJEKTU

Problem

Projekt dotyczy wykorzystania technik sztucznej inteligencji, w tym metod głębokiego uczenia maszynowego, do analizy obrazów medycznych RTG i niskodawkowej tomografii komputerowej, pochodzących z badań przesiewowych pod kątem wczesnego wykrywania zmian patologicznych i predykcji ryzyka zgonu.   

Cel projektu

Celem projektu jest wykazanie, że z pomocą technik wyjaśnialnej sztucznej inteligencji (Trustworthy AI) zastosowanej do analizy obrazów medycznych w badaniach przesiewowych możliwe jest wczesne wykrywanie zmian patologicznych oraz ocena ryzyka zgonu. Główne zadania projektu obejmują opracowanie i walidację modeli sztucznej inteligencji realizujących powyższe zadania oraz opracowanie metod wyjaśnialności rezultatów modelu, w szczególności w zakresie wpływu nisko- i wysokopoziomowej informacji obrazowej.

ZADANIA DLA SUPERKOMPUTERA

01.

Podstawową technologią obliczeniową dla metod głębokiego uczenia maszynowego, w szczególności w zakresie konwolucyjnych sieci neuronowych (CNN), są tzw. obliczenia tensorowe. Jedną z najbardziej wydajnych architektur realizujących takie obliczenia są procesory graficzne (GPU). Ze względu na liczebność i rozmiary danych, rozmiary modeli oraz konieczność iteracyjnej pracy w zakresie wielu epok obliczeń, rozwiązania klasy superkomputerowej najlepiej nadają się do realizacji tego typu projektów, zapewniając moc obliczeniową procesorów GPU, duże zasoby pamięci operacyjnej hosta oraz GPU, a także szybki dostęp do składowanych zasobów danych i metadanych.

02.

Zagadnienia badane przy użyciu technik sztucznej inteligencji wymagają dużych ilości zbiorów danych i metadanych (np. etykiety) do treningu i walidacji – często rzędu dziesiątek, a nawet setek tysięcy obrazów i rekordów powiązanych. W przypadku medycznych danych obrazowych pochodzących z obrazowania 3D (np. tomografii komputerowej) pojedynczą próbką danych jest zazwyczaj całe badanie obrazowe (tzw. seria) o rozmiarze rzędu 100 MB (np. 200 obrazów 2D 512x512x2B). Zbiór treningowy obejmujący kilkadziesiąt tysięcy badań to zasoby danych na poziomie kilku–kilkunastu TB, a proces trenowania modelu wymaga wielokrotnego wykorzystania pełnego zbioru. Ponadto metadane, a w szczególności etykiety, są często przypisywane na poziomie pojedynczych przekrojów lub pojedynczych pikseli badania obrazowego, co wymaga odpowiednich zasobów bazodanowych do wydajnego składowania i przeszukiwania zasobów metadanych o liczebności o kilka rzędów wielkości większej niż liczebność samych badań.

KORZYŚCI ZE WSPÓŁPRACY Z ICM UW

Podjęte w projekcie zadanie analizy badań przesiewowych klatki piersiowej oparte zostało o zasoby danych obejmujące 90 000 serii obrazowych tomografii komputerowej. Ze względu na rozmiar danych oraz złożoność trenowanego modelu zagadnienie wymagało rozwiązania następujących problemów: wydajnego zarządzania metadanymi na poziomie pojedynczych obrazów (18 mln) dla planowania eksperymentów, wydajnego dostępu do zbiorów danych, wydajnych obliczeń oraz dużej pamięci GPU mieszczącej model i odpowiednią liczbę próbek danych (tzw. batch).

Przy użyciu zasobów Centrum zrealizowano wszystkie opisane powyżej komponenty procesu trenowania modeli. Z wykorzystaniem szybkich zasobów danych (SSD/NVME) oraz baz danych w pamięci (IMDB) przygotowano dedykowane rozwiązanie integrujące bazę danych z systemem składowania obrazów medycznych (PACS) do zarządzania metadanymi i adresację danych obrazowych.

Do obliczeń wykorzystano klaster Rysy oparty o karty GPU NVIDIA V100 32GB, zapewniając wysoką wydajność obliczeń i duży zasób pamięci modelu. Obliczenia były realizowane w języku Python w środowisku TensorFlow.

Ze względu na dużą intensywność dostępu do danych (wysoki współczynnik odczytu danych w stosunku do czasu obliczeń) oraz duży rozmiar zbioru treningowego i walidacyjnego konieczne było zapewnienie dostępu do danych z poziomu systemu obliczeniowego GPU w modelu hierarchicznym.

Dane składowane były całościowo w systemie plików Lustre (Tetyda) oraz asynchronicznie alokowane na szybkich zasobach lokalnych (SSD/NVME) klastra obliczeniowego.

Dzięki zastosowaniu infrastruktury HPC:

  • umożliwiono proces treningu modeli o większej złożoności przy wyższych wartościach batch-size;

  • zredukowano czas odpowiedzi bazy metadanych o kilka rzędów wielkości;

  • zredukowano czas dostępu do danych o kilka rzędów wielkości.

Realizacja obliczeń założonych w projekcie w modelu wielokrotnych eksperymentów stała się realistyczna czasowo jedynie dzięki powyższym usprawnieniom infrastrukturalnym.

90 000

SERII OBRAZOWYCH

18 mln

POJEDYNCZYCH OBRAZÓW

EFEKTY

Możliwe jest wykorzystanie wyników projektu w praktyce i przyszłe wdrożenie do
zastosowań klinicznych pod warunkiem rozszerzenia walidacji, wykazania
wiarygodności rezultatów i osadzenia w mierzalnych korzyściach klinicznych w zakresie
badań przesiewowych klatki piersiowej, ze szczególnym uwzględnieniem badań
przesiewowych raka płuc.

Informacja dotycząca plików cookies

Serwis Narodowego Centrum Kompetencji HPC używa plików cookies (ciasteczek od ang. cookie – ciastko), czyli informacji zapisywanych na urządzeniach użytkowników w formie małych plików tekstowych. Dane te potwierdzają, że użytkownik odwiedził stronę internetową i pozwalają rozpoznawać jego urządzenie oraz dostosować kolejne wyświetlenia strony do jego preferencji. Pliki cookies używane przez serwis NCK nie przechowują żadnych danych osobowych użytkowników ani informacji, które pomogłyby ich zidentyfikować, rozpoznają jedynie przeglądarkę konkretnego urządzenia.

Ciasteczka są niezbędne do prawidłowego funkcjonowania serwisu, pomagają dostosować zawartość strony do preferencji użytkownika. Dostarczają danych statystycznych dotyczących ruchu na stronie.
Więcej o tym, czym są pliki cookies, można przeczytać na stronie: https://wszystkoociasteczkach.pl/

Strony internetowe (serwis NCK także) domyślnie dopuszczają zapisywanie plików cookies, co można zmienić w każdej chwili tak, aby zablokować automatyczne dodawanie ciasteczek, albo każdorazowo informować o ich przesłaniu. Należy pamiętać, że wyłączenie możliwości zapisywania plików cookies może zaburzać niektóre funkcje strony lub uniemożliwić korzystanie z części usług.

Skip to content