Materiał powstał podczas Research@ Poland

Narzędzie Med-PaLM zyskało rozgłos, kiedy okazało się, że osiągnęło poziom ekspercki we wnioskowaniu medycznym. Jaki był klucz do tego sukcesu?

W Google od dłuższego czasu jesteśmy pionierami w obszarze m.in. dużych modeli językowych (LLM). Równolegle rozwijamy technologie w obszarze zdrowia i medycyny. W 2022 roku, kiedy powstały wczesne wersje systemów opartych na LLM – które wówczas nazywaliśmy PaLM – dostrzegliśmy ich potencjał w zastosowaniach medycznych. Projekt miał na celu weryfikację dwóch kwestii: sprawdzenie, ile wiedzy medycznej mają modele LLM oraz jak szybko można je zaadaptować do zadań klinicznych. Do tych celów dostosowaliśmy model PaLM, w wyniku czego powstała nowa wersja o nazwie Med-PaLM. Podczas testów okazało się, że bardzo dobrze radzi sobie z odpowiedziami na pytania medyczne.

Foto: Mat. prasowe

Szczególnie znaczące były dwa kluczowe wyniki. Po pierwsze, model dobrze sobie radził z pytaniami na poziomie egzaminu, który lekarze w USA zdają, aby uzyskać prawo wykonywania zawodu. Wcześniejsze wyniki w tym obszarze wynosiły ok. 20–30 proc. Med-PaLM najpierw osiągnął poziom zaliczający, a po kilku miesiącach – poziom ekspercki, porównywalny z najlepszymi lekarzami.

Po drugie, wiedzieliśmy, że dobre wyniki na standardowych pytaniach nie odzwierciedlają rzeczywistej użyteczności modelu. Dlatego sprawdziliśmy, jak radzi sobie z pytaniami zadawanymi przez użytkowników Google, np. o objawy chorób czy wyszukiwanie informacji. Nazwaliśmy to pacjenckim Q&A. Także w tym przypadku, porównując wyniki z ekspertami medycznymi, zauważyliśmy, że model radził sobie dobrze nie tylko pod względem faktograficznym, ale także pod kątem stylu, empatii i charakteru odpowiedzi. To dało nam dużą pewność, że systemy oparte na LLM mogą mieć szerokie zastosowanie w warunkach klinicznych.

A jak rozwijał się projekt AMIE, który także dotyczy interakcji sztucznej inteligencji (AI) z lekarzami i pacjentami?

AMIE to rozwinięcie Med-PaLM. Kiedy uzyskaliśmy dowody na użyteczność LLM, kolejnym etapem było stworzenie AI, która będzie zarówno współpracować z lekarzami, jak i dostarczać wskazówek medycznych pacjentom. Tak powstała AMIE.

Foto: Mat. prasowe

Przeprowadziliśmy dwa badania tego narzędzia. Wyniki zostały opublikowane na początku roku w „Nature”, jednym z najbardziej prestiżowych czasopism naukowych na świecie. W pierwszym badaniu sprawdzaliśmy, jak działa AMIE; podkreślam przy tym, że jest to wciąż projekt badawczy. Chcieliśmy ocenić, jak radzi sobie w konsultacjach medycznych i rozmowach z pacjentami. Przeprowadziliśmy symulowane konsultacje z udziałem aktorów odgrywających pacjentów, co odzwierciedla szkolenie, które przechodzą prawdziwi studenci medycyny, znane jako OSCE (Obiektywne Ustrukturyzowane Egzaminy Kliniczne – red.). Okazało się, że AMIE dobrze radzi sobie z rozumowaniem klinicznym. Była bardzo dobra w diagnozowaniu, opracowywaniu planów opieki i zaleceniach dotyczących leczenia. Ale już na etapie prac nad Med-PaLM zauważyliśmy, że system dobrze radzi sobie z takimi zadaniami, więc nie było to aż tak zaskakujące.

Jeszcze bardziej wymownym wynikiem było to, że pacjenci aktorzy twierdzili, że interakcja z AMIE była znacznie bardziej empatyczna niż rozmowy z lekarzami. To pokazuje, że AI opanowała nie tylko naukę medycyny (diagnozy, plany leczenia), ale także sztukę jej praktykowania – empatyczne rozmowy, budowanie relacji i wspieranie pacjentów. Jednak nie chodzi tu o zastąpienie człowieka, lecz o wsparcie i partnerstwo.

Równolegle przeprowadziliśmy drugie badanie, aby sprawdzić, czy dostęp do AMIE może poprawić wyniki dobrych lekarzy. Lekarzom przedstawiono złożone wyzwania diagnostyczne, publikowane od ponad 100 lat w „New England Journal of Medicine”, które są niezwykle złożone. Odkryliśmy, że dzięki interakcji z systemem AMIE lekarze byli w stanie rozwiązywać te zadania znacznie dokładniej. To pokazuje, że AI nie tylko dobrze radzi sobie z interakcją z pacjentami i stawianiem diagnoz, ale jest również dobrym partnerem dla lekarzy. Naszym celem jest wzmocnienie wiedzy specjalistycznej i jej upowszechnienie oraz zwiększenie możliwości praktykowania medycyny.

Foto: Mat. prasowe

W jaki sposób czuwacie nad tym, by AI w medycynie pozostała jednocześnie rzetelna naukowo, ale i bezpieczna etycznie?

To jeden z obszarów, nad którym pracujemy najintensywniej. Wymaga to połączenia kwestii technicznych (np. tworzenia systemów AI) z organizacją zespołów, współpracą i funkcjonowaniem w szerszym ekosystemie społecznym. Na przykład już na początku projektu upewniamy się, że zespół jest w pełni multidyscyplinarny. Nie ograniczamy się do inżynierów czy badaczy AI – mamy też rozbudowany zespół kliniczny. Zatrudniamy ekspertów od polityki zdrowotnej, prawa i regulacji. Te kwestie są bardzo ważne, ponieważ pozwalają nam określić, jakie są ograniczenia, co możemy zrobić, a czego nie. Istnieją też metody oceny bezpieczeństwa, etyczności i jakości wdrożeń. Nasza ocena jest bardzo szeroka i wieloaspektowa, uwzględnia wszystko.

Z technicznego punktu widzenia kluczowe jest budowanie systemów, które potrafią dokonywać bardzo dokładnych analiz i dobrze uogólniać dane. System nie może zawieść, jeśli zostanie wytrenowany na danych z jednego szpitala, a następnie przeniesiony do innego. Potrzebne są systemy szybko adaptujące się. Jest to niezbędne w kontekście globalnym. Musimy je dostosować także do uwarunkowań w różnych krajach. Muszą działać inaczej w krajach z dużymi możliwościami medycznymi i w państwach o ograniczonych zasobach, np. w Indiach, skąd pochodzę. Nie można np. wymagać od wszystkich wykonania jakiegoś testu, jeśli nie ma centrum diagnostycznego ani lekarzy. Porady muszą być dopasowane do środowiska, w którym są formułowane. Podobnie gdy rozmawiamy z pacjentami z różnych krajów, musimy uwzględnić niuanse komunikacyjne. Na przykład w Japonii, szczególnie w przypadku osób starszych, komunikacja wymaga większego szacunku, a wyjaśnienia muszą być spokojne, precyzyjne i dostosowane kulturowo.

Materiał powstał podczas Research@ Poland