Problemy z adaptacją algorytmów komputerowych w leczeniu schizofrenii

Naukowcy odkryli, że algorytmy komputerowe zaprojektowane do wspierania lekarzy w leczeniu osób ze schizofrenią nie adaptują się dobrze do nowych, nieznanych danych. Narzędzia te, wykorzystujące sztuczną inteligencję (AI) do wykrywania wzorców w dużych zbiorach danych i przewidywania reakcji indywidualnych na konkretne leczenie, są kluczowe dla medycyny precyzyjnej. Opublikowane 11 stycznia w Science badanie pokazuje, że modele AI mogą przewidywać wyniki leczenia z dużą dokładnością dla osób w próbce, na której były szkolone. Jednak ich skuteczność spada do poziomu ledwie lepszego od przypadku, gdy są stosowane do podzbiorów początkowej próbki lub do różnych zestawów danych.

Aby były skuteczne, modele prognozowania muszą być konsekwentnie dokładne w różnych przypadkach, minimalizując stronniczość lub przypadkowe wyniki. „To ogromny problem, do którego ludzie jeszcze nie obudzili się”, mówi współautor badania Adam Chekroud, psychiatra z Uniwersytetu Yale w New Haven, Connecticut. „To badanie daje dowód na to, że algorytmy muszą być testowane na wielu próbkach”.

Dokładność algorytmu Badacze ocenili algorytm powszechnie używany w modelach prognozowania psychiatrycznego. Wykorzystali dane z pięciu badań klinicznych nad lekami przeciwpsychotycznymi, z udziałem 1513 uczestników z Ameryki Północnej, Azji, Europy i Afryki, zdiagnozowanych ze schizofrenią. Badania, przeprowadzone między 2004 a 2009 rokiem, mierzyły objawy uczestników przed i cztery tygodnie po zażyciu jednego z trzech leków przeciwpsychotycznych (lub porównywały efekty różnych dawek tego samego leku).

Zespół wyszkolił algorytm do przewidywania poprawy objawów po czterech tygodniach leczenia przeciwpsychotycznego. Najpierw testowali dokładność algorytmu w badaniach, w których został opracowany, porównując jego prognozy z rzeczywistymi wynikami z badań. Dokładność była wysoka.

Następnie użyli kilku podejść do oceny, jak dobrze model generalizuje nowe dane. Trenowali algorytm na podzbiorze danych z jednego badania klinicznego, a następnie stosowali go do innego podzbioru z tego samego badania. Trenowali również algorytm na wszystkich danych z jednego badania — lub grupy badań — a następnie mierzyli jego wydajność w oddzielnym badaniu.

Model słabo wypadł w tych testach, generując pozornie niemal losowe przewidywania, gdy był stosowany do zestawu danych, na którym nie był szkolony. Eksperyment powtórzono z użyciem innego algorytmu prognozującego, ale uzyskano podobne wyniki.

Lepsze testowanie Autorzy badania podkreślają, że ich wyniki wskazują na potrzebę rygorystycznego testowania modeli prognozowania klinicznego na dużych zbiorach danych, aby zapewnić ich niezawodność. Systematyczny przegląd 308 modeli prognozowania klinicznego dla wyników psychiatrycznych wykazał, że tylko około 20% modeli przeszło walidację na próbkach innych niż te, na których zostały opracowane.

„Powinniśmy myśleć o tym bardziej jak o rozwoju leków”, mówi Chekroud. Wiele leków wykazuje obiecujące wyniki we wczesnych badaniach klinicznych, ale zawodzi w późniejszych etapach. „Musimy być naprawdę zdyscyplinowani w sposobie budowania tych algorytmów i testowania ich. Nie możemy tego zrobić tylko raz i myśleć, że to jest prawdziwe.”