ΥΓΕΙΑ

AI μοντέλο ξεπερνά τους γιατρούς σε κλινικές δοκιμές

04/05/2026

Η πρόοδος της τεχνητής νοημοσύνης στην κλινική ιατρική

Σύμφωνα με μια πρόσφατη μελέτη που δημοσιεύθηκε στο περιοδικό Science, η τεχνητή νοημοσύνη (AI) μπορεί να ανταγωνιστεί ή και να ξεπεράσει τους ιατρούς σε σύνθετες διαγνωστικές προκλήσεις. Ωστόσο, παραμένουν κρίσιμα ερωτήματα σχετικά με την απόδοση αυτών των συστημάτων στην πραγματική κλινική φροντίδα και στην λήψη αποφάσεων.

Η μελέτη και οι μέθοδοι αξιολόγησης

Η έρευνα χρησιμοποίησε το μοντέλο OpenAI o1, το οποίο υποβλήθηκε σε μια εκτενή αξιολόγηση σε σχέση με εκατοντάδες ιατρούς. Οι ερευνητές πραγματοποίησαν πέντε πειραματικές δοκιμές και μία μελέτη σε πραγματικό περιβάλλον, εστιάζοντας σε πραγματικές καταστάσεις από τμήματα επειγόντων περιστατικών. Οι δοκιμές περιλάμβαναν ιατρικούς «γόλντ στάνταρντ» γρίφους και κλινικά σενάρια.

Αποτελέσματα που εντυπωσιάζουν

Τα ευρήματα της μελέτης έδειξαν ότι το AI μοντέλο υπερτέρησε στα συνδυασμένα καθήκοντα που εξέτασε, υποδηλώνοντας ότι οι προηγμένες τεχνολογίες ίσως έχουν ξεπεράσει βασικούς δείκτες κλινικής σκέψης. Αυτό ενδέχεται να σημαίνει ότι στο εγγύς μέλλον, η AI θα μπορεί να παρέχει αξιόπιστες δεύτερες γνώμες και να συμβάλλει στη διάγνωση.

Η ιστορία της τεχνολογίας στην ιατρική

Αξιοσημείωτο είναι ότι η επιδίωξη της ιατρικής κοινότητας για υπολογιστικά συστήματα ικανότητας για διαγνωστική σκέψη ξεκινά από τις δεκαετίες του 1950. Εδώ και 65 χρόνια, η ανάπτυξη συστημάτων με στόχο αυτή την ικανότητα έχει αποτελέσει σύνορο πρόκλησης. Τα συνέδρια κλινικοπαθολογικών περιπτώσεων του New England Journal of Medicine (NEJM) ήταν ο τελικός έλεγχος για την ικανότητα των υπολογιστών να επιλύουν σύνθετα ιατρικά προβλήματα.

Σύγκριση με προηγούμενες γενιές AI

Παρά την πρόοδο που έχει γίνει, προηγούμενες γενιές AI αντιμετώπισαν προκλήσεις. Τα αυστηρά, συμβολικά μοντέλα που είχαν αναπτυχθεί καθυστερούσαν να κατανοήσουν την πολύπλοκη πραγματικότητα της ιατρικής φροντίδας. Αν και οι παλαιότεροι LLMs (μεγάλα γλωσσικά μοντέλα) έδειξαν υπόσχεση, συνήθως δεν είχαν ανθρώπινο πρότυπο για σύγκριση. Ωστόσο, τώρα, καθώς νέα μοντέλα αναδύονται, οι ερευνητές προσπαθούν να κατανοήσουν εάν μπορούν να αντιληφθούν την κλινική αβεβαιότητα ή απλώς επαναλαμβάνουν μαθημένες πληροφορίες.

Δοκιμές και συμπεράσματα

Η μελέτη αυτή εστιάζει στο κατά πόσο η τελευταία γενιά AI (το OpenAI o1-preview) μπορεί να συγκριθεί ή να ξεπεράσει την απόδοση ανθρώπινων ειδικών μέσω διαφορετικών διαγνωστικών προκλήσεων. Η αξιολόγηση περιλάμβανε παραδοσιακά κουίζ 143 περιπτώσεων από το NEJM CPC, και η απόδοση μετρήθηκε σε μελέτη που διεξήχθη σε ένα μυστικό πλαίσιο στη Βοστώνη, όπου το μοντέλο δοκιμάστηκε σε σύγκριση με δύο ειδικούς ιατρούς.

Στις συγκρίσεις, το μοντέλο φαίνεται να είχε υψηλότερη απόδοση από εκατοντάδες επαγγελματίες, συμπεριλαμβανομένων ιατρών σε εκπαίδευση και ειδικών ιατρών, σύμφωνα με στατιστική ανάλυση που χρησιμοποιήθηκε για την αξιολόγηση της ακρίβειας των διαγνώσεων.