
Πρωτεϊνική μηχανική και AI: Μια επαναστατική προσέγγιση
Η πρωτεϊνική μηχανική βρίσκεται σε κομβικό σημείο ανάπτυξης, καθώς η τεχνητή νοημοσύνη αναλαμβάνει κεντρικό ρόλο στην έρευνα. Κάθε πρωτεΐνη αποτελείται από αμινοξέα, και η βελτιστοποίηση της λειτουργίας τους απαιτεί συχνά την αντικατάσταση ενός από τα είκοσι διαθέσιμα αμινοξέα με κάποιο άλλο. Αν σκεφτούμε ότι μια πρωτεΐνη με 50 αμινοξέα μπορεί να έχει περίπου 1.13×1065 δυνητικούς συνδυασμούς, δηλαδή έναν αριθμό γεμάτο μηδενικά, καταλαβαίνουμε την πολυπλοκότητα της διαδικασίας.
Η πρόκληση της έλλειψης δεδομένων
Η αντιμετώπιση αυτής της πολυπλοκότητας είναι ιδανική για την τεχνητή νοημοσύνη, η οποία έχει τη δυνατότητα να επεξεργάζεται αυτά τα πολύπλοκα δεδομένα ταχύτατα. Ωστόσο, ένα από τα μεγαλύτερα εμπόδια στην AI-κατευθυνόμενη πρωτεϊνική μηχανική είναι η έλλειψη κατάλληλων πειραματικών δεδομένων. Όπως σημειώνει ο Χαν Ξιάο, καθηγητής χημείας, βιοεπιστημών και βιομηχανικής μηχανικής στο Πανεπιστήμιο Rice, το πρόβλημα ήταν ότι δεν υπήρχαν αρκετά σύνολα δεδομένων ώστε να εκπαιδευτούν τα μοντέλα AI.
Μια επαναστατική προσέγγιση
Για να παραχθούν ακριβή μοντέλα AI που θα μπορούσαν να προβλέψουν πώς να βελτιστοποιηθούν οι λειτουργίες των πρωτεϊνών, η ομάδα του Ξιάο δημιούργησε έναν νέο τρόπο συγκέντρωσης δεδομένων σχετικά με τις διάφορες πρωτεΐνες. Σε πρόσφατη δημοσίευση στο Nature Biotechnology, παρουσίασαν την προσέγγιση «Sequence Display», η οποία μπορεί να παράγει περισσότερα από 10 εκατομμύρια δεδομένα σε μια μόνο πειραματική διαδικασία.
Η διαδικασία του Sequence Display
Σύμφωνα με τον Λινκί Τσενγκ, μεταπτυχιακό φοιτητή στο Rice και πρώτο συγγραφέα της μελέτης, το σύστημα αυτό καταγράφει τη δραστηριότητα των μεμονωμένων παραλλαγών πρωτεϊνών και δημιουργεί τα δεδομένα που απαιτούνται για την εκπαίδευση ενός μοντέλου μηχανικής μάθησης. “Μετά την ανάλυση, το μοντέλο μπορούσε να προβλέψει μεταλλάξεις που βελτίωσαν σημαντικά τη δραστηριότητα της πρωτεΐνης που μελετούσαμε”.
Ανακαλύψεις στον κόσμο της CRISPR-Cas
Η ομάδα δοκίμασε την προσέγγιση σε μια μικρή πρωτεΐνη CRISPR-Cas, η οποία ήταν αναγνωρίσιμη για το μέγεθος της, αλλά περιορισμένη στην ικανότητά της να κόβει DNA. Δημιούργησαν πολλές παραλλαγές της, κάνοντάς την πιο ικανή να στοχεύει ένα ευρύτερο φάσμα DNA.
Συγκεντρωτική προσέγγιση AI και πειραματικής διαδικασίας
Η διαφορά με αυτή τη μέθοδο είναι ότι η AI δεν αντικαθιστά τα πειράματα, αλλά στηρίζεται σε αυτά. Όπως σημειώνει ο Τσενγκ, “το Sequence Display μας παρέχει τη δεδομένη βάση, και τα μοντέλα μας βοηθούν να εξερευνήσουμε έναν πολύ μεγαλύτερο χώρο δεδομένων για να βρούμε ισχυρούς υποψηφίους”. Η ομάδα επανέλαβε επιτυχώς το ίδιο πείραμα με άλλες πρωτεΐνες, συγκεντρώνοντας ακόμα περισσότερα δεδομένα για την εκπαίδευση μοντέλων AI.
Όπως καταλήγει ο Ξιάο, “Αυτή η προσέγγιση προσφέρει ένα πρακτικό πλαίσιο για την ενσωμάτωση της AI στην πρωτεϊνική μηχανική, παρατηρώντας πως η μηχανική μάθηση δεν είναι μια αυτόνομη λύση, αλλά συνδυάζεται με τις πειραματικές διαδικασίες”.














