Innowacyjne polskie narzędzie do klasyfikowania białek
23.05.2022
Szybką i bezbłędną klasyfikację białek, wykrywanie w nich miejsc wiążących potencjalne leki, identyfikowanie białek występujących na powierzchni wirusów, a także badania np. RNA, umożliwia nowe narzędzie bioinformatyczne opracowane przez naukowców z Wydziału Biologii UW.
BioS2Net, czyli Biological Sequence and Structure Network, jest zaawansowanym algorytmem wykorzystującym uczenie maszynowe, pozwalającym na klasyfikację nowo poznanych białek nie tylko na podstawie podobieństwa sekwencji aminokwasowych, ale także ich struktury przestrzennej. Publikacja na jego temat ukazała się na łamach pisma „International Journal of Molecular Sciences” (https://www.mdpi.com/1422-0067/23/6/2966).
Narzędzie opracował zespół kierowany przez dr. Takao Ishikawę z Zakładu Biologii Molekularnej Wydziału Biologii UW we współpracy z naukowcem z Wydziału Matematyki, Informatyki i Mechaniki UW. Jak mówią sami autorzy, jego głównym zastosowaniem jest usprawniona klasyfikacja białek, ponieważ obecnie stosowany system klasyfikacji strukturalnej opiera się na żmudnej pracy polegającej na porównywaniu struktur nowych białek do tych już skategoryzowanych.
„Istnieje co prawda jego zautomatyzowany odpowiednik, jednak jest on bardzo restrykcyjny i bierze pod uwagę wyłącznie podobieństwo sekwencji białek, całkowicie pomijając ich strukturę. Takie narzędzie jak BioS2Net potencjalnie ma szansę znacząco usprawnić cały proces - wyjaśnia dr Ishikawa. - Dodatkowo opracowana przez nas architektura może zostać użyta (po niewielkich przeróbkach) do innych zadań, niekoniecznie związanych z klasyfikacją. Przykładowo można by jej użyć do wykrywania w białku miejsc wiążących potencjalne leki lub do identyfikacji białek występujących na powierzchni wirusów”.
„Można sobie np. wyobrazić sytuację, w której dotychczas zaklasyfikowane do innych grup białka, dzięki zastosowaniu BioS2Net zostaną skategoryzowane jako bardzo podobne do siebie pod względem budowy powierzchni, mimo innego zwinięcia łańcucha białkowego wewnątrz struktury. I wówczas niewykluczone, że cząsteczka oddziałująca z jednym białkiem (np. jako lek) okaże się także skutecznym interaktorem dla drugiego - wymienia dalsze potencjalne zastosowania praktyczne narzędzia dr Ishikawa. - Innym ciekawym zastosowaniem mogłoby być np. wykrywanie miejsc wiążących w białkach, które mogą stanowić albo cel dla leków, albo punkt interakcji z białkiem wirusowym”.
Działanie BioS2Net opiera się na wykonywanych po sobie operacjach matematycznych, które bazują na danych o konkretnym białku. Do pracy narzędzie potrzebuje tychże danych (im więcej, tym lepiej), odpowiedniego oprogramowania zdolnego do wykonywania skomplikowanych obliczeń związanych z treningiem sieci neuronowej oraz sporej ilości czasu.
W efekcie BioS2Net tworzy unikatową reprezentację każdego białka w postaci wektora o stałym rozmiarze. „Można to porównać do czegoś w rodzaju kodu kreskowego opisującego każde z poznanych białek - tłumaczy dr Ishikawa. - Narzędzie świetnie nadaje się do klasyfikacji białek na podstawie sekwencji aminokwasowej oraz struktury przestrzennej. Szczególnie istotne jest to, że można dzięki niemu wykryć białka o podobnej strukturze trójwymiarowej, ale o odmiennym ’foldzie’, czyli innym sposobie zwinięcia łańcucha białkowego”.
„Dotychczas stosowane metody przydzielałyby takie białka do osobnych grup. Tymczasem znane są przypadki, gdy tego typu cząsteczki pełnią podobne funkcje. I do wykrywania takich grup białek może się przydać BioS2Net” - dodaje.
Jak mówi naukowiec, nowe białka odkrywa się cały czas. Zdecydowana większość z nich, jeśli już ma opisaną strukturę przestrzenną, jest deponowana w bazie danych Protein Data Bank, do której każdy ma dostęp przez Internet. „Warto jednak zwrócić uwagę, że proces odkrywania nowych białek rozpoczyna się o wiele wcześniej, już na etapie sekwencjonowania genomu. W bazach danych genomów często można spotkać się z adnotacją ’hypothetical protein’ (pol. hipotetyczne białko). Istnieją algorytmy komputerowe, które na podstawie sekwencji nukleotydowych w zsekwencjonowanym genomie przewidują obszary przypominające geny, które potencjalnie kodują informację o białkach. I takich potencjalnych białek znamy bardzo wiele. Ich funkcje można częściowo przewidzieć na podstawie podobieństwa do cząsteczek już wcześniej opisanych, ale do pełnego poznania takiej roli i mechanizmu działania często jednak należy najpierw ustalić ich strukturę, co wymaga miesięcy lub lat eksperymentów” - opowiada badacz z UW.
W przypadku białek podobna sekwencja aminokwasów z reguły przekłada się na podobną strukturę. Do niedawna był to wręcz dogmat w biologii strukturalnej. „Dzisiaj jednak wiadomo - mówi dr Ishikawa - że wiele białek jest inherentnie nieustrukturyzowanych (IDP; ang. intrinsically disordered protein) albo przynajmniej zwiera w sobie tego typu rejony. Takie białka mogą przyjmować różne struktury w zależności od tego z jakimi innymi białkami w danym momencie oddziałują”.
„Dodatkowo bardzo istotny jest cały kontekst, w jakim białko ulega pofałdowaniu. Przykładowo, obecność tzw. białek opiekuńczych, czy nawet samo tempo syntetyzowania białka w komórce, może mieć niemały wpływ na ostateczny jego kształt, a zatem też na funkcje. Nie zmienia to jednak faktu, że cechą fundamentalną każdego białka jest jego sekwencja aminokwasowa” - podkreśla.
A dlaczego w ogóle poznanie dokładnej budowy cząsteczki białka jest takie ważne? Autor publikacji wyjaśnia, że białka, realizując swoje zadania w komórce, zawsze przyjmują określoną strukturę. Np. jeśli chcemy zaprojektować nowy lek, który będzie oddziaływał z określonym białkiem, to fundamentalne znaczenie ma określenie struktury tego drugiego. „W trakcie pandemii SARS-CoV-2 trzeba było np. określić strukturę wirusowego białka S (tzw. kolca) m.in. po to, aby można było zaproponować cząsteczkę swoiście z nim oddziałującą, a przez to zmniejszyć wydajność zakażania komórek człowieka - mówi. - Podsumowując: badanie struktury białek ma ogromne znaczenie dla poznania ich funkcji i mechanizmu działania, a także innych cząsteczek z nimi oddziałujących”.
Jeśli chodzi o sam BioS2Net, to najpierw należy ściągnąć z bazy danych i przetworzyć informacje o danym białku. Przetwarzanie służy temu, aby wszystkie cechy białka, takie jak współrzędne atomów, rodzaje aminokwasów, profil ewolucyjny itd., zamienić na liczby, które będą zrozumiałe dla komputera. Każdy pojedynczy atom cząsteczki jest opisywany przez kilkadziesiąt liczb, które wyrażają wspomniane cechy.
Następnie liczby te wprowadza się do sieci neuronowej, która analizuje każdy z atomów oraz ich najbliższych sąsiadów, biorąc pod uwagę zarówno ich ułożenie przestrzenne, jak i sekwencyjne. Kolejny etap to łączenie grup atomów w jeden „superatom”, który zawiera w sobie całą wyuczoną lokalną informację. Proces ten powtarza się do momentu aż ów „superatom” będzie zawierał zagregowane informacje o całym białku. „To jest nasz kod kreskowy, który wykorzystujemy potem do klasyfikacji białka, używając standardowych sieci neuronowych” - zaznacza dr Ishikawa.
Zapytany o dokładność nowego narzędzia biolog wyjaśnia, że jeśli chodzi o wytworzenie unikatowego wektora reprezentującego poszczególne białka, to BioS2Net robi to bezbłędnie, tzn. że każde białko jest reprezentowane w jedyny możliwy sposób i żadna inna cząsteczka nie będzie opisana w taki sam sposób.
„Natomiast, gdy zastosowaliśmy BioS2Net do klasyfikacji białek, osiągnęliśmy wynik nawet 95,4 proc. trafności w porównaniu do obowiązującej klasyfikacji wg bazy danych. Oznacza to, że w ponad 95 przypadków na 100 BioS2Net był w stanie prawidłowo przyporządkować białko do danej grupy. Tutaj jednak warto wspomnieć, że ta obowiązująca klasyfikacja opiera się na podobieństwie sekwencji aminokwasowych i pomija informacje strukturalne” - tłumaczy autor publikacji.
Naukowcy podkreślają, że poza głównym zastosowaniem, czyli klasyfikacją białek, BioS2Net będzie mógł służyć także do analizowania innych cząsteczek biologicznych, w tym RNA. „Uważamy, że narzędzie można by też wykorzystywać do klasyfikacji zupełnie innych danych biologicznych, np. map chromosomów w jądrze komórkowym. Właściwie to nasza architektura może być przydatna wszędzie tam, gdzie jest zdefiniowana struktura i sekwencja” - mówią.
Dr Ishikawa dodaje, że BioS2Net powstał w ramach pracy licencjackiej pierwszego autora (jego Alberta Roethla) wykonanej pod kierunkiem. „Warto to podkreślić, bo to ważny sygnał, że licencjat niekoniecznie jest pracą dyplomową, którą po prostu trzeba zrobić, ale czymś, co ma potencjał naukowy i może zostać opublikowane w międzynarodowym czasopiśmie” - zaznacza naukowiec.
PAP - Nauka w Polsce, Katarzyna Czechowicz