5 Программы и сервисы для предсказания Т-клеточных эпитопов
Моделированию антигенного процессинга чуть больше 20 лет и за это время были опробованы различные подходы и использовались разные источники данных. За эти 20 с небольшим лет накопился огромный массив данных, собранный независимо в несколько баз данных и баз знаний. Immune Epitope Database (IEDB) - большой ресурс, который содержит, огромную базу данных иммунологических данных, большую онтологию и сервисы для предсказания различных взаимодействий[1]. Эта база данных (БД) - основа всех современных исследований в области моделирования связывания эпитопов с МНС, распознавания комплексов TCR-pMHC и других исследований, так как содержит в себе миллионы записей. Накоплен большой массив масс-спектрометрических данных, посвященных предсказанию продуктов расщепления белков протеосомой, который был объединен в БД InvitroSPI[2]. InvitroSPI объединяет три больших датасета in vitro экспериментов с протеосомой и содержит 16 631 уникальный пептид. Присутствубт как сплайсированные пептиды, так и несплайсированные Однако имеются данные, что in vitro данные не показывают того, что будет in vivo[3]. До появления источников этой БД основным датасетом были данные о сайтах разрезания для дрожжевой енолазы I и \(\beta\)-казеина[4; 5]. Данные по связыванию пептидов с TAP содержатся в двух БД: MHC BN 4.0 и AntiJen 2.0[6; 7]. Однако на момент 09 апреля 2023 года выгрузить данные из AntiJen 2.0 не представлялось возможным. Также некоторые датасеты выложены в открытый доступ разработчиками программ[8]. Эти БД небольшие, насчитывают около тысячи записей. Активность по отношению к ТАР представлена в виде IC50 относительно пептида RRYNASTEL с радиоактивной меткой. Кроме IEDB существует ещё несколько небольших баз данных, хранящие порядка несколько десятков тысяч записей, которые хранят данные о эпитопах, аллелях МНС и узнающих последовательностях ТКР: VDJdb, McPAS-TCR, EPIMHC, SYFPEITHI и другие[9–12].
Первые программы также появились в начале 2000-ых годов и были посвящены моделированию отдельных шагов процессинга[13; 14]. Как было замечено, процессинг антигенов далеко не всегда протекает последовательно, однако уже в 2006 году была предпринята попытка его моделирования как единого процесса[15]. EpiJen моделирует три основополагающих этапа процессинга: нарезание белков протеосомой, транспорт в ЭР и связывание с МНС - и выдает топ-5% пептидов, которые связываются с прогнозируемыми ТКР. Методы, ставшие классическими, собраны на сайте Immune Epitope Database Analysis Resource (IEDB-AR)[16]. Сервисы по предсказанию процессинга антигенов можно разделить на 2 группы: сервисы, которые предсказывают отдельные этапы процессинга, и сервисы, которые учитывают несколько этапов процессинга.
На данный момент исследователи моделируют реакцию разрушения белков протеосомой, транспорт пептидов ТАР, связывание пептидов с МНС. Наиболее известные примеры программ представлены в Table 5.1.
| Программа | Моделируемый этап | Источник обучающей выборки | Алгоритм | Литературный источник |
|---|---|---|---|---|
| Pcleavage | Протеосома | Данные по енолазе и казеину, МНС BN, | SVM | [17] |
| NetChop | Протеосома | SYFPEITHI, MHCPEP, HIV Immunology Database, Данные по енолазе и казеину | Нейронная сеть | [18] |
| PCPS | Протеосома | HIV Immunology Database, EPIMHC, Immuneepitope,Los Alamos database | N-граммы | [19] |
| PREDTAP | TAP | Экспериментальные данные | Нейронная сеть + HMM | [20] |
| TAPREG | TAP | Экспериментальные данные, Antijen | SVM | [8] |
| NetMHCpan | MHC | IEDB | Нейронная сеть | [21] |
| MHCSeqNet | MHC | IEDB, MHCflurry | Нейронная сеть | [22] |
Программы NetCTLpan и MHCflurry моделируют несколько этапов процессинга. MHCflurry состоит из двух моделей на основе нейронных сетей: по предсказанию процессинга и связыванию с МНС - результат аггрегируется с помощью логистической регрессии[23]. NetCTLpan предсказывает разрезание белков протеосомой, транспорт и связывание по отдельности [24]. Эти методы являются пан-аллельными, то есть предсказывают результат для почти всего многообразия известных аллелей HLA. Это достигается путем особого подхода представления аллелей в виде псевдопоследовательности остатков, находящихся на расстоянии до 4 Å от пептидов длиной 9 аминокислот в любых репрезентативных структурах комплекса HLA-пептид[21]. Активно ведется разработка пан-специфичных фреймворков для предсказания связывания пептидов с HLA и все они основаны на нейронных сетях[22; 25; 26]. Современные методы предсказания связывания пептида с МНС имеют высокий AUC ROC, больше 0,95, однако предсказания ограничены какой-то конкретной длиной пептида, чаще в 9 аминокислот[27; 28].