5 Программы и сервисы для предсказания Т-клеточных эпитопов

Моделированию антигенного процессинга чуть больше 20 лет и за это время были опробованы различные подходы и использовались разные источники данных. За эти 20 с небольшим лет накопился огромный массив данных, собранный независимо в несколько баз данных и баз знаний. Immune Epitope Database (IEDB) - большой ресурс, который содержит, огромную базу данных иммунологических данных, большую онтологию и сервисы для предсказания различных взаимодействий[1]. Эта база данных (БД) - основа всех современных исследований в области моделирования связывания эпитопов с МНС, распознавания комплексов TCR-pMHC и других исследований, так как содержит в себе миллионы записей. Накоплен большой массив масс-спектрометрических данных, посвященных предсказанию продуктов расщепления белков протеосомой, который был объединен в БД InvitroSPI[2]. InvitroSPI объединяет три больших датасета in vitro экспериментов с протеосомой и содержит 16 631 уникальный пептид. Присутствубт как сплайсированные пептиды, так и несплайсированные Однако имеются данные, что in vitro данные не показывают того, что будет in vivo[3]. До появления источников этой БД основным датасетом были данные о сайтах разрезания для дрожжевой енолазы I и \(\beta\)-казеина[4; 5]. Данные по связыванию пептидов с TAP содержатся в двух БД: MHC BN 4.0 и AntiJen 2.0[6; 7]. Однако на момент 09 апреля 2023 года выгрузить данные из AntiJen 2.0 не представлялось возможным. Также некоторые датасеты выложены в открытый доступ разработчиками программ[8]. Эти БД небольшие, насчитывают около тысячи записей. Активность по отношению к ТАР представлена в виде IC₅₀ относительно пептида RRYNASTEL с радиоактивной меткой. Кроме IEDB существует ещё несколько небольших баз данных, хранящие порядка несколько десятков тысяч записей, которые хранят данные о эпитопах, аллелях МНС и узнающих последовательностях ТКР: VDJdb, McPAS-TCR, EPIMHC, SYFPEITHI и другие[9–12].

Первые программы также появились в начале 2000-ых годов и были посвящены моделированию отдельных шагов процессинга[13; 14]. Как было замечено, процессинг антигенов далеко не всегда протекает последовательно, однако уже в 2006 году была предпринята попытка его моделирования как единого процесса[15]. EpiJen моделирует три основополагающих этапа процессинга: нарезание белков протеосомой, транспорт в ЭР и связывание с МНС - и выдает топ-5% пептидов, которые связываются с прогнозируемыми ТКР. Методы, ставшие классическими, собраны на сайте Immune Epitope Database Analysis Resource (IEDB-AR)[16]. Сервисы по предсказанию процессинга антигенов можно разделить на 2 группы: сервисы, которые предсказывают отдельные этапы процессинга, и сервисы, которые учитывают несколько этапов процессинга.

На данный момент исследователи моделируют реакцию разрушения белков протеосомой, транспорт пептидов ТАР, связывание пептидов с МНС. Наиболее известные примеры программ представлены в Table 5.1.

Table 5.1: Примеры программ для моделирования отдельных этапов процессинга антигенов
Программа	Моделируемый этап	Источник обучающей выборки	Алгоритм	Литературный источник
Pcleavage	Протеосома	Данные по енолазе и казеину, МНС BN,	SVM	[17]
NetChop	Протеосома	SYFPEITHI, MHCPEP, HIV Immunology Database, Данные по енолазе и казеину	Нейронная сеть	[18]
PCPS	Протеосома	HIV Immunology Database, EPIMHC, Immuneepitope,Los Alamos database	N-граммы	[19]
PRED^TAP	TAP	Экспериментальные данные	Нейронная сеть + HMM	[20]
TAPREG	TAP	Экспериментальные данные, Antijen	SVM	[8]
NetMHCpan	MHC	IEDB	Нейронная сеть	[21]
MHCSeqNet	MHC	IEDB, MHCflurry	Нейронная сеть	[22]

Программы NetCTLpan и MHCflurry моделируют несколько этапов процессинга. MHCflurry состоит из двух моделей на основе нейронных сетей: по предсказанию процессинга и связыванию с МНС - результат аггрегируется с помощью логистической регрессии[23]. NetCTLpan предсказывает разрезание белков протеосомой, транспорт и связывание по отдельности [24]. Эти методы являются пан-аллельными, то есть предсказывают результат для почти всего многообразия известных аллелей HLA. Это достигается путем особого подхода представления аллелей в виде псевдопоследовательности остатков, находящихся на расстоянии до 4 Å от пептидов длиной 9 аминокислот в любых репрезентативных структурах комплекса HLA-пептид[21]. Активно ведется разработка пан-специфичных фреймворков для предсказания связывания пептидов с HLA и все они основаны на нейронных сетях[22; 25; 26]. Современные методы предсказания связывания пептида с МНС имеют высокий AUC ROC, больше 0,95, однако предсказания ограничены какой-то конкретной длиной пептида, чаще в 9 аминокислот[27; 28].