2 Введение

Каждый живой организм на нашей планете стремится передать свой генетический материал потомкам. Для осуществления этой цели у каждого вида организмов должны быть механизмы защиты от конкурентов. Эти механизмы эволюционируют вместе с организмами. Примерно 500 миллионов лет назад, у хордовых возник ароморфоз: адаптивная иммунная система[1]. Иммунная система - специализированная система органов и тканей, обеспечивающих иммунитет[2]. Иммунитет - способ защиты организма от живых тел и веществ, несущих признаки чужеродной информации[2]. Вещества, которые несут такие признаки называются антигенами.

Адаптивная иммунная система названа так потому, что спектр антигенов, против которых защищает адаптивная иммунная система, не наследуется, а формируется в процессе жизни организма и определяется антигенами, встреченными организмом на протяжении жизни. То есть иммунная система организма адаптируется к своему окружению. Т- и В-лимфоциты, основыее составляющие адаптивной иммунной систему, распознают участок молекулы антигена, которые называется эпитоп (антигенная детерминанта) с помощью специализированных молекул-рецепторов на своих цитоплазматических мембранах.

Существуют разница в том, как и с помощью каких молекул распознается антиген Т- и В-лимофцитами. B-лимфоциты способны распознавать нативный антиген с помощью своего В-клеточного рецептора. Т-лимфоциты способны распознавать только антигены, презентированные на главном комплексе гистосовместимости (МНС), с помощью своих Т-клеточных рецепторов (ТКР). Такое ограничение называют в иммунологии МНС-рестрикцией. МНС представляет своеобразную систему “свой-чужой”, в состав которой входят не только молекулы, отвечающие за процессинг и презентацию антигенов, но и помогающие в реализации иммунного ответа. Для развития эффективного иммунного ответа, как правило, необходимо, чтобы Т-хелперы или Т-киллеры с помощью своих ТКР распознали антиген и передали сигнал о наличии чужеродного антигена. В данной работе будет рассмотрено, как организм подгатавливает антигены для распознавания Т-лимфоцитами и как этот процесс можно предсказывать, и будет предложен новый подход к предсказанию результата этого процесса.

Математическая оценка возможного количества \(\beta\)-цепей ТКР равно \(10^{14}\) [3]. Количество возможных белков длины n из 20 основных протеиногенных аминокислот равняется \(20^n\) и из этого разнообразия возможно появление ещё большего числа пептидов, которые могут быть эпитопами. Невозможно и нецелесообразно проверять все сочетания этого разнообразия на предмет наличия или отсутствия взаимодействия экспериментально. Однако за 50 лет активной работы был накомплен огромный массив данных о процессах подготовки антигенов, их презентации и распознавания целевыми молекулами, в нашем случае ТКР. Эти данные аккумулированы в различные базы данных и базы знаний, которые позволяют учёным строить математические модели для предсказания результатов разных этапов процессинга антигенов, наличия или отсутствия иммуногенности и аллергенности эпитопов.

Над построением математических моделей работает большое количество ученых уже больше двадцати лет: первые программы начали появляться в начале нулевых годов этого века. Данные модели крайне полезны в вакцинологии и онкологии. В вакцинологии они используются для проектирования вакцин от различных заболеваний, в частности от лихорадки Эбола и COVID-19[4; 5]. Методология разработки вакцин, когда сначала ведут компьютерный поиск антигенов, предсказывают их иммунногенность, а потом проверяют экспериментально, называется обратной вакцинологией (reverse vaccinology). В онкологии они используются для предсказания неоантигенов. Неоантигены - новые антигены, которых нет в здоровых клетках и которые появились в раковых в процессе накопления новых генетических вариантов в сравнении с исходными, герминальными клетками. Точное предсказание антигенов и неоантигенов открывает новые возможности в персонализированной иммунотерапии опухолей[6]. С течением времени качество моделей заметно росло и современные модели показывают хорошие результаты, но они ограничены небольшой выборкой людей, к которым они применимы. Существующие аналоги, как правило, позволяют предсказывать результат одного из этапов процессинга и работают на алгоритмах, требующих эмбеддинга, то есть представления последовательности белка в виде числовых векторов. Самые современные программы работают на нейроных сетях различных архитектур. Их главная проблема в том, что крайне трудно определить, почему программа пришла к такому выводу. Цель данной работы - построить модель “структура-активность” процессинга антигенов для МНС первого класса у человека (Homo sapiens), где каждый предыдущий результат подстроен и оптимизирован для следующего этапа. Данный подход разумен, так как результаты исследований показывают, что так действительно сложилось в живых организмах, но по разным причинам редко используется. В моей модели структура белков будет использована в виде совокупности молекулярных фрагментов, а не числовых векторов. Для выполнения цели данной работы необходимо решить следующие задачи:

Разработать концепт системы, определить алгоритмы и метрики, которые будут использованы для разработки и оценки как отдельных частей, так и системы в целом;
Подготовить выборки для обучения и валидации как отдельных частей, так и системы в целом;
Построить модели, оценить их качество;
Разработать веб-сервис для общедоступного использования разработанной системы.

Из-за ограниченного количества времени в этой работе будет рассмотрено моделирование стандартного каскада реакций для МНС первого класса. Концепция системы и варианты её расширения будут представлены ниже. В дальнейшем я надеюсь, что построенная система будет пригодна к использованию в исследовательской и клинической практике.