Темы кафедры теории вероятностей и анализа данных

Данилова Инна Владимировна, старший преподаватель

Email: DanilovaInna1987@mail.ru

№ курса и Направление

Тема (название темы, краткое описание и список рекомендуемой литературы)

ФИО студента, № группы

3 курс 01.03.01 «Математика»

Тема: Распределение Больцмана в задаче миграции населения на территории Российской Федерации

Краткое описание: Рассматривается задача миграции трудоспособного населения на территории РФ с учетом распределения Больцмана. В распределение Больцмана входит управляющий параметр, характеризующий рациональность выбора населением той или иной территории и функции полезности, характеризующие «притягательность» рассматриваемых территорий. При этом, на выбор территории могут влиять такие факторы, например как доход, грамотность населения, продолжительность жизни и т.д. Нужно составить модель, описывающую динамику численности населения на заданных территориях с учетом распределения Больцмана и факторов, влияющих на выбор, провести численный анализ предложенной модели на языке программирования Python.

На данном этапе: Сбор статистических данных, знакомство с распределением Больцмана, составление функции полезности, входящей в распределение Больцмана с учетом влияющих факторов. Анализ влияния функции полезности на выбор.

Крижановский Андрей Анатольевич, к.т.н, доцент кафедры ТВиАД.

Email: andrew.krizhanovsky@gmail.com vk.com/componavt , t.me/componavt

Полный список задач с комментариями по ссылке: https://bit.ly/3kFG8Tz

№ курса и Направление	Тема (название темы, краткое описание и список рекомендуемой литературы)	ФИО студента, № группы
6 курс, ИСиТ	Тема: Распознавание топонимов в базе данных ТопКар Краткое описание: Поиск топонимов в текстах базы данных Топонимия Карелии.	Мошников Ярослав 22605
Любой курс (можно заочникам, можно магистрам)	Тема: Игра для изучения языков: восстанови порядок слов по параллельным текстам. Разработка текстовой компьютерной игры. Подробнее по ссылке: https://bit.ly/3kFG8Tz
Любой курс	Тема: Классификация текстов по стилевым особенностям (реклама). Определение рекламного стиля в текстах Википедии. Подробнее по ссылке: https://bit.ly/3kFG8Tz
Любой курс	Тема: Разработка мультимедийного словаря карельского языка. Включение иллюстраций в словарные статьи приложения, разработка игры для изучающих язык. Тестирование игры, оценка улучшения запоминания материала при использовании игры.

Москин Николай Дмитриевич, профессор кафедры ТВиАД, д.т.н., доцент

Email: moskin@petrsu.ru

№ курса и Направление	Тема (название темы, краткое описание и список рекомендуемой литературы)	ФИО студента, № группы
2 курс, Информационные системы и технологии	Тема: Исследование алгоритмов и систем автоматического реферирования текстов Краткое описание: непрерывное увеличение интенсивности потока текстовой информации делает все более важной задачу семантического сжатия текстов. В данной работе нужно исследовать различные способы построения алгоритмов и систем автореферирования, позволяющие извлекать ценную информацию из текстовых документов. Литература: 1. Батура Т. В., Бакиева А. М. Методы и системы автоматического реферирования текстов: монография. Новосибирск, 2019.
3 курс, Программная инженерия	Тема: Использование математических методов для распознавания сгенерированных текстов Краткое описание: задача выявления искусственно сгенерированного текста в настоящее время становится все актуальнее, особенно с развитием ИИ. Целью работы является разработка программы, которая позволяет математическими методами проанализировать текст и получить результаты необходимые для составления заключения о происхождении текстов, принадлежности тому или иному автору. 1. А. А. Рогов, А. В. Седов, Ю. В. Сидоров, Т. Г. Суровцова Математические методы атрибуции текстов. Петрозаводск: ПетрГУ, 2014.	Романенко Григорий Михайлович, гр. 22307
3 курс, Математика	Тема: Метрики для сравнения графов на основе общих подграфов Краткое описание: в теории графов известны различные типы максимальных общих подграфов для двух заданных графов. В данной работе необходимо исследовать алгоритмы сравнения графов на основе подобных структур. 1. Москин Н.Д. Алгоритмы сравнения графов и теоретико-графовых моделей. Учебное пособие. Петрозаводск: Изд-во ПетрГУ, 2009
3 курс, Прикладная математика и информатика	Тема: Исследование графовых нейронных сетей Краткое описание: графовые нейронные сети - это способ применения классических моделей нейронных сетей к графовым данным. Графы, не обладая регулярной структурой как изображения (каждый пиксель имеет 8 соседей) или тексты (последовательность слов), долгое время оставались вне поля зрения классических нейронных моделей, которые получили широкое распространение в области машинного обучения и искусственного интеллекта. 1. Wu L. Graph Neural Networks for Natural Language Processing: A Survey / L. Wu, Y. Chen, K. Shen, X. Guo, H. Gao, S. Li, J. Pei, B. Long // ArXiv abs/2106.06090. – 2021. – 127 p.
4 курс, Прикладная математика и информатика	Тема: Применение машинного обучения для анализа текстов небольшого объема с помощью Python Краткое описание: машинное обучение (ML) применяется для анализа текстовых данных с помощью Python в задачах обработки естественного языка (NLP). Это позволяет извлекать полезную информацию из текстовых данных, что может быть применено в различных областях: от анализа отзывов клиентов до автоматической категоризации документов. В работе с текстовыми данными в Python нужно использовать библиотеки, которые предоставляют инструменты для предварительной обработки текста и извлечения признаков, а также алгоритмы машинного обучения. 1. Мюллер А., Гвидо С. Машинное обучение с помощью Python. Руководство для специалистов по работе с данными. Санкт-Петербург, 2022.
1 курс магистратуры, Информационные системы и технологии	Тема: Применение графов при анализе изображений Краткое описание: графы применяются для анализа изображений в различных задачах: сегментации, обнаружении объектов, трёхмерной реконструкции и сопоставлении изображений. Необходимо проанализировать и обобщить существующий опыт в этом направлении, а также разработать собственное решение для некоторого набора изображений. 1. Кочкаров А.А., Яцкин Д.В., Кочкаров Р.А. Прикладная теория графов и сетевые модели. Учебное пособие. Москва: Кнорус, 2024.	Тумазов Владислав Вячеславович, гр. 22505

Сидоров Юрий Владимирович, к.т.н., доцент кафедры теории вероятностей и анализа данных

Email: yurysidorov76@gmail.com

№ курса и Направление

Тема (название темы, краткое описание и список рекомендуемой литературы)

ФИО студента, № группы

2 курс,

09.03.02

Тема: Компьютерный анализ текстов на естественном языке для решения задачи атрибуции текстов: морфологический уровень

Краткое описание: изучение основных принципов компьютерного анализа текстов на естественном языке; практическая реализация методов атрибуции текстов, основанных на морфологических признаках, на корпусе публицистических статей. Инструментальные средства: Excel, VBA, PHP и пр.

1. Рогов А. А., Седов А. В., Сидоров Ю. В., Суровцова Т. Г. Математические методы атрибуции текстов. (учебное пособие). Петрозаводск: Изд-во ПетрГУ, 2012. – 48 с.

2. Боярский К. К. Введение в компьютерную лингвистику : учебное пособие. СПб. : НИУ ИТМО, 2013. 72 с

3. Сидоров Ю. В., Смирнов Н.В. Вероятностные методы анализа неструктурированной текстовой информации. (учебное пособие). Петрозаводск: Изд-во ПетрГУ, 2012. – 56 с.

4. Информационная система «СМАЛТ» : [сайт]. URL:http://smalt.karelia.ru

2 курс,

09.03.02

Тема: Компьютерный анализ текстов на естественном языке для решения задачи атрибуции текстов: синтаксический уровень

Краткое описание: изучение основных принципов компьютерного анализа текстов на естественном языке; практическая реализация методов атрибуции текстов, основанных на синтаксических признаках, на корпусе публицистических статей. Инструментальные средства: Excel, VBA, PHP и пр.

2. Боярский К. К. Введение в компьютерную лингвистику : учебное пособие. СПб. : НИУ ИТМО, 2013. 72 с

4. Информационная система «СМАЛТ» : [сайт]. URL:http://smalt.karelia.ru

2 курс,

09.03.02

Тема: Исследование использования расстояния между зависимыми частями речи в предложении для решения задачи атрибуции текстов

Краткое описание: исследование метрики «расстояние между зависимыми частями речи в предложении» при атрибуции публицистических статей. Инструментальные средства: Excel, VBA, PHP, MySQL, Python.

1. Reynolds R. Russian Natural Language Processing and Computer-assisted Language Learning : Capturing the benefits of deep morphological analysis in real-life applications : PhD thesis / Tromsø : Universitet i Tromsø. 2016. URL: https://munin.uit.no/handle/10037/9685

2. Боярский К. К. Введение в компьютерную лингвистику : учебное пособие. СПб. : НИУ ИТМО, 2013. 72 с

3. Информационная система «СМАЛТ» : [сайт]. URL:http://smalt.karelia.ru

2 курс,

09.03.02

Тема: Реализация косинусного расстояния в методе оценки парной связи грамматических классов для атрибуции литературных текстов

Краткое описание: исследование методики оценки парной связи грамматических классов, ее модификация и оценка получаемых результатов при атрибуции публицистических статей. Инструментальные средства: Excel, VBA, PHP.

1. От Нестора до Фонвизина: новые методы определения авторства // Милов Л.В., Бородкин Л.И., Иванова Т.В. и др.; Под ред. Л.В.Милова. -М.: Прогресс,1994. – 445 с.

2. Сидоров Ю. В. Математическая и информационная поддержка методов обработки литературных текстов на основе формально-грамматических параметров. Диссертация на соискание ученой степени канд. техн. наук. Петрозаводск, 2002. – 127 с.

3. Суровцова Т.Г. Использование метода «сильного графа» при анализе синтаксического разбора публицистических произведений Ф.М. Достоевского. Труды Петрозаводского государственного университета. Сер. «Прикладная математика и информатика». Вып. 12. Петрозаводск: Изд-во ПетрГУ, 2007. – C. 62-70.

4. Информационная система «СМАЛТ» : [сайт]. URL: http://smalt.karelia.ru/shower/research/sidorov.php?type=new

2 курс,

09.03.04

Тема: Разработка приложения для преобразование pdf-документов в текст и внесение в базу данных локальных нормативных актов

Краткое описание: Рядом организации накоплен массив локальных нормативных документов (приказы и т.п.) в формате pdf. Требуется автоматизировать процесс их внесения в СУБД, путем формирования XML файла. Инструментальные средства: Python, PHP, XML и пр.

3 курс,

01.03.02

Тема: Применение методов кластеризации при решении задачи атрибуции текстов

Краткое описание: Как правило, атрибуция текстов рассматривается как задача их классификации. Вместе с тем, для определенных текстов (публицистических, малого объема и т.п.) характерно внешнее влияние (редакторские правки и т.п.), что может приводить к противоречивым результатам классификации. Поэтому, целесообразным выглядит первоначальная кластеризация рабочего материала с целью выработки последующих решений по его исследованию.

Инструментальные средства: Excel, VBA, PHP, MySQL, Python и пр.

1. Сидоров Ю. В. Математическая и информационная поддержка методов обработки литературный текстов на основе формально-грамматических параметров : специальность 05.13.18 «Математическое моделирование, численные методы и комплексы программ» : диссертация на соискание ученой степени кандидата технических наук / Сидоров Юрий Владимирович ; Санкт-Пет. ин-т информатики и автоматизации. — Санкт-Петербург, 2002. — 127 с.

2. Мандель И.Д. Кластерный анализ. М., «Финансы и статистика», 1988.- 176 с..

3. Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: Классификация и снижение размерности. — М.: Финансы и статистика, 1989. — 607 с.

3 курс, 09.03.02

Тема: Задача сегментации речи нескольких дикторов

Краткое описание: в области анализа и обработки речи существуют задача

сегментации разговора нескольких участников на монологические составляющие. В западной литературе она также известна, как задача сегментации новостей. Существуют решения с предварительным обучением систем голосам дикторов, но для ситуации, когда заранее неизвестно количество дикторов и нет образцов их голосов, найти такое приложение становиться проблематичным.

1. Григорян Р. Л., Репалов С.А. Применение методов векторного квантования к задаче верификации дикторов // Материалы VI Междунар. науч.-практ. конф. «Методы и алгоритмы прикладной математики в технике, медицине и экономике». – Ч. 3. – Новочеркасск: ЮРГТУ. – 2004. – 48 с.

2. Григорян Р. Л., Репалов С.А., Коршунов С.С. Метод выделения монологических составляющих с использованием идентификации дикторов на основе векторного квантования. Научно-теоретический журнал "Искусственный интеллект" No.3'2006.

3. Репалов С. А. Разработка математических моделей и робастных алгоритмов идентификации дикторов по их речи : Дис. канд. физ.-мат. наук : 05.13.18 : Ростов н/Д, 2003 144 c. РГБ ОД, 61:04-1/242-X.

3 курс, 09.03.02

Тема: Извлечение именованных сущностей в текстах дореформенной орфографии

Краткое описание: В области анализа естественных языков достаточно успешно реализована задача извлечения именованных сущностей для современных языков. Целью работы является изучение возможностей современных языковых моделей к извлечению именованных сущностей из текстов дореволюционной орфографии. Инструментальные средства: Python, PHP и пр.

1. Mozharova V., Loukachevitch N. Combining Knowledge and CRF-based Approach to Named Entity Recognition in Russian // Proc. the 5th International Conference on Analysis of Images, Social Networks, and Texts, AIST’2016. – 2016

2. Трофимов И. В. Выявление личных имен в новостных текстах на материале коллекций Persons-1000/1111-F // RCDL-2014. − 2014.

3. Ivanin, V., Artemova, E., Batura, T., Ivanov, V., Sarkisyan, V., Tutubalina, E., & Smurov, I. RuREBus-2020 Shared Task: Russian Relation Extraction for Business // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialog”. 2020. URL:

http://www.dialog-21.ru/media/5098/ivaninvaplusetal-182.pdf

4 курс,

01.03.02

Тема: Алгоритмы автоматизированного распределения заявлений, поступающих в суд.

Краткое описание: исключение человеческого участия при распределении дел между судьями имеет один очень важный аспект – нивелирует коррупционные риски и исключает условия для возникновения конфликтов интересов. Кроме того, тему исследования можно считать актуальной также и с точки зрения заботы об условиях труда работников суда: равномерно распределенная нагрузка на человека снизит угрозу профессионального выгорания на рабочем месте и

создаст более комфортную рабочую среду, что повлечет за собой повышение

производительности труда. Инструментальные средства: Excel, VBA, PHP.

1. Оптимизация нагрузки судей как средство правовой защиты участников

судопроизводства и повышения качества правосудия –

https://pravo.ru/judicial_community/view/80592/.

2. Т. Ю. Бочаров, В. В. Волков, Л. А. Воскобитова, А. В. Дмитриева, А. А.

Смола, К. Д. Титаев, И. В. Цветков «ПРЕДЛОЖЕНИЯ

ПО СОВЕРШЕНСТВОВАНИЮ СУДЕБНОЙ СИСТЕМЫ В РОССИЙСКОЙ

ФЕДЕРАЦИИ И ИЗМЕНЕНИЯ НОРМАТИВНЫХ АКТОВ В ЦЕЛЯХ ИХ

РЕАЛИЗАЦИИ».

3. Автоматическое распределение гражданских дел,

http://www.consultant.ru/law/podborki/avtomaticheskoe_raspredelenie_grazhda

nskih_del/.

4. Обновление судопроизводства. Об автоматическом распределении дел,

https://www.advgazeta.ru/mneniya/obnovlenie-sudoproizvodstva/

5 курс (заоч), 09.03.02

Тема: Задача потокового преобразования речи в текст

Краткое описание: программное обеспечение, с помощью которого можно преобразовать речевую информацию в текстовую, уже давно существует. Однако найти приложения, которые позволяют распознавать любую слитную речь человека и отправлять полученный текст на множество устройств в режиме реального времени, становиться проблематичным.

1. Автоматическое распознавание речи. Учебное пособие. И.Б. Тампель, А.А. Карпов [Электронный ресурс]. URL: https://books.ifmo.ru/file/pdf/1921.pdf.

2. Синтез и распознавание речи. Современные решения. Александр Фролов, Григорий Фролов, 2003 [Электронный ресурс]. URL: http://www.frolov-lib.ru/books/hi/index.html.

3. Леонович А. А. Современные технологии распознавания речи [Электронный ресурс]. URL: http://masters.donntu.org/2012/iii/akopyan/library/article1.htm.

1 курс,

01.04.02

Тема: Адаптация языковой модели BERT для классификации текстов небольшого объема на дореволюционном языке

Краткое описание: в настоящее время, актуальным становится сравнительный анализ различных моделей нейронных сетей с целью определения их применимости к подобным задачам на редких и малых языках, для которых не существует достаточно объемных по числу слов словарей (корпусов).

Целью исследования является адаптация языковой модели BERT для классификации текстов дореформенного русского языка, что позволит

улучшить качество обработки и анализа этих текстов с использованием

современных преобразовательных моделей.

1. Проблема атрибуции в журналах «Время», «Эпоха» и еженедельнике

«Гражданин» : монография / А. А. Рогов, Р. В. Абрамов, Д. Д. Бучнева, О. В.

Захарова, К. А. Кулаков, А. А. Лебедев, Н. Д. Москин, А. В. Отливанчик, Е.

Д. Савинов, Ю. В. Сидоров. — Петрозаводск : Издательство «Острова», 2021.

С. 242–248.

2. Vasilyev, S. N., Golubov, A. Y., & Nechaev, S. S. Трансформеры в анализе

естественного языка: современное состояние и перспективы // Журнал

"Искусственный интеллект и принятие решений". 2019. Т. 12. №3. С. 45-56.

3. Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. Bert: Pre-training of deep

bidirectional transformers for language understanding // URL:

https://arxiv.org/pdf/1810.04805

1 курс,

09.04.02

Управление данными

Тема: Применение Doc2Vec модели при решении задачи атрибуции текстов

Инструментальные средства: Excel, VBA, PHP, MySQL, Python, gensim и пр.

2. Мандель И.Д. Кластерный анализ. М., «Финансы и статистика», 1988.- 176 с..

1 курс,

09.04.02

Управление данными

Тема: Практические аспекты дата инженерии.

Краткое описание: Рассматриваются вопросы построения конвейеров данных

22505 Е.А. Федорова

1 курс,

09.04.02

Управление данными

Тема: Разработка ИИ инструмента для хранения ЛНА организации.

Краткое описание: В настоящее время существуют классические решения для организации хранения локальных нормативных актов организаций: от справочно-правовых систем (Консультант+, Кодекс, Гарант и т.п.) до систем электронного документооборота (ЭОС Дело и т.п.). В развитием языковых моделей искусственного интеллекта перспективным выглядит их использование в качестве их полноценного использование вместо вышеуказанных систем, либо в качестве промежуточного звена для приема запросов (промтов). Инструментальные средства: Python, PHP, XML и пр.

1 курс,

09.04.02

Управление данными

Тема: Генерация редакторских правок в публицистических статьях.

Краткое описание: В информационной системе «СМАЛТ» накоплена база данных по публицистическим статьям второй половины 19 века разных авторов. Известно, что редакторы ряда журналов подвергали правке статьи других авторов, привнося в них свой авторский стиль. Задача исследовать возможности современных языковых моделей для генерации преобразованного редакторскими правками авторского текста. Инструментальные средства: Python, PHP, MySQL и пр.

2 курс,

01.04.02

Анализ данных (Data Science)

Тема: Разработка системы сегментации речи нескольких дикторов с использованием методов кластеризации и определения ролей говорящих.

Краткое описание: в области анализа и обработки речи существуют задача

22603 А.Н. Хайдарова

Смирнов Николай Васльевич, к.т.н, доценти кафедры ТВиАД.

Только очное отделение.

Email: smirnov_work@mail.ru

№ курса и Направление

Тема (название темы, краткое описание и список рекомендуемой литературы)

ФИО студента, № группы

Прикладная математика

2 курс

Тема:

Подготовка датасета для решения задачи NER

Краткое описание:

Подготовка большого текстового датасета для решения задачи распознавание именованных сущностей (NER). Дообучение и тестирование модели на этом датасете.

Прикладная математика

2 курс

Тема:

Разработка заданий по дисциплине “Анализ данных на Python”.

Краткое описание:

Разработать практические задания по дисциплине “Анализ данных на Python”. Обеспечить автоматизацию их проверки.

ИСИТ

2 курс

Тема:

Исследование возможной агентного подхода.

Краткое описание:

Исследование возможностей и тестирование AI-агетов.

ИСИТ

2 курс

Тема:

Детектирование объектов.

Краткое описание:

Подготовка набора изображений для обучения и тестирования модели YOLO. Обучение и тестирование модели на этом датасете.

*Для проведения исследования необходим компьютер видеокартой с не менее 10 Гб видеопамяти.

Прикладная математика

4 курс

Тема:

Разработка интеллектуального ассистента.

Краткое описание:

Разработать telegram чат-бота в конкретной области (кулинария, законы, …). При генерации ответа на вопрос чат-бот использует большие языковые модели (LLM) и наборы правил.

ИСИТ,

4 курс

Тема:

Программный комплекс для распознавания рукописных цифр и букв

Краткое описание:

Подготовка датасета. Обучение и тестирование моделей машинного обучения.

*Для проведения исследования необходим компьютер видеокартой с не менее 10 Гб видеопамяти.

Программная инженерия

4 курс

Тема:

Дообучение модели векторного представления слов

Краткое описание:

Подготовка датасета и дообучение эмбеддинг модели на нем.

гр. 22407,

Дзида Вадим

Прикладная математика

1 курс магистратура

Тема:

Разработка программного комплекса для распознавания текста документа

Краткое описание:

Исследование и разработка алгоритмов для распознавания текста на изображениях

гр. 22503,

Мендюков Михаил

Прикладная математика

2 курс магистратура

Тема:

Разработка интеллектуального ассистента туристической компании

Краткое описание:

Разработка рекомендательной системы и чат-бота на ее основе для помощи в подборе туристского продукта.

гр. 22603,

Иванов Константин

Дата обновления: 29.09.2025

,

Петрозаводский государственный университет

ПетрГУ

Институт математики и информационных технологий

ИМИТ

Темы кафедры теории вероятностей и анализа данных