Андрей Семенов принял участие в мастерской Digital Methods and Research Data Management in the Humanities and Social Science

Старший научный сотрудник ЦСИПИ Андрей Семенов принял участие в международной мастерской Digital Methods and Research Data Management in the Humanities and Social Science, организованный Германским историческим институтом 7-8 октября 2019 года в Москве. Мастерская была посвящена вопросам “цифровизации” гуманитарных и социальных наук, также управлению и хранению данных.

Организаторы мастерской - проект Discuss Data, в состав которого входит университеты Бремена и Гетингена, - рассказали о платформе с одноименным названием. Цель проекта - создать репозиторий для исследовательских проектов и баз данных исследователей, специализирующихся на изучении Восточной Европы. Платформа предполагает не только надежное хранение данных, но и инструменты для обсуждения, присвоение цифровых идентификационных номеров (DOI), а также техническую помощь в размещении баз данных и других цифровых объектов на платформе.                            

Андрей Семенов выступил с докладом “Compiling Event Catalogues in Russian Politics: Scope and Limits”, в котором рассказал об особенностях создания событийных каталогов, основанных на сообщениях СМИ. Событийные каталоги - широко распространенный инструмент анализа в социальных науках, он позволяют описать динамику и  пространственное распространение событий определенного типа. однако создание таких каталогов предполагает принятие определенных методологических решений, которые в конечном счете влияют на надежность, охват и систематические смещения в данных. База данных Contentious Politics in Russia, созданная в рамках проекта РФФИ “Факторы коллективной мобилизации в России” (2018-2019), позволяет получить представление о том, насколько исходные материалы и процедуры сбора данных позволяют точно оценить масштаб и динамику коллективных действий россиян.

Вторая сессия первого дня была посвящена историческим данным. Профессор Стивен  Уиткрафт (университет Мельбурна) рассказал о прогрессе в публикации  социально-экономической статистике дореволюционной и советской России. Он подчеркнул, что потенциал этих данных до сих пор не раскрыт, в частности, из-за представления о масштабной фальсификации и ненадежности советской статистики. Марк Швиндт (университет Бохема) и Штефан Хесбрюген-Валтер (НИУ ВШЭ) представили проект “Концепт свободы”, направленный на изучение дискуссий о свободе в российской интеллектуальной среде. В частности, проект направлен на создание корпуса текстов о состоянии дебатов в начале ХХ века на основе “идейных сборников” (таких как “Вехи”). Ключевой проблемой в создании такого корпуса является противоречия в законодательстве, регулирующем авторские права и доступ к копиям материалов. Надежда Паврозник (ПГНИУ) рассказала об архивации веб-данных о российских виртуальных музеях.

Продолжая дискуссию о сборе исторических данных, Себастиан Шиндлер (Германский исторический институт) рассказал о проекте по оцифровке данных о советских и немецких военнопленных. Текущий охват составляет более одного миллиона документов, что создает трудности с точки зрения обработки и хранения такого объема данных. Сергей Корниенко и Динара Гагарина (НИУ ВШЭ) представили базу данных о парламентариях предреволюционной России.

Второй день мастерской был посвящен архивным данным, а также созданию корпусов литературных текстов. Михаил Мельниченко (Европейский университет в Санкт-Петербурге) рассказал о проекте “Прожито”, в рамках которого оцинковано около 1700 личных дневников, и о планах по его развитию. Владислав Реутский (ГИИ) представил проект “Корпус российских переводов”, Яков Клоц (Городской университет Нью-Йорка) - онлайн-проект “Тамиздат”, Франк Фишер (НИУ ВШЭ) - DraCor, онлайн-корпус драматических текстов русском литературы. Участники обсудили проблемы, связанные с оцифровкой и хранением данных, режимами правового регулирования авторских прав, а также доступа к данным через application programming interface (API).