В условиях избытка информации, и информации научной в частности, особое значение имеют структурированные базы знаний, которые в наше время получают даже большее значение, чем научные журналы и сборники. Для специалистов по ядерной физике и энергетике такая база существует уже около полувека — это создаваемая под эгидой МАГАТЭ Международная ядерная информационная система — The International Nuclear Information System (INIS).
Как она устроена, какое значение имеет для развития науки и как Россия участвует в ее работе, «Ъ-Наука» поговорила с представителем по связи с ИНИС (INIS Liaison Officer) от Российской Федерации, доцентом кафедры теоретической и экспериментальной физики ядерных реакторов НИЯУ МИФИ Юрием Волковым.
— Итак, что такое INIS?
— Это интересная международная инициатива. Собственно, основная задача МАГАТЭ — формировать коллегиальное мнение о мирном развитии атомной энергии. И в 1970 году была выдвинута инициатива со стороны СССР и США, что те публикации, которые касаются мирного использования атомной энергии, должны быть открыты и доступны. INIS была создана в 1970 году в соответствии с мандатом МАГАТЭ, предусматривающим необходимость «способствовать обмену научными и техническими сведениями о применении атомной энергии в мирных целях». С этого момента началась история INIS, появилась международная система ядерной информации, в которой собираются всевозможные публикации, но, естественно, только открытые.
— Речь идет о публикациях в научных журналах?
— Прежде всего это статьи в рецензируемых журналах, но, кроме того, в рамках INIS есть такое понятие, как «серая литература», включающая различные отчеты, материалы конференций, вплоть до жизнеописаний ученых,— в общем, все, что касается тематики ядерной науки и технологии, а это достаточно широкое понятие: начиная от физики ядерных реакторов, физики частиц и заканчивая геологией, добычей урана, захоронением ядерных отходов, это ядерная наука в самом широком смысле слова.
— Как устроен механизм пополнения этой базы?
— Прежде всего есть центральный секретариат INIS в штаб-квартире МАГАТЭ в Вене, который обеспечивает примерно 70% поступлений. Он берет публикации у известных издательств, таких как «Эльзивир», «Шпрингер» и т. д., и заносит их в базу ядерной информации. Часть информации о ней в INIS содержится в формате метаданных, то есть ты можешь посмотреть выходные данные этой публикации, но, чтобы прочесть саму публикацию, ты должен перейти на сайт издательства.
— То есть в базе остается только ссылка?
— Не только. Важно, что в INIS эта публикация будет проиндексирована, и главное преимущество принятой системы индексирования в том, что она использует так называемый ядерный тезаурус. Тезаурус — это не просто сборник терминов, потому что в нем между терминами еще простроены связи. Например, может быть выстроена связь: реактор — ядерное топливо — уран — уран-235-й и т. д. Всего тезаурус насчитывает 32 тыс. терминов, и он переведен на восемь языков. Процесс индексирования заключается в том, что каждой публикации ставятся в соответствие ключевые слова, согласно этому тезаурусу. И мы благодаря этому знаем, что эта публикация точно относится к той тематике, которая соответствует термину из тезауруса. И вот в этом как раз большая ценность. Кроме центрального секретариата в странах—членах МАГАТЭ есть национальные отделения INIS, они собирают по странам информацию, которая не поступает в открытые источники, и прежде всего публикации на языке соответствующей страны — в нашем случае на русском. А кроме того, есть отдельные организации, загружающие в базу свою информацию, например, в России это Объединенный институт ядерных исследований в Дубне, который имеет собственного офицера по связи с INIS. Ну и, скажем, ЦЕРН относится к числу таких организаций.
— В России кто является главным поставщиком данных?
— Раньше этим занимался ЦНИИатомнинформ, а после его реорганизации в 2010 году этим стал заниматься Центр INIS в НИЯУ МИФИ. Я в нем работаю и назначен представителем по связи с INIS, в просторечии — офицером по связи с INIS. Например, я участвую в совещаниях, через меня транслируются различные рекомендации. Но фактически основное руководство нами осуществляется в России госкорпорацией «Росатом».
— Ну а если мы будем говорить не о том, кто загружает, а о том, каковы те «основные точки», где рождаются сами ядерные знания, которые загружаются в систему?
— Секретариат INIS не ставит перед нами какие-то приоритеты. То есть у стран есть обязательства загрузить в базу некое минимальное количество публикаций, все равно по каким направлениям. В основном от нас ждут материалы отраслевых и академических конференций. И журналы мы тоже загружаем, например, все выпуски «Вестника МИФИ». Но в основном это, конечно, материалы конференций, потому что их часто даже не публикуют, а собирают тезисы, и они существуют только в виде PDF-файлов, это именно то, что называют «серой» литературой.
— Фактически ваша задача — загружать ту информацию, которую нельзя собрать просто по открытым научным журналам?
— Да, журнальные публикации секретариат собирает самостоятельно. Хотя если говорить о российских журналах, то тут еще нужна отдельная работа, чтобы была понятна ценность попадания в INIS.
— Вообще российские журналы попадают в поле зрения секретариата?
— Попадает то, что переведено на английский язык. Допустим, есть журнал «Атомная энергия», это один из основных журналов в ядерной отрасли, он свои статьи переводит полностью. Другие журналы, например «Вестник атомной науки и техники», только часть статей передают в журнал Physics of Atomic Nuclei, который собирает публикации по разным российским изданиям и публикует у себя с переводом на английский язык. Ключевой момент для секретариата — это должно быть на английском языке. То, что выходит на английском языке, сразу туда попадает. Многое из того, что публикуется на русском языке, сопровождается переведенными на английский язык аннотациями, в принципе этого тоже достаточно. Но тут нужно договариваться с журналами, чтобы они эту систему поддерживали. Некоторые не хотят, возможно, они стремятся, чтобы читатели приходили на их сайт и оттуда загружали.
— Велика ли доля российского контента в общем потоке, который попадает в эту базу?
— На Россию и СССР, который стоял у самых истоков INIS, приходится около 300 тыс. записей — это достаточно серьезная цифра. В прошлом году мы загрузили примерно 3 тыс. Хотя есть страны, которые загружают и побольше, например США. В Америке все публикуется на английском языке, и секретариат это берет автоматически.
— Имеет значение языковый барьер?
— Да, это ключевой момент.
— По вашим наблюдениям, в какой степени востребована эта база данных со стороны научного и инженерного сообщества?
— Тут все изменилось в последние годы. Исторически эта база данных была закрыта. Ее не было в общем доступе. До 2010 года экземпляры базы данных распределялись по ограниченному кругу организаций на CD-дисках. Но после того, как ситуация поменялась, появился Google и издательства стали выкладывать свои журналы в интернете, стало понятно, что надо быть открытыми. И с 2010 года это открытая база данных. Особенно это изменилось в последние годы, и если я вбиваю в Google запрос, касающийся моей области деятельности, допустим, физики реакторов, то где-то вторая-третья ссылка обязательно будет на INIS.
— В литературе к научной статье ссылка на INIS может заменить ссылку на научный журнал?
— Как правило, даже если мы статью посмотрели в этой базе, то в ссылке все равно берем ее исходные данные. Но для «серой» литературы это может быть.
— Как вы полагаете, для российского ученого попадание в INIS — это свидетельство его научного статуса?
— И да, и нет. Конечно, попадание в INIS — свидетельство того, что эта публикация точно не мусорная: если она прошла в базу, то в ней нет какой-то откровенно недостоверной информации и нет информации не относящейся к этой рубрики — а в INIS 27 рубрик. То есть она точно укладывается в одно из 27 направлений ядерной науки. А с другой стороны, эта нерецензируемая система. То есть туда идут публикации не только из рецензируемых журналов. Это как бы огромная библиотека. И когда мы подаем заявку на грант или участвуем в каком-то конкурсе, то там важны публикации в РИНЦ или SCOPUS. Для ученого важно повышать количество публикаций именно в рецензируемых изданиях, и желательно в верхних квартилях. А INIS собирает все. Но он серьезно повышает видимость публикации. Это важно, потому что благодаря INIS можно получать доступ к старым публикациям, скажем, 1960-х и 1970-х годов, когда проводилось много интересных экспериментов. Как раз тогда был бум развития исследовательских ядерных реакторов и много интересных экспериментов было сделано, например, по материаловедению. Этих публикаций нет на сайтах журналов. И если эта публикация важна для какого-то исследователя, механизм следующий. Ученый обращается к офицеру INIS в своей стране, тот обращается ко мне напрямую или через секретариат. И я по мере возможности разыскиваю эту публикацию.
— INIS ведет работу по оцифровке старых публикаций?
— Такая работа ведется. Например, у нас есть хороший сайт по истории «Росатома», там много материалов по истории, как создавался атомный проект, там самые ранние публикации, там жизнеописания выдающихся деятелей атомной отрасли. Очень хорошее собрание материалов. Ну а вообще оцифровкой занимаются либо издательства, либо публичные библиотеки. Эта работа была до последнего момента в общем-то ручной. А если учитывать, что все материалы надо индексировать, то это была достаточно большая работа. И автоматизация этого процесса напрашивается. Сегодня те русскоязычные публикации, которые сопровождаются англоязычными аннотациями, в принципе доступны для автоматизированного ввода. У нас в центре INIS мы уже создаем системы автоматического индексирования на основе семантических технологий ИИ. Однако необходимость в специалисте-человеке все равно остается. Критерием истинности все-таки являются те люди, которые уже на протяжении долгих лет это делают, и делают это хорошо. Но тенденция идет к тому, что этот процесс будет автоматизирован.
