Что добывает «текстовый шахтёр»? — Федеральный исследовательский центр

Что добывает «текстовый шахтёр»?

Проникновением компьютерного анализа в галактики Интернета сегодня никого не удивишь. Любой поисковик быстро отыщет имя, отчество, место работы и учёную степень кандидата биологических наук Владимира Александровича Иванисенко, заведующего лабораторией ФИЦ «Институт цитологии и генетики СО РАН». Однако же, он и его коллеги добились от искусственного интеллекта почти невозможного: информационно-аналитическая система, созданная ими, выдаёт не набор публикаций, а структурированные знания.

 
— Не случайно, что такими разработками занялись именно в биологических институтах. В науках о жизни (если брать их полный диапазон, включая и медицинские дисциплины) за последние десятилетия произошла настоящая революция, что отразилось на количестве публикаций. Ещё десять лет назад их появлялось ежегодно 400-500 тысяч, то сегодня — более полутора миллионов! Подчеркну, что речь идёт только о научных статьях в специализированных изданиях. Их поток нарастает по экспоненте, от степени к степени, и есть прогнозы, что темпы этого процесса будут только увеличиваться (объясню немного позже, почему). Но и сегодня «ручная» работа с источниками становится неподъёмной. Легко посчитать: если учёный будет ежедневно заниматься только изучением научной литературы и тратить лишь минуту на просмотр одной статьи, то на освоение всего объёма ему понадобится более 135 лет, поскольку с начала 1960-х годов накопилось около 24 миллионов оцифрованных текстов.
 
Поэтому в среде биологов родилась идея о необходимости создания систем класса Text Mining — не просто поисковых, а с серьёзным аналитическим функционалом. В ИЦиГ пионером выступил профессор Андрей Юрьевич Ржецкий. Уже после его отъезда в Чикаго к нам в лабораторию пришли молодые и очень талантливые ученые, биоинформатики и программисты, усилиями которых была создана принципиально новая компьютерная система. Она получила название Associative Network Discovery System, сокращённо — ANDSystem. Следует особо отметить поддержку этой работы со стороны академика Николая Александровича Колчанова, который в то время был заместителем директора ИЦиГ СО РАН. 
 
— Неужели ваша система  способна проанализировать десятки миллионов текстов?
 
— Нет, конечно. Первоисточник ANDSystem ограничен базой PubMed, которая содержит публикации только на английском, а также переводные аннотации статей немецких, французских, итальянских, японских и, с меньшей частотой, авторов из других стран.
 
— Насколько сложно сделать ANDSystem многоязычной?
 
— Намного легче, чем научить человека ещё одному языку. Это входит в наши ближайшие планы. Во-первых, отечественные статьи 20-30-летней давности, не утратившие своей актуальности, выходили только на русском. Во-вторых, особый интерес вызывает то, что публикуется в Китае на родном языке, так сказать, для внутреннего употребления. Из европейских планируем начать с немецкого, поскольку сотрудничество с Германией у нас традиционно наиболее активно. 
 
— Вопрос, который следовало задать раньше: «как это работает»? Можете ли объяснить для неспециалистов, по какому принципу сканируются тексты?
 
— Поисковый блок ANDSystem содержит набор онтологий, то есть групп терминов. Биологических видов на Земле насчитывается более 300 тысяч. Сверх того — типы клеток, молекул, всех их элементов по нисходящей, вплоть до определенных генов. Особую область объектов представляет медицина: заболевания, диагнозы, симптомы, ответы организма, его органы и системы, средства лечения и профилактики и так далее. Важную роль играют взаимодействия — транспорт, катализ, экспрессия, подавление, репарация… Перечисления могут быть очень и очень долгими, поскольку на сегодня наша система содержит около 2 миллионов меток.
 
— И они «закрывают» весь тезаурус по наукам о жизни?
 
— Не совсем так. Такой уровень универсальности невозможен, да и не нужен. Около 90% статей из PubMed так или иначе связано с молекулярной биологией и молекулярной медициной.  Описания фенотипов всё-таки уже относится больше к истории науки, чем к её современному состоянию.
 
— А как решается проблема синонимов, омонимов и прочих лингвистических каверз? Вы же помните, наверно, историю, как Институт белка РАН в переводе стал Squirrel Institute?
 
— Конечно. Во-первых, в ANDSystem работает около 5 000 семантических правил. Во-вторых, для определенных случаев (вроде упомянутых вами) есть специальный блок исключений, введенных «вручную» для конкретных терминов. Таким образом, падежи слова «белок» никогда не превратятся в древесного грызуна. При этом, замечу, никакая автоматическая система — хоть Google, хоть наша, хоть любая другая — не выдаст стопроцентной точности извлечения информации. У ANDSystem она составляет 70-75%, а остальная четверть — ошибочно найденные факты. Разумеется, мы этим не удовлетворены, и прототип новой версии, который находится в работе, должен будет давать максимум 4-5% ошибки.
 
— И как выглядит конечный продукт, который получает потребитель? Перечень статей строго по теме запроса? Их дайджест?
 
— Ни то, ни другое. Приведу сравнение со старыми руководствами по эксплуатации автомобиля. Сегодня это типичный user`s guide: на какой рычажок нажать, чтобы включить полный привод, не более того. А раньше, для «Москвичей» и «Запорожцев», издавали целые альбомы со схемами взаимодействия систем, узлов и агрегатов. Вот генератор, он связан с электросетью, в которую также включены те-то и те-то элементы. Так и пользователь ANDSystem получает двухмерную графику, отображающую взаимоотношения искомого объекта (например, органического соединения) с другими — разумеется, те, которые достоверно установлены и описаны в научных публикациях. По сути, это карта молекулярно-генетических связей, сделанная по индивидуальному запросу. Кликнув на какой-либо элемент, вы увидите  ссылки на те или иные источники, с которыми можно ознакомиться. Мы считаем, что именно такая подача материала серьёзно облегчает труд исследователя, ему теперь не нужно самому осваивать даже ограниченный набор текстов. Система сразу показывает, что из этих публикаций следует, какова их суть. 
 
— Описывая научные результаты, некоторые журналисты грешат определением «уникальный». Насколько это слово применимо к вашей разработке?
 
— Я бы сказал, на 50 и более процентов. Системы Text Mining сегодня не такая уж и редкость, но применительно к знаниям по молекулярной биологии и медицине в мире есть единственный аналог: американская Passway Studio. Она работает с базами данных Elsevier, но ограничена рамками публикаций только по человеческому организму. При этом у нас в систему заведено заметно больше типов взаимодействий (напомню, это экспрессия, транспорт, катализ и т.д.), всего таковых 24.
 
Возможностями  ANDSystem уже воспользовались коллеги из Германии, Франции, Австралии, Кипра, Израиля, Турции. Академическим организациям мы предоставляем доступ безвозмездно, фармакологическим компаниям за некоторую плату. Конечно, развитие нашего продукта предполагает более серьезный маркетинг, особенно когда речь пойдёт о достаточно массовом применении.
 
— Массовом? Но как бы бурно ни прогрессировали биологические науки, число исследователей вряд ли будет расти в той же прогрессии, что и публикаций?
 
— Я несколько о другом. Существуют прогнозы о том, что секвенирование генома в ближайшей перспективе (10-20 лет) станет весьма недорогим, порядка 100 долларов. Это приведет минимум к двум последствиям, которые можно назвать революционными. Во-первых, возникнет непредставимой силы шквал собственно научных публикаций, посвященных влиянию тех или иных генов на жизнедеятельность организма. Во-вторых, медицина реально станет персонализированной, причём в масштабе практического здравоохранения. Как уже сегодня требуют учёные-медики, в вузах появится новая, массово востребованная специальность «врач-геномик» или «врач-молекулярный биолог». Не важно, как они будут называться — важно, что возникнет ещё одна большая (и постоянно растущая) группа пользователей следующих версий ANDSystem. 
 
К ним должны будут присоединиться и, скажем так, квалифицированные пациенты. Нет,  не сегодняшние «диванные специалисты», начитавшиеся непонятных статеек из Интернета. Думаю, что революция в медицине, связанная с удешевлением секвенирования генома, столь же кардинально изменит отношения человека с собственным организмом. Но на первых порах можно также прогнозировать поток  неточных данных, а то и спекуляций на тему ответственности генов за те или иные явления. Наша же система, во-первых, содержит информацию строго научную, прошедшую рецензирование. А во-вторых, как уже говорилось, преподносит её в виде понятной схемы (в данном случае — интерпретаций полиморфизма генома): всё достаточно наглядно.
 
— Следует ли из этого, что ANDSystem уже сегодня, с незначительными доработками, готова дли решения этих задач?
 
— И да, и нет. С одной стороны, есть понятные перспективы развития. Это, как уже сказано, расширение базы источников и языков, понятийного аппарата, увеличение точности извлекаемой информации. Однако наша система построена так, что изначально стремится к универсальности, и перспектива её модернизации напоминает «сад расходящихся тропок» Борхеса, с той разницей, что «садов» несколько. То, чем мы занимаемся — это лигнвосемантический анализ предметных областей. Сегодня такая область у нас одна, к тому же локализованная в единственной (хотя и весьма представительной) базе данных. Завтра и послезавтра мест поиска знаний может стать больше, а предмет — шире. В конце концов, гипотетически он способен разрастись до такой степени, что охватит   весь массив публикаций по всем направлениям биологических и медицинских наук. Соответственно, есть стремящаяся к бесконечности перспектива совершенствования  и аналитического аппарата: введением новых функций, меток, условий, правил, исключений…
 
— Судя по выступлению директора ИЦиГ академика Николая Александровича Колчанова на одной из пресс-конференций, ваша работа на одном участке уже вышла за рамки наук о жизни и устремилась в сторону политологии…
 
— Нет, скорее это экономика и социология. Пилотный проект, начатый по нашей инициативе и развивающийся пока что исключительно на средства института, называется «Анализ качества жизни». Первичным информационным источником определены тексты, размещаемые в социальных сетях. Они являются интересным, но сложным индикатором, поэтому мы сразу установили сотрудничество с экономистами, медиками, социологами. Но рассказ об этой работе я бы отложил до того момента, когда она даст некоторые предварительные результаты.
 
Беседовал Андрей Соболевский

>
Источник: «Наука в Сибири»
``