ИИ делает выводы из научных статей. Так, чтобы понял даже первоклассник

Проект tl;dr papers помогает взглянуть на исследования под другим углом. Пока только на англоязычные.

У научного языка не просто так репутация сложного для понимания. Но что, если бы мы могли использовать машинное обучение, которое обобщало бы выводы академических статей, чтобы их могли понять даже дети? Именно это делает tl;dr papers — проект, использующий последние достижения в области обработки естественного языка. 

Два приятеля по университету, Яш Дэни и Синди Ву, начали работу над сайтом два года назад. Это был их способ «узнать больше о разработке программного обеспечения», как объяснил Дэни порталу The Verge. Однако, когда на прошедших выходных ученые начали делиться своими краткими отчетами в Twitter, сервис быстро стал вирусным. Результаты, генерируемые ИИ, бывают не слишком точными или чрезмерно упрощенными. Однако зачастую они оказываются вполне удовлетворительными и очень краткими, представляя таким образом научный стиль в духе «устами младенца глаголит истина». 

Например, краткое изложение статьи профессора Мишель Райан, директора Global Institute for Women’s Leadership в Австралийском национальном университете. Она описала концепцию «стеклянной скалы» — форму гендерной дискриминации, при которой женщин назначают на руководящие должности, когда компания подвергается наибольшему риску неудачи. ИИ сократил ее работу до определения: «Стеклянная скала — это место, куда попадают многие женщины. Это плохое место». Как отметила профессор Райан: «Это просто превосходно».

Профессор отметила, что резюме оказалось «точным и содержательным», хотя в нем и не было множества нюансов, связанных с концепцией. Отчасти это связано с важной оговоркой: в tl;dr papers анализируется только реферат научной статьи, который представляет собой сжатую версию целой. Проанализировать статью полностью — гораздо более сложная задача, хотя создатели сервиса уже работают над этим. 

Райан говорит, что tl;dr papers — это не просто интересный инструмент, но также «отличная иллюстрация того, как должно выглядеть хорошее научное общение»:

Я думаю, многие из нас могли бы писать так, чтобы это было удобно для читателя. Первоклашка в качестве целевой аудитории — это неплохое начало. 

Зейн Гриффин Тэлли Купер, кандидат наук Анненбергской школы коммуникаций Пенсильванского университета, назвал резюме ИИ «освежающе понятными». Он использовал сайт, чтобы проверить свою статью об истории физической составляющей периферийных вычислений, которые необходимы для инфраструктуры больших данных. Или, как резюмировал tl;dr papers: «Большие данные хранятся на жестких дисках. Эти жесткие диски сделаны из очень маленьких магнитов. Магниты добываются из-под земли».


По мнению Купера, инструмент кажется шуткой только на первый взгляд, и подобные системы могут найти серьезное применение в сфере образования в будущем. Они могут использоваться студентами, когда нужно написать научную статью или выставить в публичный доступ сокращенную часть реферата для ознакомления. «Конечно, это возможно только в случае правильного оформления и с соблюдением практических и этических нюансов», — уточняет Купер. 

Такие ограничения все еще изучаются компаниями, которые производят системы ИИ, несмотря на то, что похожие программы появляются в общедоступных инструментах. Сервис tl;dr papers был запущен на базе GPT-3 — одного из самых известных инструментов письма ИИ, созданного OpenAI. Это объединение исследовательской лаборатории и коммерческого стартапа тесно сотрудничает с Microsoft.

Microsoft использует GPT-3 и подобные ему инструменты, чтобы создавать ПО для автозаполнения для программистов. Недавно компания начала предлагать бизнесу доступ к этим инструментам в рамках своих облачных пакетов. В Microsoft заявляют, что GPT-3 можно использовать для анализа тональности текста, генерации идей для бизнеса и сжатия документов: например, стенограмм встреч или переписок по электронной почте. Похожие инструменты уже доступны в популярных сервисах Gmail и Google Docs, которые предлагают пользователям функции автозаполнения на основе ИИ.

Однако этичность подобных ИИ-систем вызывает споры. Снова и снова всплывают примеры того, как эти инструменты кодируют и усиливают неуместную лексику на основе своих обучающих данные (обычно это просто огромные объемы текста из интернета). Они повторяют расистские и сексистские стереотипы и оскорбления.

Другие опасения связаны с неточностью систем. Инструменты манипулируют языком только на статистическом уровне: у них нет эквивалентного человеческому понимания того, что они «читают» — и это может привести к ошибкам. В прошлом году поиск Google, который использует ИИ для обобщения тем, предоставил вводящие в заблуждение медицинские советы на запрос о том, что делать, если у кого-то случился припадок. 

Джатан Садовски, старший научный сотрудник Исследовательской лаборатории новых технологий в Университете Монаша, который также прогнал свою статью через tl;dr papers, отметил, что с подобными системами ИИ следует обращаться осторожно.

Возможно, однажды [эта технология] станет настолько сложной, что это сможет заменить научного сотрудника, которых будет выдавать вам идеально точную библиографию академической литературы, пока вы спите. Но сейчас мы очень далеки от этого. 

 

Непосредственная польза от инструмента — в первую очередь, его новизна и юмористическая составляющая. С практической точки зрения я могу рассматривать его как катализатор творчества. Что-то, что дает возможность взглянуть на вашу работу под другим углом.

К сожалению, хотя посты tl;dr papers были восторженно приняты научным миром, не похоже, что в ближайшее будущее сайт ждет большое будущее. После вирусных выходных от него осталась лишь страничка «сайт на обслуживании», а создатели говорят, что не планируют поддерживать его в будущем. 

«Я ценю внимание, которое получило приложение, и благодарю людей, которые попробовали его, [но] учитывая, что это всегда было задумано как образовательный проект, я планирую закрыть tl;dr papers в ближайшие дни, чтобы сосредоточиться на изучении новых вещей», — объяснил Яш Дэни.