
Компания Cognitive Technologies представила систему автоматического анализа и сравнения текстов. Принцип работы Cognitive Text Analyzer состоит в следующем. В систему вводится исследуемый текст. Далее, Cognitive Text Analyzer проводит синтаксический, семантический и структурный разбор и анализ текста, устраняет синтаксические и семантические неоднозначности и выявляет порядка сотни характеристик, присущих данному тексту. Точное количество характеристик зависит от объема текста и разнообразия конструкций, встречающихся внутри него. Скорость разбора текста на современном офисном компьютере составляет 450-500 страниц текста в минуту.
По словам разработчиков, при разработке систем сравнения текстов необходимо исходить из того, что текст каждого автора уникален. Как рисунок отпечатков пальцев уникален для каждого человека, так и у каждого автора существует свой собственный стиль. Один автор использует больше глаголов, другой, больше существительных или прилагательных. Кто-то пишет только о природе. Кто-то о войне. У кого-то есть свои излюбленные обороты или другие литературные приемы и схемы, характеризующиеся конкретными структурными связями.
"Если о принадлежности отпечатков пальцев конкретному человеку говорят методы дактилоскопии, то принадлежность текста конкретному автору можно определить с высокой точностью с помощью представляемой сегодня Cognitive Text Analyzer. Однако, при решении задачи анализа текстов необходимо принимать во внимание факт, что стиль (впрочем, как и линии руки) может со временем меняться", - говорят в компании.
Элементы технологии анализа созданы в рамках реализации крупных проектов, а также программы исследований и разработок, ведущихся в компании.
В пресс-службе Cognitive говорят, что в отличие от существующих систем проверки на плагиат, использующих признаки, которые можно рассчитать вручную (например, среднее количество слов в предложении, среднее число прилагательных и т.п.), Cognitive Text Analyzer учитывает не только и не столько грамматические категории, выделенные в тексте, сколько структурные связи, подчиненность одних конструкций другим в рамках предложения. Выделенные связи инвариантны к перестановке абзацев и предложений внутри текста, контекстной замене слов.
"Как показали исследования, эти характеристики демонстрируют высокую статистическую устойчивость в применении к произведениям конкретного автора. Это позволяет сравнивать текстовые произведения, получать количественные оценки их близости и с высокой статистической достоверностью судить о принадлежности перу того или иного автора. Например, если в басне И.Крылова «Ворона и лисица» заменить «ворону» на «корову», «лисицу» на «синицу», а «сыр» на «сервелат», то Cognitive Text Analyzer, несмотря на это с высокой долей вероятности подтвердит близость измененного текста к оригиналу. Аналогичная оценка будет и в случае, если в тексте переставить местами абзацы", - отмечают в компании.
источник
Ссылки по теме:
Впервые законопроект был представлен во время недавней речи Королевы Великобритании. Документ описывался как «мера, предназначенная для поддержания способности правоохранительных органов и спецслужб получать доступ к важным данным при строгом соблюдении прав подданных».
В официальном пресс-релизе компании указывается, чем, помимо работы, сотрудники занимаются на своих рабочих местах. По результатам исследования среднестатистический сотрудник тратит около 40% рабочего времени на нерабочую деятельность.
Корпорация IBM представила новое программное обеспечение, призванное помочь организациям лучше управлять и контролировать безопасность процесса стремительного распространения смартфонов и планшетных компьютеров на рабочих местах, поддерживая при этом надежное управление ноутбуками, настольными компьютерами и серверами.
Microsoft желает поддерживать высокий уровень совместимости с основным функционалом файловой системы NTFS, исключив при этом тот функционал, который усложняет работу. ReFS нацелена на оптимизацию, а также поддержание стабильности и гибкости системы хранения данных.
Сегодня, когда в мире ежедневно появляется более 35 000 новых вредоносных программ, только сочетание традиционных антивирусных методов и новейших облачных технологий позволяет надежно защитить пользователей от всех типов современных интернет-угроз.