Центр исследования компьютерной преступности

home контакты

Возможности применения новейших технологий в информационно-аналитическом обеспечение Государственной системы защиты промышленной собственности

Дата: 07.02.2006
Источник: www.crime-research.ru
Автор: Олександр Юрченко, к.ю.н.


... /> Структурний портрет тексту (змістовна мережа) може бути побудований як для одного тексту, так і для будь-якої їхньої безлічі. Загальна мережа понять, побудована у великій кількості текстів, що відносяться до однієї предметної галузі-рубрики, використовується для навігації по рубриці, а також для порівняння з мережами вхідних текстів при їхній класифікації. Мінімальний деревоподібний підграф семантичної мережі являє собою тематичне дерево, що, як і семантична мережа, описує зміст тексту, а також дозволяє здійснювати навігацію по тексту. Тематичне дерево більше схоже на зміст тексту. Вихідний текст (безліч текстів) разом з їхньою семантичною мережею являє собою гіпертекстову структуру і є одночасно сховищем текстів і базою знань. Семантична мережа може бути використана для автоматичної розбивки безлічі текстів на підмножини - таксономії. При цьому групи текстів формуються з обліком закладеної в текстах тематичної структури.

Порівняння семантичної мережі вхідного тексту із семантичними мережами рубрик (класифікація) дозволяє зробити висновок про приналежність тексту до тематики однієї чи декількох рубрик. У результаті класифікації здійснюється зв'язування вхідного тексту з однієї чи декількома рубриками, обумовленими користувачем, чи з рубриками, отриманими при таксономії.

Семантична мережа формує метричний простір, у якому текст і будь-яке його речення є векторами. Вибираючи найбільш істотні вектори в цьому просторі (речення), можна автоматично побудувати реферат. Використовуючи тільки частину мережі, що описує деяку тему, можна побудувати реферат і для заданої теми тексту (тематичний реферат) у виді послідовності найбільш значимих для заданої теми речень тексту. Вибір підмережі, зв'язаної з деяким поняттям чи групою понять, дозволяє здійснити змістовний підбор текстів (асоціативний пошук) на задану тему.
Аналіз динаміки тематичних таксонів (рубрик), сформованих автоматично, дозволяє визначати появу нової події чи теми в потоці інформації (тематичну динаміку).
Нейромережева основа. В основі обробки текстової інформації лежить нейромережева технологія [11], єдина для обробки інформації різних модальностей: текстової, акустичної [12], візуальної [13]. При обробці інформації різних модальностей міняється тільки спосіб виділення первинних ознак, а при обробці текстової інформації додатково вводиться зайвий етап обробки - перенорміровка ваги слів.
Нейромережева технологія обробки інформації базується на двох фундаментальних посилках. Інформація представляється у виді одномірної послідовності символів. Починаються спеціальні зусилля для приведення її до такого представлення. Наприклад, для візуальної інформації здійснюється виділення крапок зображення, що несуть найбільші зведення, потім виробляється сканування їхньої послідовності у визначеному порядку, що приводить до формування деякої інформаційної послідовності. Для мови подібні перетворення простіше, оскільки вона споконвічно одномірна; те ж і з текстами.

Далі ця одномірна інформаційна послідовність відображається в багатомірний сигнальний простір за допомогою вікна довжиною в n символів таким чином, що кожні n символів є координатами крапки в цьому просторі. А всієї послідовності відповідає траєкторія - послідовність крапок у цьому просторі. Таке відображення дозволяє відновлювати внутрішню структуру вхідної інформації, якщо така там мається. Справа в тім, що це відображення асоціативні по своїй природі. Як тільки вікно заповнене, воно відразу адресує нас до відповідної крапці простору. Допустимо, вхідна послідовність має повторювані фрагменти, наприклад, слова. Тоді, з появою в послідовності слова, що уже раніше зустрічалося, траєкторія циклічно проходить по своєму фрагменті, що відповідає цьому слову. Якщо є механізм пам'яті, що фіксує число проходжень траєкторією через задану крапку простору, а також граничне перетворення (тобто перетворення виду: а = 1, якщо b > h, і а = 0, якщо b < h, де h - поріг), ми в здатні усунути з розгляду крапки траєкторії, що зустрічаються нечасто і зберегти крапки, що зустрічаються часто. Після такого відсівання в сигнальному просторі залишається лише інформація, що стосується повторюваних фрагментів послідовності - слів словника заданого рівня.
Після формування такого словника його можна використовувати для фільтрації старої інформації в потоці повідомлень. Такий фільтр пропускає на вихід тільки нову інформацію, що формує нову послідовність. Вона схожа на стару, з тією різницею, що місця в ній, що відповідали старої інформації, заміняються нулями. Ця послідовність зв'язків слів піддається обробці на наступному рівні, і формує словник уже цього рівня. І так далі. При цьому зв'язки слів словника нижнього рівня враховуються в словах словника наступного рівня.

У випадку обробки текстів алгоритм трохи спрощується; залишається тільки два рівні аналізу. При цьому зберігається основна мета - сформувати словник слів і виявити зв'язок між ними, тому на першому кроці формується словник слів. Але на другому кроці, замість формування послідовності абревіатур шляхом фільтрації слів словника, сформованого на першому рівні, аналізується попарна зустрічальність слів у реченнях.

Таким чином, виявляються зв'язки між словами. Отримана інформація являє собою частотний портрет тексту, що може бути візуализирован у виді мережі слів словника і їхніх зв'язків. Причому, і слова словника, і їхній зв'язок одержують у результаті аналізу деяких частотних характеристик.
Для обробки текстів, на відміну від мови і відео, вводиться ще одна операція - перенорміровування числових характеристик слів. Для цього використовується ітеративний алгоритм роботи нейтронних мереж Хопфилда [13]. На кожній ітерації слово мережі збільшує свою вагу, якщо воно виявляється зв'язаним з багатьма іншими словами з великою вагою, а інші слова її рівномірно втрачають. Так, якщо слово зустрілося двічі - у заголовку й в анотації, воно є ключовим поняттям і може придбати дуже велику вагу.
Можливі додатки. Рішення для пошуку інформації в Web. Дана технологія дозволяє за допомогою пошукових програмних агентів автоматично підібрати інформацію з заданої теми і створити базу знань. Web використовується як глобальне сховище знань. Технологія пошукових програмних агентів дозволяє здійснити тематично спрямований збір інформації в Internet і формування бази знань. Побудова бази знань починається з теми, що може бути задана одним-двома словами. При пошуку вона обростає значеннєвими доповненнями (вони виходять за рахунок розширення асоціаціями на асоціативній мережі), по яких пошукові програмні агенти теж збирають інформацію.

Персоніфікація процесу збору й аналізу інформації. Сформована персональна база знань користувача стає своєрідним фільтром, що дозволяє підвищити точність виконання таких операцій як пошук у Internet і моніторинг нової інформації. При цьому визначаються і враховуються переваги користувача. Під час пошуку інформації в Internet спеціальний програмний агент переглядає зміст сторінок, на яки заходить користувач, зчитує з них інформацію і поміщає в персональну базу знань користувача, у якій на верхніх рівнях відновлюються його основні інтереси і переваги. Використовуючи персональну базу знань, програмні агенти можуть автоматично збирати нову інформацію, що відповідає інтересам користувача. Персоніфікована фільтрація дозволяє автоматично вибрати тільки ту інформацію, що може виявитися цікавою.

Повнотекстові бібліотеки. Асоціативна мережа може бути використана, поряд зі стандартними рубриками, для навігації по базі текстів.
Фільтрація текстів. Така система може використовуватися з метою «не випускати» чи «не впускати» повідомлення, наприклад для недопущення витоку конфіденційної інформації. Вона ж може використовуватися для класифікації текстів по рубриках (адресатам).

Оболонка для електронних книг. Гіпертекстове представлення зручне для створення електронних книг.

Висновок. Програма TextAnalyst дозволяє автоматично сформувати змістовний портрет тексту у виді асоціативної мережі основних понять з їхніми зв'язками, позначеними їхніми числовими характеристиками. Семантична мережа разом з вихідним текстом являють собою гіпертекстову структуру, на якій семантична мережа відіграє роль ефективного засобу навігації. Розбивка мережі безлічі текстів на підмережі робить автоматичну таксономію безлічі текстів по рубриках. Порівняння семантичних мереж текстів дозволяє виявити ступінь кореляції між текстами, а порівняння семантичних мереж вхідного тексту і рубрик - віднести текст до однієї з рубрик. Елементарно будується реферат тексту. Так само просто будується тематичний реферат і здійснюється змістовний пошук на безлічі текстів. Оскільки нейромережева технологія реалізує специфічний статистичний аналіз, обробка тексту не залежить від предметної області і від мови, виконується швидко і не вимагає дискового простору. В даний час TextAnalyst підтримує сімох мов, включаючи китайський.

Література
1. Юрченко А.М. Проблемы защиты интеллектуальной собственности Украины в контексте евроинтеграционного развития // Бизнес и безопасность.–2004. - №4 (41).- С.5-7.
2. Безпека комп'ютерних систем. Комп'ютерна злочинність та її попередження / М.С.Вертузаєв, В.О.Голубєв, О.І.Котляревський, О.М.Юрченко / Під ред. О.П.Снігерьова. - Запоріжжя: ПВКФ "Павел", 1998. - 316 с.
3. Системно-структурный подход к совершенствованию аналитической работы в органах внутренних дел в условиях создания, функционирования и развития ОАСУ (ЕИВС) / Ю.И.Аболенцев, М.С.Вертузаев, В.А.Гадышев, Т.А.Мацко: Учеб. пособ. - М.: Академия МВД РФ, 1992. – 271 с.
4. Вертузаев М.С., Попов А.Ф., Юрченко А.М. Мошенничество с использованием пластиковых платежных средств (из опыта работы ГУВД г.Москвы) // Бюлл. по обмену опытом работы органов внутренних дел Украины. - К.: РИО МВД Украины, 1998. - №122.- С.49-54.
5. Шахрайство з пластиковими платіжними...

Добавить комментарий
Всего 0 комментариев


Copyright © 2001–2007 Computer Crime Research Center

CCRC logo
Рассылка новостей


Rambler's Top100