Семантический и синтаксический анализ

Автор: csaa ·

Синтаксический анализ устанавливает важнейшие параметры информационных потоков, включая необходимые количественные характеристики, для выбора комплекса технических и программных средств сбора, регистрации, передачи, обработки, накопления и хранения информации. Семантический анализ позволяет изучить информацию с точки зрения смыслового содержания ее отдельных элементов, находить способы языкового соответствия (язык человека, язык ЭВМ) при однозначном распознавании вводимых в систему сообщений.

Анализ зарегистрированной в цифровой форме информации естественного языка с семантической точки зрения является вопросом значительной сложности, и он лежит в основе таких приложений, как автоматические ответы на вопросы из базы данных или восстановление информации посредством неограниченных запросов естественного языка.

Семантический анализ призван проводить смысловой анализ информации на основе изучения значений единиц языка: выявление синонимов, омонимов, антонимов, многозначных слов, анализ изменения значений единиц языка при их различных сочетаниях.

С середины 1960-х годов проводились эксперименты с методикой, которая назначала каждому документу одну или большее количество ролей (функций) и одну или большее количество связей (указатели на другие документы, имеющие ту же самую или подобную роль). Методика показала потенциальную способность для оценки прагматической меры подобия. Приблизительно 20-ю годами позже подобная техника стала популярной под именем гипертекст. В этой методике документы, которые человек или группа людей рассматривает как связанные (через понятия, иерархию, опыт, повод или другие характеристики), соотносятся через гиперссылки (hyperlinks), намечая пути ассоциации человеческих идей. Объекты, связанные таким образом, могут быть не только текстом; речь и музыка, графика и изображения, мультипликация и видео могут быть связаны в гипермедийные базы данных. Объекты хранятся с их гиперссылками, и пользователь может легко путешествовать по сети ассоциаций, щелкая мышью на ряде входов на компьютерном экране.

Математические методы

Формализация и моделирование процессов сбора, движения и преобразования информации связаны с использованием математических методов, реализующих необходимые вычислительные и логические операции, в том числе и в автоматизированных информационных системах. Поэтому правовая информатика тесно связана с математикой и использует методы различных математических наук.

В последнее время при изучении информационных процессов в области права используется теория вероятностей, математическая статистика, математическая логика, исследование операций и многие другие математические науки и дисциплины. Математические методы, специфически преломляясь в теории права, обогащают и усиливают метод правовой науки, но, естественно, не заменяют его.

Сегодня можно говорить, что усилия специалистов, применяющих точные методы математики в правовой области, сосредоточены в двух направлениях: первое — это математическая обработка результатов правовых исследований; второе — исследование структуры права математическими методами. Эти направления составляют основу для создания и применения в правовой области различных автоматизированных систем обработки социально-правовой информации.

Первое направление разрабатывалось еще в 1775 г. Пьером Симоном Лапласом, предложившим использовать методы теории вероятностей для оценки свидетельских показаний, для анализа выборов и решений собраний и для определения вероятностей ошибок в судебных приговорах.

Его последователи Симеон Пуассон и Огюст Курно соответственно в 1837 г. и в 1877 г. опубликовали трактат Исследование вероятности по материалам уголовных и гражданских судебных решений на основе общих правил исчисления вероятностей и монографию Основы теории шансов и вероятностей, в которой глава 15 была названа: Теория вероятностей судебных решений. Применение ее к статистике гражданских дел. В США эстафету правометрических исследований принял профессор из Мичигана Дж. Шуберт, который в 1959 г. опубликовал работу Количественный анализ судейского поведения. В 1961 г. Стюарт Нагель опубликовал ряд работ, среди которых Ожидание вердикта содержит количественный показатель возможности выиграть или проиграть иски, вытекающие из причинения вреда, в зависимости от наличия в деле целого ряда переменных, которые обрабатываются методом статистических обобщений*(64).

В настоящее время в рамках этого направления успешно применяются различные математические методы для решения следующих задач: количественное описание правовых явлений; обеспечение учета и отчетности в правовой деятельности путем численной обработки различных статистических показателей.

Второе направление основано на идее сведения рассуждений к вычислениям и имеет глубокие исторические корни, восходящие к Р. Декарту. Он подразумевал возможность создания искусственного языка науки, дал его развернутую характеристику и тех громадных выгод, которые связаны с применением последнего. Декарт предполагал наличие некоторого природного порядка в наших мыслях, который сравнивал с порядком в мире чисел. При всем бесконечном множестве чисел каждое из них имеет единственное знаковое представление, следовательно, каждому из них можно дать собственное имя, что позволит действия с ними записывать особым компактным языком. Поскольку для чисел такой универсальный язык разработан, то, по мнению Декарта, со временем будет сконструирован еще более универсальный язык, охватывающий не только числа, но и любые объекты, которые могут стать предметом исследования. Такой язык позволит обозначать любые идеи путем выделения простых представлений и фиксации элементов, из которых состоит каждая мысль. Тем самым будет исключена любая возможность заблуждения. Такой язык противопоставит словам, имеющим неконкретное значение, четко определенные искусственные элементы. Вместо давайте поспорим ученые будут говорить: давайте вычислим*(65).

Развитию идеи универсального языка науки большое внимание уделено в работах Г. Лейбница, который заложил фундамент математической логики*(66). По Лейбницу, идеал общего метода, благодаря которому возможно будет систематизировать вечные истины, доказывать их, даже открывать новые, состоит в следующем:

1. Необходимо разложить все понятия на простейшие, подобно тому, как в математике составные числа разлагаются на произведение простых множителей. Число простейших понятий в таком языке не может быть велико.

2. Обозначив каждое из понятий особым символом, мы получим алфавит человеческой мысли.

3. Всевозможные комбинации простых понятий дадут нам совокупность сложных. И хотя число первых невелико, однако, как показывают формулы комбинаторики, число их комбинаций может быть почти неисчерпаемым.

4. Необходимо ввести особые символы для основных соотношений между понятиями и установить правила употребления и комбинации этих символов.

Таким образом, предполагалось процесс мышления свести к особого рода механическим исчислениям, чем, по существу, и занимается современная символическая логика.

Современная логика создала множество систем, описывающих отдельные фрагменты содержательных рассуждений. Для моделирования структуры правовых норм специально разработана нормативная логика, предметом исследования которой являются логическая структура и логические связи нормативных высказываний.

Так, оценивая принципы логического моделирования структуры правовых норм, правоотношений и нормативных умозаключений, В. Кнапп и А. Герлох указывают, что лежащая в их основе классификация правовых норм является упрощенной абстракцией действительных правовых норм, носящих сложный характер. Например, исследуя сравнимость и совместимость правовых понятий, эти авторы приходят к выводу, что несравнимость понятий наследственное право и избирательное право нельзя доказать логическим рассуждением в рамках любой из логических теорий, поскольку наличие общего признака право делает формально сравнимыми эти понятия. Для доказательства несравнимости этих понятий, по мнению авторов, нельзя обойтись без аппарата теории права*(67).

Другой вид формализации правовых норм основан на использовании математической логики для моделирования логической структуры правовой нормы.

Математическая логика — современный вид формальной логики, то есть науки, изучающей умозаключения с точки зрения их формального строения.

Любая мысль в форме понятий, суждений или умозаключений не существует вне языка. Выявить и исследовать логические структуры можно лишь путем анализа языковых выражений.

Под высказыванием принято понимать некоторое предположение, о котором имеет смысл говорить, что оно истинно или ложно. Над высказываниями определены следующие операции:

конъюнкция (логическое и);

дизъюнкция (логическое или);

отрицание (логическое не);

импликация (если_, то_).

Так, А.О. Гаврилов предложил, используя логические операции, провести моделирование логической структуры правовой нормы. Цель моделирования — выявить логические (включая латентные) связи правовой нормы. Логическая структура правовой нормы может быть представлена в следующем виде*(68):

-¬ -¬

((p — d) — ¦s) — (¦d — s),

где p — гипотеза нормы;

d — диспозиция;

s — санкция.

Приведенная формализация языка права позволяет промоделировать и проанализировать некоторые правовые нормы с помощью такого нового класса автоматизированных систем правовой информации, как экспертные системы.

Однако необходимо отметить, что применение языка математики для формализации права существенно ограничено. Это определяется во многом тем, что, как признает А.Г. Ольшанецкий, среди юристов не сложилось еще единого мнения о логической природе, логической специфике юридических понятий, их конструктивной роли в развитии науки правоведения, в образовании нормативно-правового детерминанта, его логического движения в регулятивном механизме общественных систем. Мнения ученых в этом отношении неоднозначны, имеют спорный, порой противоречивый характер. В частности, высказывается мнение, что определенной логической спецификой обладают лишь некоторые понятия уголовного права. В понятиях других отраслей права специфически юридического либо незначительно, либо его вообще нет… Им присущи лишь особенности внелогического характера. В структуре… их содержания, в характере признаков, образующих его, нет каких-либо особенностей, которые давали бы возможность выделить эти понятия в особый класс научных понятий*(69).

По мнению О.А. Гаврилова, существует пять основных причин, по которым математика не может стать универсальным инструментом исследований в области права:

1. С ростом сложности и целостности социально-правового объекта значительно уменьшается возможность его расчленения на формализуемые элементы.

2. Основные категории общественных наук — это сложные, многогранные и многоплановые понятия, связанные множеством неформализуемых связей, таких, как базис, надстройка, производительные силы, производственные отношения, государство, право, экономика, политика, демократия.

3. Государство и право, как явления классового общества, представляют собой целостные социально-политические системы. Они характеризуются большим числом качественных признаков и связей, которые не являются ни количественными, ни вероятностными, ни функциональными (в математическом смысле слова) и поэтому не поддаются математической формализации.

4. Проводя сравнительный анализ математических методов и традиционных средств юридической науки, нельзя не видеть их взаимодополняющей противоположности.

5. Отличительная особенность исследований, выполненных на базе традиционных качественных методов, — их всесторонность и многообразность, гибкость охвата явлений. Отличительная черта математических исследований — это их высокая точность. Применяя традиционные приемы юридической науки, исследователь-юрист получает выигрыш в полноте картины, но зато теряет все точности. И наоборот, применяя количественные методы исследования, он выигрывает в точности научного описания, зато теряет в его гибкости и всесторонности*(70).

Следует отметить, что не все юристы придерживаются такой точки зрения. Так, В.П. Павлов, исследуя возможность математизации правовых исследований, не соглашается с высказанной выше точкой зрения О.А. Гаврилова*(71).

По его мнению, история любой науки свидетельствует о том, что на начальном уровне познания, на котором производится накопление научных фактов о наблюдаемых свойствах изучаемых явлений и эмпирических закономерностях (в виде тенденций развития интересующего нас явления в практической жизни), используют приемы наблюдения, эксперимента, измерения, описания, способы обобщения сравнения анализа и синтеза, классификацию и систематизацию. Для реализации этих способов в правоведении широко используют традиционные общенаучные методы, такие, как философский, метод сравнительного правоведения, метод комплексного исследования. Однако подлинно теоретический уровень достигается в том случае, когда выдвигаются научные гипотезы, формулируются законы и создаются теории. Этому уровню соответствуют различные методы объяснения конкретных явлений, среди которых можно выделить гипотетические, структурные, функциональные, метод абстрагирования, включающий в себя идеализацию и обобщение некоторых понятий, и метод обоснования гипотез и построения теорий. Этот уровень достижим только путем привлечения математики как наиболее универсального инструмента анализа материального мира. Диалектическая связь этих двух уровней заключается в том, что установление эмпирических фактов как первоначальный этап познания всегда осуществляется на базе определенных теоретических знаний предшествующего уровня, а сами эмпирические факты являются базой для повышения уровня теоретического знания в исследуемой области. Поэтому взаимодополняющая связь традиционных и математических методов заключается не в их противоположности, а как раз в том, что универсальность математических методов позволяет обеспечить наглядность, точность и полноту исследуемого явления. Благодаря этому расширяется поле для осмысления при помощи традиционных средств тех областей исследуемого явления, которые были скрыты от наблюдателя фрагментарностью эмпирической картины явления.

Таким образом, основным препятствием на пути математического описания правовых норм является неоднозначность понятийного аппарата юридической науки, которая многократно возрастает при некритичном использовании математических средств для его анализа. Противоречие состоит в том, что без применения математического аппарата невозможно обеспечить полноту и точность правовых исследований, а применение математического аппарата невозможно в условиях существующей неоднозначности понятийного аппарата права.

Методы теории информации

Теорией информации, как уже отмечалось, называется наука, изучающая количественные закономерности, связанные с получением, передачей, обработкой и хранением информации.

Информация, для того чтобы быть переданной, должна быть закодирована в виде сигналов, с помощью которых информация передается по различным каналам связи. Это привело к необходимости решения задачи повышения эффективности функционирования систем связи. Сложность при проектировании и эксплуатации средств, систем и каналов связи состоит в том, что недостаточно решить задачу с физических и энергетических позиций. С этой точки зрения системы могут быть самыми совершенными и экономичными. Важно кроме этого оценить, какое количество информации может пройти через передающую систему. Результатом явилась необходимость подсчитать, измерить информацию количественно.

В теории информации при вычислении количества информации абстрагируются от смысла информации. Такой подход в точности соответствует задаче канала связи, который должен передать информацию вне зависимости от ее ценности для адресата.

Любое сообщение, с которым мы имеем дело в теории информации, представляет совокупность сведений о некоторой физической системе. Например, на вход системы правоохранительных органов поступает сообщение о количестве и видах совершенных преступлений.

Оценка количества информации основывается на законах теории вероятностей и определяется через вероятность событий. Сообщение имеет ценность только тогда, когда мы узнаем из него об исходе события, имеющего случайный характер, то есть исход события заранее не известен. Чем больше интересующее нас событие имеет случайных исходов, тем ценнее сообщение о его результате, тем больше информации содержит данное сообщение. Очевидно, если бы состояние системы было известно заранее, не было бы смысла передавать сообщение.

Поэтому в качестве объекта в теории информации рассматривается некоторая физическая система Х, которая случайным образом может оказаться в том или ином состоянии, то есть система, которой заведомо присуща некоторая степень неопределенности. Очевидно, чем большая неопределенность присуща системе, тем ценнее полученные сведения.

Что значит большая или меньшая неопределенность?

Сравним две системы: кость и монету. Неопределенность первой системы больше, так как больше состояний, в которых она может оказаться.

Однако степень неопределенности определяется не только числом состояний системы.

Устройство работает в 99% случаев и не работает в 1%. Имеет два состояния, как и монета, но вероятность состояния предсказать гораздо легче: с большой степенью уверенности мы можем сказать, что устройство работать будет.

Таким образом, степень неопределенности физической системы определяется не только числом ее возможных состояний, но и вероятностями состояний.

В общем случае некоторая физическая система Х может принимать какое-то конечное число состояний:

х1, х2, х3,…, хn

с вероятностями

p1, p2, p3,…, pn,

где pi = P(Х ~ хi), вероятность того, что система Х примет состояние

хi, то есть Х ~ хi.

Очевидно, что

сумма (от i = 1 до n) Pi = 1

В качестве меры априорной неопределенности системы в теории информации применяется специальная характеристика, называемая энтропией.

Энтропией системы называется сумма произведений вероятностей различных состояний системы на логарифмы этих вероятностей, взятая с обратным знаком:

H(X)= — сумма (от i=1 до n) pi log2 pi

Энтропия обладает рядом свойств, оправдывающих ее выбор в качестве характеристики степени неопределенности. Во-первых, она превращается в ноль, когда одно из состояний достоверно, а другие — невозможны. Во-вторых, при заданном числе состояний она превращается в максимум, когда данные состояния равновероятны, а при увеличении числа состояний — увеличивается. Наконец, и это самое главное, она обладает свойством аддитивности, то есть когда несколько независимых систем объединяются в одну, их энтропии складываются.

Таким образом, в правовой реальности энтропия рассматривается в качестве меры неопределенности состояния всякой правовой системы. Становится ясно, что в процессе получения сведений неопределенность правовой системы может быть уменьшена; чем больше объем полученных сведений, чем они более содержательны, тем больше будет информации о рассматриваемой системе правового управления, тем менее неопределенным будет ее состояние. Естественно, поэтому количество информации измерять уменьшением энтропии той системы, для уточнения состояний которой предназначены сведения.

Рассмотрим некоторую систему Х, над которой производятся наблюдения, и оценим информацию, получаемую в результате того, что состояние системы Х становится полностью известным. До получения сведений (априори) энтропия системы была Н(Х); после получения сведений состояние системы полностью определилось, то есть энтропия стала равной нулю. Обозначим IX информацию, полученную в результате выяснения состояний системы Х. Она равна уменьшению энтропии:

IX = Н(Х) — 0 или IX = Н(Х),

то есть количество информации, приобретаемое при полном выяснении

состояний некой физической системы, равно энтропии этой системы.

Используя формулу для энтропии, получим следующее представление для количества информации:

Ix = — сумма (от i=1 до n) pi log2 pi

Если информация выражена в двоичных единицах, то ей можно дать довольно наглядное истолкование: измеряя информацию в двоичных единицах, мы условно характеризуем ее числом ответов да и нет, с помощью которых можно приобрести ту же информацию.

Пример. Некто задумал любое целое число Х от 1 до 8:

а нам предлагается угадать его, поставив минимальное количество вопросов, на каждый из которых дается ответ да или нет.

Определим информацию, заключенную в сообщении, какое число задумано. Априори все значения Х одинаково вероятны:

р1 = р2=…= р8 = 1/8.

Тогда IX = log2 8 = 3.

Минимальное число вопросов, которые нужно поставить для выяснения задуманного числа, не меньше трех.

Пусть, например, задумано число два.

Вопрос 1. Число Х меньше пяти?

Ответ. Да.

Вывод: Х — одно из чисел 1, 2, 3, 4.

Вопрос 2. Число Х меньше трех?

Ответ. Да.

Вывод: Х — одно из чисел 1, 2.

Вопрос. Число Х меньше двух?

Ответ. Нет.

Вывод: Х равно 2.

Использование современных информационных технологий и вычислительных средств позволяет рассчитать количество информации в существенно более сложных сообщениях и тем самым оптимизировать информационные процессы, протекающие в социально-правовых системах.

Контрольные вопросы

1. Перечислите основные методы правовой информатики.

2. Раскройте содержание системного подхода, лежащего в основе большинства методов познания.

3. В чем суть социально-правового моделирования?

4. Какова роль социально-правового моделирования в юридических научных исследованиях?

5. Определите этапы процесса социально-правового моделирования.

6. Охарактеризуйте содержание кибернетического метода.

7. В чем заключается метод формализации?

8. Определите понятие алгоритм.

9. В чем суть метода алгоритмизации и программирования?

10. Раскройте содержание семантического и синтаксического анализа.

11. Какова роль математических методов при изучении информационных процессов и систем в правовой сфере?

12. Охарактеризуйте метод теории информации.

Рекомендуемая литература:

1. Андреев Б.В. Правовая информатика. М.: ИМП, 1998.

2. Гаврилов О.А. Интеллектуальные системы и технологии в правовой сфере//НТИ. Сер. 1, 1993, N 11.

3. Гаврилов О.А. Курс правовой информатики: Учебник для вузов. М.: НОРМА, 2000.

4. Информатика для юристов и экономистов/Под ред. С.В. Симоновича. СПб.: Питер, 2002.

5. Право и информатика. М.: Изд-во Московского университета, 1990.

6. Рассолов М.М., Элькин В.Д., Рассолов И.М. Правовая информатика и управление в сфере предпринимательства. М.: Юристъ, 1996.

7. Богатов Д.Ф., Богатов Ф.Г., Минаев В.А. Информатика и математика для юристов: Учебное пособие/Под ред. В.А. Минаева. М.: Изд-во ПРИОР, МЮИ МВД Россия, 1998, с. 179.

Семантический и синтаксический анализ

Статьи к прочтению:

Компьютерная лингвистика №3: синтаксический анализ

Похожие статьи:

Читайте также:

Последняя инфа:

Семантический и синтаксический анализ

Статьи к прочтению:

Компьютерная лингвистика №3: синтаксический анализ

Похожие статьи:

Читайте также:

Программирование рекурсивных алгоритмов

Методологические и теоретические основы программы

Взаимодействие методов по управлению

Последняя инфа: