Что значит морфологический корпус
Морфология
Морфологический стандарт Национального корпуса русского языка
Представление в корпусе информации о морфологических формах и значениях (часть речи, род, падеж, вид…) является самостоятельной научной проблемой. Решения, принятые в корпусе, в основном опираются на морфологическую модель, представленную в «Грамматическом словаре русского языка» А. А. Зализняка (М., 1977; изд., М., 2003).
Однако специфика корпуса как универсального средства исследования языка диктует некоторые особые решения; именно этой спецификой продиктованы все отступления от модели Грамматического словаря, содержащиеся в нашем стандарте.
Структура морфологической информации
Морфологическая информация, приписываемая произвольному слову в тексте, состоит из «полей», или групп помет:
Лексема, которой принадлежит словоформа (указывается «словарная запись» данной лексемы и ее принадлежность к той или иной части речи).
Множество грамматических признаков данной лексемы, или словоклассифицирующие характеристики (например, род для существительного, переходность для глагола).
Множество грамматических признаков данной словоформы, или словоизменительные характеристики (например, падеж для существительного, число для глагола).
Информация о нестандартности грамматической формы, орфографических искажениях и т. п.
Морфологический разбор (или множество морфологических разборов), приписанный каждой словоформе в составе поисковой выдачи, высвечивается в отдельном окне при щелчке на словоформе курсором мыши.
В основу метаязыка грамматических помет, ввиду предполагаемой широкой международной аудитории пользователей Корпуса, положена система сокращенных помет («тегов») на основе латинского алфавита. В то же время предусмотрена возможность использования при поиске традиционных названий категорий на русском языке (в форме «грамматические признаки»).
Ниже приводим инвентарь всех используемых в корпусе грамматических помет. Для пояснения в скобках даются примеры.
Части речи
Значения грамматических категорий
Одушевленность:
Число:
Падеж:
Краткая/полная форма:
Степень сравнения:
Переходность:
Залог:
Форма (репрезентация) глагола:
Наклонение:
Время:
Прочие признаки:
Часть указанных помет (а именно, второй винительный падеж, дистрибутивный дательный падеж, звательная форма, счётная форма, форма по+сравнительная степень, общий род, зооним) присутствуют только в корпусе со снятой грамматической омонимией.
Множественные разборы
В отдельных случаях в морфологической разметке допускается указание у одной и той же словоформы нескольких разборов, а именно:
Для прилагательных, совпадающих с причастиями (открытый), в неоднозначных случаях в качестве исходной дается как (ОТКРЫТЫЙ), так и глагол (ОТКРЫТЬ).
Ставится множественная помета в случаях, когда однозначный выбор лексемы или грамматического значения в данном контексте невозможен (не видел родного отца gen/acc; манекену anim/inan; спазмами исходная форма СПАЗМ/СПАЗМА и т. п.)
Информация о нестандартности и особенностях записи
Кроме того, в корпусе с неснятой грамматической омонимией используется особая помета ( bastard ) для несловарной формы (не входящей в словарь автоматического анализатора, а порожденной по аналогии, например, форма вроде Махабхарата получает несколько гипотетических разборов, в том числе от псевдолексем махабхаронок, махабхарать и т. п.); по мере пополнения словаря анализатора число таких форм будет уменьшаться. С целью снижения «шума» при поиске по корпусу с неснятой грамматической омонимией иногда бывает целесообразно исключить поиск по подобным формам; для ряда задач, напротив, можно ограничить поиск именно ими.
Корпусный словарь неоднословных лексических единиц
«Он видел их семью своими глазами»
Можешь выбрать подходящую к заголовку поста картинку?
Тогда научи робота! Он тоже хочет.
Команда проекта Открытый корпус просит хабралюдей помочь разметить свободно доступный (CC-BY-SA) корпус текстов. Под катом мы расскажем о том, что такое корпус, зачем он нужен, как обстоят дела с корпусами в России и за рубежом, почему так плохо и какой у нас план.
Корпус текстов — это лингвистическая база данных, включающая тексты, разные метаданные, относящиеся к этим текстам, а также грамматические разборы входящих в них слов и предложений. Метаданные и грамматические разборы — это разметка. Она бывает разных уровней: морфологическая, синтаксическая, семантическая, и т.д. Без размеченных корпусов текстов трудно (или даже невозможно) разрабатывать софт для анализа текста. Для программ, использующих машинное обучение, из размеченного корпуса берётся обучающая выборка. В остальных случаях корпус нужен для тестирования.
Размеченные корпуса существуют для многих языков мира. Чаще всего корпус текстов доступен через специализированные поисковые машины, позволяющие выбирать примеры употребления различных языковых конструкций. Эти сервисы предназначены для лингвистов. Скачивать корпуса целиком оттуда нельзя, т.к. входящие в них тексты чаще всего защищены копирайтом. Для разработки лингвистического софта нужны корпуса, которые можно скачивать целиком, вместе с разметкой. На Хабре уже писали об этом здесь (про POS-tagging) и здесь (про синтаксис).
Корпуса текстов в России и за рубежом
Здесь у русского языка всё не так хорошо, как, например, у английского, для которого есть несколько разных доступных и вручную размеченных корпусов текстов. Это не удивительно как минимум потому, что на английском говорит больше людей, чем на русском. Удивительно, что даже для венгерского языка, на котором говорят в 10 раз меньше людей, чем на русском, есть доступный и размеченный корпус размером больше 1 млн. слов.
А что у нас?
Национальный корпус русского языка (НКРЯ), создаваемый совместными усилиями многих организаций (включая Институт русского языка РАН), доступен только в режиме поиска по корпусу. Из 6 млн. слов, размеченных вручную, можно скачать только выборку размером 180 тысяч слов, в которой предложения идут с нарушенным порядком. Если вы хотите сделать морфологический анализатор со снятием неоднозначности, то вам придётся либо воспользоваться этими 180 тысячами, которых чаще всего будет недостаточно для машинного обучения, либо попробовать какой-нибудь другой язык, например, польский. Такое положение дел, очевидно, не способствует развитию компьютерной лингвистики в нашей стране.
Для того, чтобы русский язык не попадал в категорию «under-resourced languages», мы решили сделать новый Открытый корпус русского языка, учитывая опыт создания НКРЯ и других проектов. Поскольку Национальный корпус предоставляет хороший интерфейс поиска, и, таким образом, решает задачи связанные с поиском примеров употребления различных слов и конструкций, мы решили сфокусироваться на создании свободно доступного корпуса для разработчиков: его можно скачать и использовать для машинного обучения или для тестирования. Поиска по нему нет, но это не страшно, т.к. он есть в НКРЯ. Чтобы вопрос копирайта не мешал распространению в корпус включаются только тексты либо доступные на условиях лицензии Creative Commons, либо находящиеся в общественном достоянии. Разметка создаётся на условиях CC-BY-SA.
На предыдущем этапе нашей работы (в 2011 году) мы собрали корпус в 700 тыс. слов и расставили вручную границы слов и предложений. Эти данные уже можно скачивать. Сейчас нашей основной целью является снятие неоднозначности в морфологической разметке. Эту работу тоже нужно делать вручную, её много, и мы просим вас нам помочь.
Вспомним школу или что такое морфологическая разметка
Морфологическая разметка (tagging, part-of-speech tagging) — это сопоставление каждому слову в тексте его словарной формы («большого» — «БОЛЬШОЙ», «столу» — «СТОЛ», «читал» — «ЧИТАТЬ») и указание грамматических характеристик слова: род, число, падеж, время и др. Первичная морфологическая разметка делается по словарю автоматически. Мы используем словарь проекта АОТ, доработанный для наших целей. Для большинства слов разметка получается неоднозначной, т. е. для многих слов в тексте в словаре находится несколько гипотез. Чаще всего только одна из гипотез является правильной. Бывают и неоднозначные предложения, имеющие несколько вариантов разбора. Например:
«Эти типы стали есть в цехе»
СТАЛЬ (существительное) или СТАТЬ (глагол)?
«Он видел их семью своими глазами»
СЕМЬЯ (существительное) или СЕМЬ (числительное)?
Такие примеры встречаются редко. Морфологический разбор становится однозначным в контексте предложения: прочитав его целиком, мы можем определить, в какой именно форме стоит то или иное слово. Например, для предложения «Мама мыла раму» в конечном итоге должен быть построен вот такой разбор:
Проведя морфологический анализ при помощи словаря, только одно из слов мы сможем разобрать однозначно. Для слов «МЫЛА» и «РАМУ» мы получим четыре и две гипотезы соответственно:
Снять морфологическую неоднозначность — это значит выбрать одну правильную гипотезу для каждого слова. Для носителей языка это, чаще всего, не представляет трудности.
У нас есть план!
Чтобы упростить задачу снятия неоднозначности, мы разделили её на простые вопросы, которые вместе представляют собой дерево решений для каждого примера неоднозначности. В случае со словом «МЫЛА», первый вопрос будет «Существительное или глагол?». Для предложения «Мама мыла раму» снятие неоднозначности на этом закончится, т. к. это глагол, а глагольная гипотеза только одна. В других случаях нужно будет ответить ещё на один или, в худшем случае, ещё на два вопроса.
Однотипные вопросы мы объединили в группы. Участник может выбрать тип вопросов и отвечать только на вопросы этого типа про случайно выбранные слова в их контекстах, сфокусировавшись, таким образом, на одной задаче. Так размечать быстрее, т.к. не тратится время на переключение между разными типами вопросов.
Чтобы разметка была достаточно точной, каждый вопрос задаётся трём разным людям, и только если ответы полностью совпадают, и никто не написал комментариев, они используются без перепроверки. Если один ответ отличается от двух других, или если оставлен комментарий, то этот пример проверяет модератор.
Сколько у нас этого плана?
По грубым подсчётам, чтобы снять неоднозначность в собранной на настоящий момент коллекции текстов, с учётом того, что вопросы задаются трижды, нужно ответить на 4 миллиона 3.75 миллиона вопросов (на 250 тысяч вопросов ответы уже получены). Если в этом будут участвовать 100 человек, то получится по 40 тысяч вопросов на человека. 40 тысяч — это много, а человеческие жертвы нам не нужны. Если 1000 человек, то по 4 тысячи. Это несколько часов работы. Если 10000, то по 400 вопросов, что занимает 20-30 минут.
Для участия в проекте можно использовать приступы прокрастинации, время по дороге на работу (интерфейс разметки работает на смартфонах) и другие вынужденные паузы в полезной деятельности. В этом смысле разметка корпуса похожа на пасьянс, только полезнее. Поскольку никаких особенных лингвистических знаний не требуется, то каждый дочитавший до этого места может принять участие, и мы вместе создадим морфологический слой разметки корпуса. На этой странице находится пошаговая инструкция по разметке.
Недавно мы начали собирать и публиковать подмножество предложений, в которых вся неоднозначность уже снята. Этот подкорпус пока очень маленький — около 9500 слов. По мере того, как идёт разметка, он становится больше, и, в дальнейшем, эти данные можно будет использовать для создания свободно доступных морфологических анализаторов, умеющих снимать неоднозначность.
Открытый корпус. Не стесняйтесь снимать неоднозначность!
Что значит морфологический корпус
Морфология — это раздел науки о языке, который изучает слово как часть речи. В задачи морфологии входит определение слова как особого языкового объекта и описание его внутренней структуры.
Что такое морфология в русском языке
Слово «морфология» греческого происхождения. В его составе присутствуют два греческих корня: morphe, что значит «форма» + logos, которое переведем как «разум, понятие, мысль, речь и слово».
Понятие «морфология» многозначное. Оно встречается в биологии, например, морфология растений, морфология животных (в том числе и человека).
В лингвистике словом «морфология» называют науку о слове с точки зрения отнесённости его к определенной части речи. В русском языке все окружающие нас слова можно отнести к десяти частям речи, которые в свою очередь делятся на самостоятельные, служебные и междометия.
К самостоятельным частям речи отнесем слова, которые называют предметы (существительное), признаки предметов (прилагательное), действия (глагол), количество предметов и порядок их при счёте (числительное) и обозначают все эти понятия, кроме действий, (наречия), а также указывают на них (местоимения).
Слова самостоятельных частей речи имеют определенное лексическое значение, выступают в роли главных или второстепенных членов предложения, могут определяться, поясняться словами других частей речи (добрый человек — очень добрый человек).
Служебных частей речи в русском языке всего три:
Они не имеют самостоятельного лексического значения, не являются членами предложения, но могут входить в их состав. Служебные части речи используются для выражения отношений между самостоятельными частями речи, между словосочетаниями и между предложениями, для придания предложению разных оттенков значения.
Особняком в русской морфологии стоит междометие. Его не относят ни к одной из самостоятельных или служебных частей речи.
От самостоятельных частей речи междометия отличаются тем, что они не имеют общего и лексического значения, не являются членами предложения, а от служебных — тем, что они не выражают ни связей, ни отношений между членами предложения и предложениями.
Это слова, которые обозначают наши чувства, побуждения, но конкретно не называют их при этом.
В роли междометий может выступать любая часть речи и целое словосочетание, если они теряют способность обозначать предмет, признак или действие и служат для выражения тех или иных чувств.
В русском языке слово каждой части речи изучается с точки зрения его общего значения, морфологических признаков, то есть совокупности грамматических значений, и синтаксической роли в предложении. Такое исследование слова как части речи называется морфологическим разбором.
Морфологические методы исследования
Морфологические методы исследования
Для чего необходимо морфологическое исследование опухолевой ткани?
Практически во всех случаях точный диагноз онкологического заболевания может быть установлен только на основании результатов исследования образца опухолевой ткани, полученной у пациента. Наиболее часто с этой целью используются следующие методы получения биологического материала:
В большинстве случаев забор опухолевой ткани осуществляется с использованием того или иного метода обезболивания (анестезии).
Пункция
Во время пункции возможно получить небольшое количестве клеток для цитологического исследования. Во время выполнения этого вмешательства врач вводит в опухоль тонкую иглу и при помощи шприца забирает небольшое количество материала. После этого полученная ткань (жидкость и содержащиеся в ней клетки) помещается на специальное предметное стекло. Данный метод исследования называется цитологическое исследование (цитология), он дает возможность получить информацию об отдельных клетках, из которых состоит исследованная ткань. Пункция является наименее травматичным методом получения материала для исследования, однако его информативности в некоторых случаях может быть недостаточно. К примеру, отрицательные результаты пункции не всегда означают отсутствие опухолевого роста.
Для цитологического исследования также может быть использована слюна, мокрота, моча, жидкость, скопившаяся в брюшной или плевральной полости (асцит или плеврит), а также мазки или смывы из половых путей, дыхательных путей и т.д. Также используют отпечатки с патологических образований (язв, эрозий). В последнем случае предметное стекло прикладывается к интересующей зоне, после чего изготавливается материал, аналогичным образом может быть взят мазок-отпечаток при котором с патологического образования соскребается материал при помощи шпателя, скальпеля или других инструментов.
Биопсия
В отличие от пункции при проведении биопсии удается получить значительно большее количество опухолевой ткани, данный вид забора материала применяется для получения материала для гистологического исследования материала. В ходе его выполнения можно получить точную информацию о строении опухолевой ткани. В отличие от вышеописанного цитологического исследования результаты данного вида исследования отличаются большей точностью, кроме того, больший объем материала позволяет точнее установить диагноз (например, выявить точный подвид опухолевых клеток), и, в случае наличия необходимости, провести дополнительные иммуногистохимические методы обследования (подробнее описано ниже).
Несмотря на указанные преимущества, выполнение биопсии является более травматичной процедурой для организма, чем выполнение пункции. В некоторых случаях проведение данного исследования может быть невозможно вследствие наличия высокого риска травматического повреждения близко расположенных к опухоли сосудов, например, при опухолях расположенных в области поджелудочной железы, в связи с чем пункция может быть единственным доступным методом получения материала для исследования.
Виды биопсии
Биопсия может осуществляться как под контролем зрения врача («на ощупь») так и под контролем специального оборудования, например ультразвукового аппарата или компьютерной томографии. В наиболее сложных случаях, например, при биопсии новообразований, расположенных в головном мозге, используются специальные методы фиксации пациента, препятствующие смещению опухоли при заборе материала (стереотаксическая биопсия). Существуют следующие основные виды биопсии:
В зависимости от расположения опухоли биопсия может быть выполнена как снаружи через кожу, так и изнутри организма. С этой целью в организм могут вводиться эндоскоп, который представляет собой тонкую гибкую трубку, оснащенную видеокамерой и различными манипуляторами. При помощи эндоскопических методов может быть осуществлена биопсия новообразований, расположенных в просвете желудочно-кишечного тракта (гастроскопия и колоноскопия), например, полипов толстой кишки, бронхов (бронхоскопия), мочевыводящих путей (цистоскопия), грудной клетки (торакоскопия) и брюшной полости (лапароскопия).
Выполнение гистологического исследования
Гистологическому исследованию в обязательном порядке подвергается любой удаленный материал, в том числе – после хирургического удаления опухоли в ходе оперативного этапа лечения. Изучение послеоперационного материала позволяет уточнить диагноз, распространенность процесса и его стадию, оценить наличие вовлечения в болезнь лимфатических узлов и т.д.
После получения материала для исследования любым из вышеуказанных способов он отправляется на исследование к специалисту по морфологическому изучению опухолей – патологоанатому (или патоморфологу), который обрабатывает полученную ткань необходимым образом и проводит её исследование. Так как ткань опухоли подвержена естественным процессам разрушения, необработанный материал может стать непригодным для дальнейших исследований. В первую очередь с целью обеспечения сохранности ткани проводится её обработка специальным фиксирующим раствором, например формалином.
После этого ткань запечатывается в парафин (воскоподобный материал) в результате чего образец опухолевой ткани становится пригодным для исследования и хранения в течение длительного времени. Таким образом создаются так называемые «опухолевые блоки». Опухолевый блок – кусочек опухолевой ткани, запечатанный в парафин. Как правило, изготавливается множество блоков, содержащих разные участки опухолевой ткани.
После этого с части или со всех или с части изготовленных блоков делаются тонкие срезы, пригодные для исследования под световым микроскопом («опухолевые стекла»). Эти стекла врач-патоморфолог изучает под микроскопом, в некоторых случаях – после специальной окраски, которая позволяет лучше оценить те или иные детали строения опухоли. В ходе изучения опухолевой ткани врач старается установить наличие или отсутствие признаков злокачественности опухоли, степень её злокачественности, вид клеток, из которых она возникла и т.д.
Иногда, в тех случаях, когда необходимо получение максимально быстрого ответа вместо запечатывания опухолевой ткани в парафин, применяется её быстрая заморозка с последующей «нарезкой» и изучением под микроскопом. Этот процесс занимает около 15-20 минут. Данный метод применяется при необходимости интраоперационного исследования материала, когда непосредственно в процессе выполнения оперативного вмешательства хирургу необходимо получить гистологическую информацию, например, о наличии или отсутствии опухолевых клеток по краю резекции (отреза) для того, чтобы убедиться в радикальности выполненного вмешательства.
Результаты морфологического исследования
По результатам исследования врач-патоморфолог составляет цитологическое или гистологическое заключение, в котором отражаются результаты изучения образца опухолевой ткани под микроскопом, а также результаты гистохимических и молекулярных исследований, если они проводились. Как правило, гистологическое заключение может содержать следующую информацию:
Как правило, проведение гистологического исследования занимает до 10 дней. Обязательно сохраните у себя копию гистологического заключения, а также убедитесь в сохранности стекол и блоков
Дополнительные методы исследования
В ряде случаев для установления точного диагноза может понадобиться определение подвида опухоли, а также наличия в ней экспрессии (выработки) определенных белков, которые могут быть использованы в качестве «мишеней» для противоопухолевой терапии.
С этой целью врач-патоморфолог может дополнительно провести иммуногистохимическое исследование (ИГХ). Суть ИГХ исследования заключается в обработке опухолевой ткани специальными антителами, которые связываются со своими белками-мишенями на поверхности опухолевых клеток. После выполнения определенных процедур это приводит к тому, что эти белки становятся видны при микроскопическом исследовании опухоли, если они ей продуцируются.
Врач-патоморфолог может оценить «набор» белков, которые вырабатываются опухолью, а также степень экспрессии того или иного белка. ИГХ является незаменимым методом в следующих случаях:
ИГХ очень широко применяется при обследовании больных раком молочной железы. Всем пациенткам с этим диагноз проводится определение наличия в опухоли экспрессии рецепторов гормонов, эстрогена и прогестерона, а также скорости деления клеток (индекс Ki-67) и выраженности экспрессии белка HER2-neu. Это необходимо для того, чтобы понять, какие именно механизмы запускают процессы деления опухолевых клеток. Избирательно подавляя эти механизмы можно блокировать процессы роста и деления опухолевых клеток. Например, если установлено, что процессы роста опухолевых клеток стимулируют эстрогены и/или прогестерон, лишив злокачественные клетки «доступа» к ним можно добиться выраженного противоопухолевого эффекта.
Наличие в опухоли повышенной экспрессии белка HER2-neu ассоциировано с высокой её агрессивностью и быстрым ростом. Это требует применения специальных препаратов, избирательно воздействующих на этот сигнальный путь. Наиболее часто с этой целью применяется трастузумаб – моноклональное антитело, связывающее HER2-neu.
В отдельных случаях применяются дополнительные молекулярные методы изучения опухоли. В этом случае проводится дополнительное изучение генома злокачественных клеток. При некоторых заболеваниях это может дать ценную информацию для лечения. К молекулярным методам исследования относится флюоресцентная гибридизация in situ (FISH) и полимеразная цепная реакция (ПЦР). Эти методы исследования являются наиболее точными, но их проведение может потребовать дополнительного времени, кроме того они являются достаточно дорогостоящими.
Получение второго мнения
В некоторых случаях, особенно при лечении редкого заболевания, полезным может оказаться получение второго мнения (консультации другого специалиста) по результатам гистологического исследования. Для этого вам понадобиться получить изготовленные стекла и опухолевые блоки и предоставить их на консультацию в выбранное вами учреждение. Дополнительно следует предоставить актуальную выписку из вашей истории болезни и результаты предыдущих гистологических исследований, так как это может дать врачу ценную информацию.
Обратите внимание: проведение дополнительных исследований с целью получения второго мнения может быть платным.
Внимание! Информация в данном разделе не является заменой квалифицированного мнения врача, представлена исключительно в образовательных целях и не является руководством к действию.