Программирование [Специалист] Практикум (МАСТЕР): Полнотекстовый поиск в SQL Server (2016)

Главбух · 27.05.19

Практикум (МАСТЕР): Полнотекстовый поиск в SQL Server

По окончании курса Вы будете уметь:

Использовать все возможности механизма полнотекстового поиска
Выполнять семантический анализ текстов
Использовать фонетический и семантический поиск
Разрабатывать программные модули для поиска в базах данных
Эксплуатировать и обслуживать базы данных, содержащие полнотекстовые индексы
Настраивать и расширять механизм полнотекстового поиска в базах данных

Специалисты, обладающие этими знаниями и навыками, в настоящее время крайне востребованы. Большинство выпускников наших курсов делают успешную карьеру и пользуются уважением работодателей.

Продолжительность курса - 8 ак. ч.

Программа
Модуль 1.
Постановка задачи
Задачи хранения, обработки и анализа текстов
Строковые типы данных: VarChar, Text
Работа с текстом в формате «юникод»: NVarChar, SCSU
Хранение текста в BLOB’ах: BLOB, CLOB, NCLOB, типы документов
Хранение текста в файлах и файловых таблицах: FileStream, FileTables
Текст в XML-документах: кодировки, языковая разметка, элементы, атрибуты
Загрузка текста в базу данных: OpenRowset-BULK
Режимы упорядочения и работа с диакритами: Collate, регистр, диакритические знаки
Режимы поиска: строковый, полнотекстовый, морфологический, фонетический, семантический, аналитический
Параметризация поиска: язык запросов, операторы, параметры
Требования к оформлению результатов поиска: ранжирование, сниппеты, подсветка, постраничная выдача
Оценка качества поиска: точность, отклик, производительность

Модуль 2.
Простые средства текстового поиска
Поисковые строковые функции: CharIndex, PatIndex
Вспомогательные строковые функции: Concat, Replace, Stuff, Substring, Reverse, Upper, Lower
Поиск по шаблону: LIKE
Использование регулярных выражений: VBScript.RegExp, Regex.Match

Модуль 3.
Механизм полнотекстового поиска
Подготовка индексов: типы данных, привязка к строке, язык, тип документа, обновление
Базовые возможности полнотекстового поиска: Contains, FreeText, ContainsTable, FreeTextTable
Логические выражения в полнотекстовых запросах: AND, OR, NOT
Полнотекстовые операции: префиксы, генерализация, INFLECTIONAL, THESAURUS
Весовые коэффициенты и расстояния: NEAR, WEIGHT

Модуль 4.
Подготовка результатов поиска
Табличный вывод результатов: соединение с ContainsTable и FreeTextTable
Генерация сниппетов и подсветка: простые сниппеты, подсветка с учётом словоформ
Ранжирование: простое, взвешенное, с колоночными мультипликаторами
Постраничная выдача: Row_Number, OFFSET, FETCH
Параметризация поиска: простые и сложные формы, язык запросов

Модуль 5.
Языковые особенности
Языковая разметка текста: LCID, xml:lang, индексирование, парсинг
Хранение многоязычных документов: табличное, колоночное, с языковым атрибутом, XML
Морфология: генерализация, парсинг
Работа с документами на нескольких языках: запросы с явным указанием языка, фильтрация по языковому атрибуту
Синонимы: THESAURUS, подстановки и расширения
Шумовые слова: просмотр, редактирование, привязка, генерализация шумовых слов

Модуль 6.
Подготовка баз данных
Серверные компоненты полнотекстового поиска: установка и настройка
Ресурсы операционной системы: службы, фильтры, файлы
Подготовка фильтров: установка, тестирование, интерфейс, стандартные установочные наборы
Настройка базы данных для работы с текстом: каталоги, файловые группы, включение механизма поиска
Выбор механизма хранения: BLOB, XML, текст, FileStream
Работа со словарями синонимов: редактирование и загрузка словарей, подстановки и расширения, приоритеты
Настройка шумовых слов: подключение, влияние на индексирование
Создание и настройка полнотекстовых индексов: режим отслеживания, обновление
Обслуживание полнотекстовых индексов и каталогов: мониторинг, обновление

Модуль 7.
Эксплуатация и устранение проблем
Серверные диагностические инструменты: настройки, служебные процедуры, DMV/DMF
Диагностика и мониторинг полнотекстовых индексов: документы, ключевые слова, события
Диагностика и мониторинг полнотекстовых запросов: парсинг, трассировка

Модуль 8.
Расширение полнотекстового поиска
Семантический поиск: подготовка базы данных, ключевые фразы, похожие документы
Фонетический поиск: Soundex, Difference: NYSIIS
Вычисление расстояний между словами: по Хэммингу, по Левенштейну, LCS
Анализ N-грамм: триграммы, 4-граммы,
Векторный анализ текста: простые и взвешенные координаты
Задачи класса «Text Mining»: NLP

Материал может быть удален по просьбе
Для просмотра ссылок пройдите регистрацию

Скачать:

Программирование [Специалист] Практикум (МАСТЕР): Полнотекстовый поиск в SQL Server (2016)

Ссылка доступна для пользователей с группой: Премиум