- Регистрация
- 08.05.19
- Сообщения
- 49,850
- Реакции
- 271,292
- #1
Голосов: 0
Практикум (МАСТЕР): Полнотекстовый поиск в SQL Server
По окончании курса Вы будете уметь:
Продолжительность курса - 8 ак. ч.
Программа
Модуль 1.
Постановка задачи
Задачи хранения, обработки и анализа текстов
Строковые типы данных: VarChar, Text
Работа с текстом в формате «юникод»: NVarChar, SCSU
Хранение текста в BLOB’ах: BLOB, CLOB, NCLOB, типы документов
Хранение текста в файлах и файловых таблицах: FileStream, FileTables
Текст в XML-документах: кодировки, языковая разметка, элементы, атрибуты
Загрузка текста в базу данных: OpenRowset-BULK
Режимы упорядочения и работа с диакритами: Collate, регистр, диакритические знаки
Режимы поиска: строковый, полнотекстовый, морфологический, фонетический, семантический, аналитический
Параметризация поиска: язык запросов, операторы, параметры
Требования к оформлению результатов поиска: ранжирование, сниппеты, подсветка, постраничная выдача
Оценка качества поиска: точность, отклик, производительность
Модуль 2.
Простые средства текстового поиска
Поисковые строковые функции: CharIndex, PatIndex
Вспомогательные строковые функции: Concat, Replace, Stuff, Substring, Reverse, Upper, Lower
Поиск по шаблону: LIKE
Использование регулярных выражений: VBScript.RegExp, Regex.Match
Модуль 3.
Механизм полнотекстового поиска
Подготовка индексов: типы данных, привязка к строке, язык, тип документа, обновление
Базовые возможности полнотекстового поиска: Contains, FreeText, ContainsTable, FreeTextTable
Логические выражения в полнотекстовых запросах: AND, OR, NOT
Полнотекстовые операции: префиксы, генерализация, INFLECTIONAL, THESAURUS
Весовые коэффициенты и расстояния: NEAR, WEIGHT
Модуль 4.
Подготовка результатов поиска
Табличный вывод результатов: соединение с ContainsTable и FreeTextTable
Генерация сниппетов и подсветка: простые сниппеты, подсветка с учётом словоформ
Ранжирование: простое, взвешенное, с колоночными мультипликаторами
Постраничная выдача: Row_Number, OFFSET, FETCH
Параметризация поиска: простые и сложные формы, язык запросов
Модуль 5.
Языковые особенности
Языковая разметка текста: LCID, xml:lang, индексирование, парсинг
Хранение многоязычных документов: табличное, колоночное, с языковым атрибутом, XML
Морфология: генерализация, парсинг
Работа с документами на нескольких языках: запросы с явным указанием языка, фильтрация по языковому атрибуту
Синонимы: THESAURUS, подстановки и расширения
Шумовые слова: просмотр, редактирование, привязка, генерализация шумовых слов
Модуль 6.
Подготовка баз данных
Серверные компоненты полнотекстового поиска: установка и настройка
Ресурсы операционной системы: службы, фильтры, файлы
Подготовка фильтров: установка, тестирование, интерфейс, стандартные установочные наборы
Настройка базы данных для работы с текстом: каталоги, файловые группы, включение механизма поиска
Выбор механизма хранения: BLOB, XML, текст, FileStream
Работа со словарями синонимов: редактирование и загрузка словарей, подстановки и расширения, приоритеты
Настройка шумовых слов: подключение, влияние на индексирование
Создание и настройка полнотекстовых индексов: режим отслеживания, обновление
Обслуживание полнотекстовых индексов и каталогов: мониторинг, обновление
Модуль 7.
Эксплуатация и устранение проблем
Серверные диагностические инструменты: настройки, служебные процедуры, DMV/DMF
Диагностика и мониторинг полнотекстовых индексов: документы, ключевые слова, события
Диагностика и мониторинг полнотекстовых запросов: парсинг, трассировка
Модуль 8.
Расширение полнотекстового поиска
Семантический поиск: подготовка базы данных, ключевые фразы, похожие документы
Фонетический поиск: Soundex, Difference: NYSIIS
Вычисление расстояний между словами: по Хэммингу, по Левенштейну, LCS
Анализ N-грамм: триграммы, 4-граммы,
Векторный анализ текста: простые и взвешенные координаты
Задачи класса «Text Mining»: NLP
Материал может быть удален по просьбе
Скачать:
По окончании курса Вы будете уметь:
- Использовать все возможности механизма полнотекстового поиска
- Выполнять семантический анализ текстов
- Использовать фонетический и семантический поиск
- Разрабатывать программные модули для поиска в базах данных
- Эксплуатировать и обслуживать базы данных, содержащие полнотекстовые индексы
- Настраивать и расширять механизм полнотекстового поиска в базах данных
Продолжительность курса - 8 ак. ч.
Программа
Модуль 1.
Постановка задачи
Задачи хранения, обработки и анализа текстов
Строковые типы данных: VarChar, Text
Работа с текстом в формате «юникод»: NVarChar, SCSU
Хранение текста в BLOB’ах: BLOB, CLOB, NCLOB, типы документов
Хранение текста в файлах и файловых таблицах: FileStream, FileTables
Текст в XML-документах: кодировки, языковая разметка, элементы, атрибуты
Загрузка текста в базу данных: OpenRowset-BULK
Режимы упорядочения и работа с диакритами: Collate, регистр, диакритические знаки
Режимы поиска: строковый, полнотекстовый, морфологический, фонетический, семантический, аналитический
Параметризация поиска: язык запросов, операторы, параметры
Требования к оформлению результатов поиска: ранжирование, сниппеты, подсветка, постраничная выдача
Оценка качества поиска: точность, отклик, производительность
Модуль 2.
Простые средства текстового поиска
Поисковые строковые функции: CharIndex, PatIndex
Вспомогательные строковые функции: Concat, Replace, Stuff, Substring, Reverse, Upper, Lower
Поиск по шаблону: LIKE
Использование регулярных выражений: VBScript.RegExp, Regex.Match
Модуль 3.
Механизм полнотекстового поиска
Подготовка индексов: типы данных, привязка к строке, язык, тип документа, обновление
Базовые возможности полнотекстового поиска: Contains, FreeText, ContainsTable, FreeTextTable
Логические выражения в полнотекстовых запросах: AND, OR, NOT
Полнотекстовые операции: префиксы, генерализация, INFLECTIONAL, THESAURUS
Весовые коэффициенты и расстояния: NEAR, WEIGHT
Модуль 4.
Подготовка результатов поиска
Табличный вывод результатов: соединение с ContainsTable и FreeTextTable
Генерация сниппетов и подсветка: простые сниппеты, подсветка с учётом словоформ
Ранжирование: простое, взвешенное, с колоночными мультипликаторами
Постраничная выдача: Row_Number, OFFSET, FETCH
Параметризация поиска: простые и сложные формы, язык запросов
Модуль 5.
Языковые особенности
Языковая разметка текста: LCID, xml:lang, индексирование, парсинг
Хранение многоязычных документов: табличное, колоночное, с языковым атрибутом, XML
Морфология: генерализация, парсинг
Работа с документами на нескольких языках: запросы с явным указанием языка, фильтрация по языковому атрибуту
Синонимы: THESAURUS, подстановки и расширения
Шумовые слова: просмотр, редактирование, привязка, генерализация шумовых слов
Модуль 6.
Подготовка баз данных
Серверные компоненты полнотекстового поиска: установка и настройка
Ресурсы операционной системы: службы, фильтры, файлы
Подготовка фильтров: установка, тестирование, интерфейс, стандартные установочные наборы
Настройка базы данных для работы с текстом: каталоги, файловые группы, включение механизма поиска
Выбор механизма хранения: BLOB, XML, текст, FileStream
Работа со словарями синонимов: редактирование и загрузка словарей, подстановки и расширения, приоритеты
Настройка шумовых слов: подключение, влияние на индексирование
Создание и настройка полнотекстовых индексов: режим отслеживания, обновление
Обслуживание полнотекстовых индексов и каталогов: мониторинг, обновление
Модуль 7.
Эксплуатация и устранение проблем
Серверные диагностические инструменты: настройки, служебные процедуры, DMV/DMF
Диагностика и мониторинг полнотекстовых индексов: документы, ключевые слова, события
Диагностика и мониторинг полнотекстовых запросов: парсинг, трассировка
Модуль 8.
Расширение полнотекстового поиска
Семантический поиск: подготовка базы данных, ключевые фразы, похожие документы
Фонетический поиск: Soundex, Difference: NYSIIS
Вычисление расстояний между словами: по Хэммингу, по Левенштейну, LCS
Анализ N-грамм: триграммы, 4-граммы,
Векторный анализ текста: простые и взвешенные координаты
Задачи класса «Text Mining»: NLP
Материал может быть удален по просьбе
Для просмотра ссылок пройдите регистрацию
Скачать:
Последнее редактирование модератором: