Китайский, японский и корейский (CJK) и тайский языки

Manticore предоставляет встроенную поддержку индексирования языков с непрерывными письменностями (т.е. языков, которые не используют пробелы или другие знаки между словами или предложениями). Это позволяет обрабатывать тексты на этих языках двумя разными способами:

  1. Точное сегментирование с использованием библиотеки ICU. В настоящее время поддерживается только китайский язык.
‹›
  • SQL
  • JSON
  • PHP
  • Python
  • Python-asyncio
  • Javascript
  • Java
  • C#
  • Rust
  • CONFIG
📋
CREATE TABLE products(title text, price float) charset_table = 'cont' morphology = 'icu_chinese'
  1. Точное сегментирование с использованием библиотеки Jieba. Как и ICU, в настоящее время поддерживается только китайский язык.
‹›
  • SQL
  • JSON
  • PHP
  • Python
  • Python-asyncio
  • Javascript
  • Java
  • C#
  • Rust
  • CONFIG
📋
CREATE TABLE products(title text, price float) charset_table = 'cont' morphology = 'jieba_chinese'
  1. Базовая поддержка с использованием опций N-gram ngram_len и ngram_chars Для каждого языка с непрерывной письменностью существуют отдельные таблицы наборов символов (chinese, korean, japanese, thai), которые можно использовать. В качестве альтернативы можно использовать общую таблицу набора символов cont для поддержки всех CJK и тайских языков одновременно, или набор символов cjk для включения только всех CJK языков.
‹›
  • SQL
  • JSON
  • PHP
  • Python
  • Python-asyncio
  • javascript
  • Java
  • C#
  • Rust
  • CONFIG
📋
CREATE TABLE products(title text, price float) charset_table = 'non_cont' ngram_len = '1' ngram_chars = 'cont'
/* Or, alternatively */
CREATE TABLE products(title text, price float) charset_table = 'non_cont' ngram_len = '1' ngram_chars = 'cjk,thai'

Кроме того, имеется встроенная поддержка китайских стоп-слов с псевдонимом zh.

‹›
  • SQL
  • JSON
  • PHP
  • Python
  • Python-asyncio
  • javascript
  • Java
  • C#
  • Rust
  • CONFIG
📋
CREATE TABLE products(title text, price float) charset_table = 'chinese' morphology = 'icu_chinese' stopwords = 'zh'
Last modified: August 28, 2025