NLP и токенизация > Поддерживаемые языки

≫ NLP и токенизация

Manticore не хранит текст точно таким, каким он является, для полнотекстового поиска. Вместо этого он разбивает текст на слова (называемые токенами) и строит несколько внутренних структур для обеспечения быстрого полнотекстового поиска. Эти структуры включают словарь, который помогает быстро проверить, существует ли слово в индексе. Другие структуры отслеживают, в каких документах и полях содержится слово, и даже где именно в поле оно появляется. Все это используется во время поиска для нахождения релевантных результатов.

Процесс разбивания и обработки текста таким образом называется токенизацией. Токенизация происходит как при добавлении данных в индекс, так и при выполнении поиска. Она работает как на уровне символов, так и на уровне слов.

На уровне символов допускаются только определённые символы. Это контролируется с помощью charset_table. Все остальные символы заменяются пробелом (который рассматривается как разделитель слов). charset_table также поддерживает такие операции, как преобразование символов в нижний регистр или замену одного символа на другой. Она также может определять символы для игнорирования, объединения или обработки как границу фразы.

На уровне слов движок использует настройку min_word_len, чтобы определить минимальную длину слова (в символах), которое должно индексироваться.

Manticore также поддерживает сопоставление слов в разных формах. Например, чтобы считать "car" и "cars" одним и тем же словом, вы можете использовать морфологические процессоры.

Если вы хотите, чтобы разные слова рассматривались как одно — например, "USA" и "United States" — вы можете определить их с помощью функции word forms.

Очень распространённые слова (например, "the", "and", "is") могут замедлять поиск и увеличивать размер индекса. Вы можете отфильтровать их с помощью стоп-слов. Это может ускорить поиск и уменьшить размер индекса.

Более продвинутый метод фильтрации — это биграммы, которые создают специальные токены, объединяя распространённое слово с редким. Это может значительно ускорить поиск по фразам, в которых участвуют распространённые слова.

Если вы индексируете HTML, обычно лучше не включать HTML-теги в индекс, так как они добавляют много лишнего содержимого. Вы можете использовать очистку HTML, чтобы убрать теги, но при этом индексировать определённые атрибуты тегов или полностью пропускать некоторые элементы.

Имейте в виду, что у Manticore есть максимальная длина токена — 42 символа. Любое слово длиннее этой длины будет усечено. Это ограничение применяется как во время индексации, так и при поиске, поэтому важно учитывать его при подготовке данных и формировании запросов.

NLP и токенизация Поддерживаемые языки

Last modified: August 28, 2025

Manticore поддерживает широкий спектр языков, при этом базовая поддержка включена для большинства языков через charset_table = non_cont (что является значением по умолчанию). Также можно использовать опцию non_cjk, которая является синонимом для non_cont: charset_table = non_cjk.

Для многих языков Manticore предоставляет файл с стоп-словами, который можно использовать для улучшения релевантности поиска.

Кроме того, для некоторых языков доступна продвинутая морфология, которая может значительно улучшить релевантность поиска, используя лемматизацию на основе словаря или алгоритмы стемминга для лучшей сегментации и нормализации.

В таблице ниже перечислены все поддерживаемые языки и указано, как включить:

базовую поддержку (столбец "Supported")
стоп-слова (столбец "Stopwords file name")
продвинутую морфологию (столбец "Advanced morphology")

Язык	Поддерживается	Имя файла стоп-слов	Расширенная морфология	Примечания
Африкаанс	charset_table=non_cont	af	-
Арабский	charset_table=non_cont	ar	morphology=stem_ar (арабский стеммер); morphology=libstemmer_ar
Армянский	charset_table=non_cont	hy	-
Ассамский	указать charset_table вручную	-	-
Баскский	charset_table=non_cont	eu	-
Бенгальский	charset_table=non_cont	bn	-
Биснуприя	указать charset_table вручную	-	-
Бухид	указать charset_table вручную	-	-
Болгарский	charset_table=non_cont	bg	-
Каталанский	charset_table=non_cont	ca	morphology=libstemmer_ca
Китайский с использованием ICU	charset_table=chinese	zh	morphology=icu_chinese	Более точно, чем использование ngrams
Китайский с использованием Jieba	charset_table=chinese	zh	morphology=jieba_chinese, требуется пакет `manticore-language-packs`	Более точно, чем использование ngrams
Китайский с использованием ngrams	ngram_chars=chinese	zh	ngram_chars=1	Быстрая индексация, но производительность поиска может быть не такой хорошей
Хорватский	charset_table=non_cont	hr	-
Курдский	charset_table=non_cont	ckb	-
Чешский	charset_table=non_cont	cz	morphology=stem_cz (чешский стеммер)
Датский	charset_table=non_cont	da	morphology=libstemmer_da
Голландский	charset_table=non_cont	nl	morphology=libstemmer_nl
Английский	charset_table=non_cont	en	morphology=lemmatize_en (одна основная форма); morphology=lemmatize_en_all (все основные формы); morphology=stem_en (стеммер Портера для английского); morphology=stem_enru (стеммеры Портера для английского и русского); morphology=libstemmer_en (английский из libstemmer)
Эсперанто	charset_table=non_cont	eo	-
Эстонский	charset_table=non_cont	et	-
Финский	charset_table=non_cont	fi	morphology=libstemmer_fi
Французский	charset_table=non_cont	fr	morphology=libstemmer_fr
Галисийский	charset_table=non_cont	gl	-
Гаро	указать charset_table вручную	-	-
Немецкий	charset_table=non_cont	de	morphology=lemmatize_de (одна основная форма); morphology=lemmatize_de_all (все основные формы); morphology=libstemmer_de
Греческий	charset_table=non_cont	el	morphology=libstemmer_el
Иврит	charset_table=non_cont	he	-
Хинди	charset_table=non_cont	hi	morphology=libstemmer_hi
Хмонг	указать charset_table вручную	-	-
Хо	указать charset_table вручную	-	-
Венгерский	charset_table=non_cont	hu	morphology=libstemmer_hu
Индонезийский	charset_table=non_cont	id	morphology=libstemmer_id
Ирландский	charset_table=non_cont	ga	morphology=libstemmer_ga
Итальянский	charset_table=non_cont	it	morphology=libstemmer_it
Японский	ngram_chars=japanese	-	ngram_chars=japanese ngram_len=1	Требуется сегментация на основе ngram
Коми	указать charset_table вручную	-	-
Корейский	ngram_chars=korean	-	ngram_chars=korean ngram_len=1	Требуется сегментация на основе ngram
Большой Цветочный Мяо	указать charset_table вручную	-	-
Латинский	charset_table=non_cont	la	-
Латышский	charset_table=non_cont	lv	-
Литовский	charset_table=non_cont	lt	morphology=libstemmer_lt
Маба	указать charset_table вручную	-	-
Майтхили	указать charset_table вручную	-	-
Маратхи	указать charset_table вручную	-	-
Маратхи	charset_table=non_cont	mr	-
Менде	указать charset_table вручную	-	-
Мру	указать charset_table вручную	-	-
Миене	указать charset_table вручную	-	-
Непальский	указать charset_table вручную	-	morphology=libstemmer_ne
Нгамбай	указать charset_table вручную	-	-
Норвежский	charset_table=non_cont	no	morphology=libstemmer_no
Ория	указать charset_table вручную	-	-
Персидский	charset_table=non_cont	fa	-
Польский	charset_table=non_cont	pl	-
Португальский	charset_table=non_cont	pt	morphology=libstemmer_pt
Румынский	charset_table=non_cont	ro	morphology=libstemmer_ro
Русский	charset_table=non_cont	ru	morphology=lemmatize_ru (одна основная форма); morphology=lemmatize_ru_all (все основные формы); morphology=stem_ru (стеммер Портера для русского); morphology=stem_enru (стеммеры Портера для английского и русского); morphology=libstemmer_ru (из libstemmer)
Сантали	указать charset_table вручную	-	-
Синдхи	указать charset_table вручную	-	-
Словацкий	charset_table=non_cont	sk	-
Словенский	charset_table=non_cont	sl	-
Сомалийский	charset_table=non_cont	so	-
Сесото	charset_table=non_cont	st	-
Испанский	charset_table=non_cont	es	morphology=libstemmer_es
Суахили	charset_table=non_cont	sw	-
Шведский	charset_table=non_cont	sv	morphology=libstemmer_sv
Сильхети	указать charset_table вручную	-	-
Тамильский	указать charset_table вручную	-	morphology=libstemmer_ta
Тайский	charset_table=thai	th	-
Турецкий	charset_table=non_cont	tr	morphology=libstemmer_tr
Украинский	charset_table=non_cont,U+0406->U+0456,U+0456,U+0407->U+0457,U+0457,U+0490->U+0491,U+0491	-	morphology=lemmatize_uk_all	Требуется установка украинского лемматизатора
Вьетнамский	charset_table=non_cont	-	-	Использует латинский алфавит. Вьетнамские диакритические знаки (ă, â, ê, ô, ơ, ư, đ и тоновые знаки) по умолчанию автоматически сопоставляются с их базовыми латинскими символами, поэтому "tiếng" соответствует "tieng" без дополнительной настройки.
Йоруба	charset_table=non_cont	yo	-
Зулу	charset_table=non_cont	zu	-

Токенизация данных Языки с непрерывными скриптами

Last modified: January 20, 2026

Manticore предоставляет встроенную поддержку для индексации языков с непрерывным письмом (т.е. языков, которые не используют пробелы или другие знаки между словами или предложениями). Это позволяет обрабатывать тексты на этих языках двумя различными способами:

Точная сегментация с использованием библиотеки ICU. В настоящее время поддерживается только китайский язык.

‹›

SQL
JSON
PHP
Python
Python-asyncio
Javascript
Java
C#
Rust
CONFIG

📋

CREATE TABLE products(title text, price float) charset_table = 'cont' morphology = 'icu_chinese'

POST /cli -d "
CREATE TABLE products(title text, price float) charset_table = 'cont' morphology = 'icu_chinese'"

$index = new \Manticoresearch\Index($client);
$index->setName('products');
$index->create([
            'title'=>['type'=>'text'],
            'price'=>['type'=>'float']
        ],[
            'charset_table' => 'cont',
            'morphology' => 'icu_chinese'
        ]);

utilsApi.sql('CREATE TABLE products(title text, price float) charset_table = \'cont\' morphology = \'icu_chinese\'')

await utilsApi.sql('CREATE TABLE products(title text, price float) charset_table = \'cont\' morphology = \'icu_chinese\'')

res = await utilsApi.sql('CREATE TABLE products(title text, price float) charset_table = \'cont\' morphology = \'icu_chinese\'');

utilsApi.sql("CREATE TABLE products(title text, price float) charset_table = 'cont' morphology = 'icu_chinese'", true);

utilsApi.Sql("CREATE TABLE products(title text, price float) charset_table = 'cont' morphology = 'icu_chinese'", true);

utils_api.sql("CREATE TABLE products(title text, price float) charset_table = 'cont' morphology = 'icu_chinese'", Some(true)).await;

table products {
  charset_table = cont
  morphology = icu_chinese
  type = rt
  path = tbl
  rt_field = title
  rt_attr_uint = price
}

Точная сегментация с использованием библиотеки Jieba. Как и ICU, в настоящее время поддерживает только китайский язык.

‹›

SQL
JSON
PHP
Python
Python-asyncio
Javascript
Java
C#
Rust
CONFIG

📋

CREATE TABLE products(title text, price float) charset_table = 'cont' morphology = 'jieba_chinese'

POST /cli -d "
CREATE TABLE products(title text, price float) charset_table = 'cont' morphology = 'jieba_chinese'"

$index = new \Manticoresearch\Index($client);
$index->setName('products');
$index->create([
            'title'=>['type'=>'text'],
            'price'=>['type'=>'float']
        ],[
            'charset_table' => 'cont',
            'morphology' => 'jieba_chinese'
        ]);

utilsApi.sql('CREATE TABLE products(title text, price float) charset_table = \'cont\' morphology = \'jieba_chinese\'')

await utilsApi.sql('CREATE TABLE products(title text, price float) charset_table = \'cont\' morphology = \'jieba_chinese\'')

res = await utilsApi.sql('CREATE TABLE products(title text, price float) charset_table = \'cont\' morphology = \'jieba_chinese\'');

utilsApi.sql("CREATE TABLE products(title text, price float) charset_table = 'cont' morphology = 'jieba_chinese'", true);

utilsApi.Sql("CREATE TABLE products(title text, price float) charset_table = 'cont' morphology = 'jieba_chinese'", true);

utils_api.sql("CREATE TABLE products(title text, price float) charset_table = 'cont' morphology = 'jieba_chinese'", Some(true)).await;

table products {
  charset_table = cont
  morphology = jieba_chinese
  type = rt
  path = tbl
  rt_field = title
  rt_attr_uint = price
}

Базовая поддержка с использованием опций N-gram ngram_len и ngram_chars Для каждого языка, использующего непрерывное письмо, существуют отдельные таблицы наборов символов (chinese, korean, japanese, thai), которые можно использовать. В качестве альтернативы, вы можете использовать общую таблицу наборов символов cont для поддержки всех языков CJK и тайского одновременно, или набор символов cjk для включения только всех языков CJK.

‹›

SQL
JSON
PHP
Python
Python-asyncio
javascript
Java
C#
Rust
CONFIG

📋

CREATE TABLE products(title text, price float) charset_table = 'non_cont' ngram_len = '1' ngram_chars = 'cont'
/* Or, alternatively */
CREATE TABLE products(title text, price float) charset_table = 'non_cont' ngram_len = '1' ngram_chars = 'cjk,thai'

POST /cli -d "
CREATE TABLE products(title text, price float) charset_table = 'non_cont' ngram_len = '1' ngram_chars = 'cont'"
/* Or, alternatively */
POST /cli -d "
CREATE TABLE products(title text, price float) charset_table = 'non_cont' ngram_len = '1' ngram_chars = 'cjk,thai'"

$index = new \Manticoresearch\Index($client);
$index->setName('products');
$index->create([
            'title'=>['type'=>'text'],
            'price'=>['type'=>'float']
        ],[
             'charset_table' => 'non_cont',
             'ngram_len' => '1',
             'ngram_chars' => 'cont'
        ]);

utilsApi.sql('CREATE TABLE products(title text, price float) charset_table = \'non_cont\' ngram_len = \'1\' ngram_chars = \'cont\'')

await utilsApi.sql('CREATE TABLE products(title text, price float) charset_table = \'non_cont\' ngram_len = \'1\' ngram_chars = \'cont\'')

res = await utilsApi.sql('CREATE TABLE products(title text, price float) charset_table = \'non_cont\' ngram_len = \'1\' ngram_chars = \'cont\'');

utilsApi.sql("CREATE TABLE products(title text, price float) charset_table = 'non_cont' ngram_len = '1' ngram_chars = 'cont'", true);

utilsApi.Sql("CREATE TABLE products(title text, price float) charset_table = 'non_cont' ngram_len = '1' ngram_chars = 'cont'", true);

utils_api.sql("CREATE TABLE products(title text, price float) charset_table = 'non_cont' ngram_len = '1' ngram_chars = 'cont'", Some(true)).await;

table products {
  charset_table = non_cont
  ngram_len = 1
  ngram_chars = cont
  type = rt
  path = tbl
  rt_field = title
  rt_attr_uint = price
}

Кроме того, существует встроенная поддержка китайских стоп-слов с псевдонимом zh.

‹›

SQL
JSON
PHP
Python
Python-asyncio
javascript
Java
C#
Rust
CONFIG

📋

CREATE TABLE products(title text, price float) charset_table = 'chinese' morphology = 'icu_chinese' stopwords = 'zh'

POST /cli -d "
CREATE TABLE products(title text, price float) charset_table = 'chinese' morphology = 'icu_chinese' stopwords = 'zh'"

$index = new \Manticoresearch\Index($client);
$index->setName('products');
$index->create([
            'title'=>['type'=>'text'],
            'price'=>['type'=>'float']
        ],[
            'charset_table' => 'chinese',
            'morphology' => 'icu_chinese',
            'stopwords' => 'zh'
        ]);

utilsApi.sql('CREATE TABLE products(title text, price float) charset_table = \'chinese\' morphology = \'icu_chinese\' stopwords = \'zh\'')

await utilsApi.sql('CREATE TABLE products(title text, price float) charset_table = \'chinese\' morphology = \'icu_chinese\' stopwords = \'zh\'')

res = await utilsApi.sql('CREATE TABLE products(title text, price float) charset_table = \'chinese\' morphology = \'icu_chinese\' stopwords = \'zh\'');

utilsApi.sql("CREATE TABLE products(title text, price float) charset_table = 'chinese' morphology = 'icu_chinese' stopwords = 'zh'", true);

utilsApi.Sql("CREATE TABLE products(title text, price float) charset_table = 'chinese' morphology = 'icu_chinese' stopwords = 'zh'", true);

utils_api.sql("CREATE TABLE products(title text, price float) charset_table = 'chinese' morphology = 'icu_chinese' stopwords = 'zh'", Some(true)).await;

table products {
  charset_table = chinese
  morphology = icu_chinese
  stopwords = zh
  type = rt
  path = tbl
  rt_field = title
  rt_attr_uint = price
}

Поддерживаемые языки Низкоуровневая токенизация

Last modified: August 28, 2025

≫ NLP и токенизация

Токенизация данных

Токенизация на уровне символов

Токенизация на уровне слов

Обработка распространённых и «шумных» слов

HTML-контент

Ограничение длины токена

Поддерживаемые языки

Китайский, японский и корейский (CJK) и тайский языки