Options
All
  • Public
  • Public/Protected
  • All
Menu

Hierarchy

  • any
    • ForeignTokenizer

Index

Properties

_REGEXP_SPLIT_1

_REGEXP_SPLIT_1: RegExp

分詞用(包含中文)

_REGEXP_SPLIT_2

_REGEXP_SPLIT_2: RegExp

分詞用(不包含中文的全詞符合)

name

name: string = "ForeignTokenizer"

Methods

_cache

  • _cache(): void

createForeignToken

split

splitForeign

  • splitForeign(text: string, cur?: number): IWord[]
  • 匹配包含的英文字符和数字,并分割

    Parameters

    • text: string

      文本

    • Optional cur: number

      开始位置

    Returns IWord[]

    返回格式 {w: '单词', c: 开始位置}

splitForeign2

  • splitForeign2(text: string, cur?: number): IWord[]
  • 支援更多外文判定(但可能會降低效率)

    並且避免誤切割 例如 latīna Русский

    Parameters

    • text: string
    • Optional cur: number

    Returns IWord[]

Generated using TypeDoc