blob: 7de902906df2b4b4ba3da1bd0ca525da251d4e4c (
plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
|
#! /usr/bin/env python
# -*- coding: utf-8 -*-
import fi
import unittest
tzer = fi.tokenize(u"""Tämä on kappale. Eipä ole kovin 2 nen, mutta tarkoitus on näyttää miten sanastaja
toimii useiden-erilaisten sanaryppäiden kimpussa.
Pitääpä vielä "tarkistaa" sanat jotka 'lainausmerkeissä.""",
valid_chars=u"'")
for w in tzer:
print w
#koe = fi.TestTokenizeFI()
#koe.test_tokenize_fi()
|