po/fi/test-fi.py


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

#! /usr/bin/env python
# -*- coding: utf-8 -*-

import fi
import unittest

tzer = fi.tokenize(u"""Tämä on kappale. Eipä ole kovin 2 nen, mutta tarkoitus on näyttää miten sanastaja 
toimii useiden-erilaisten sanaryppäiden kimpussa.
Pitääpä vielä "tarkistaa" sanat jotka 'lainausmerkeissä.""",
                   valid_chars=u"'")
for w in tzer:
    print w

#koe = fi.TestTokenizeFI()
#koe.test_tokenize_fi()