Не все, что можно сделать делать нужно. Тем более, за просто так...
Прелесть CRF в самообучаемости, которая ослабит зависимость от языка (она войдет в тренировочный набор данных, который прийдется дополнить кириллическими примерами), изменить прийдется некоторое ограниченное количество фиксированных токенов (типа "под ред.", а также названий известных журналов и издательств), пред-обработку (которая бы искала раздел "Литература" вместо "References") и пост-обработку (для регуляризации имен типа "Иванов-Петров И.П." в "И. П. Иванов-Петров" и страниц "с. 1234-6" в "1234-1236"). Ничего принципиально сложного (т.е. принципиально сложнее, чем то, что уже сделано для английского) в этом я не вижу, но это серьезная и кропотливая работа (если делать систематически).
Подозреваю, что сложнее будет универсальным образом вытащить кириллический текст из формата PDF. ;-)
no subject
Date: 2011-03-25 05:24 pm (UTC)Прелесть CRF в самообучаемости, которая ослабит зависимость от языка (она войдет в тренировочный набор данных, который прийдется дополнить кириллическими примерами), изменить прийдется некоторое ограниченное количество фиксированных токенов (типа "под ред.", а также названий известных журналов и издательств), пред-обработку (которая бы искала раздел "Литература" вместо "References") и пост-обработку (для регуляризации имен типа "Иванов-Петров И.П." в "И. П. Иванов-Петров" и страниц "с. 1234-6" в "1234-1236"). Ничего принципиально сложного (т.е. принципиально сложнее, чем то, что уже сделано для английского) в этом я не вижу, но это серьезная и кропотливая работа (если делать систематически).
Подозреваю, что сложнее будет универсальным образом вытащить кириллический текст из формата PDF. ;-)
К.Л.М.