Да, сейчас смотрю добавить кириллицу по проще будет :) Когда я смотрел первый раз это был кластер полностью написанный на перле, в пределе на каждую букву алфавита запускалась отдельная машина.
Теперь я смотрю всё локализовано в ParsCit. К сожалению много heuristic regularization забито в код именно для английского, но это вполне решаемо.
Еще не понятен вопрос с Conditional Random Fields , если там нормализация языка как этап обработки, то русского там не предусмотрено скорее всего из коробки :(
Не все, что можно сделать делать нужно. Тем более, за просто так...
Прелесть CRF в самообучаемости, которая ослабит зависимость от языка (она войдет в тренировочный набор данных, который прийдется дополнить кириллическими примерами), изменить прийдется некоторое ограниченное количество фиксированных токенов (типа "под ред.", а также названий известных журналов и издательств), пред-обработку (которая бы искала раздел "Литература" вместо "References") и пост-обработку (для регуляризации имен типа "Иванов-Петров И.П." в "И. П. Иванов-Петров" и страниц "с. 1234-6" в "1234-1236"). Ничего принципиально сложного (т.е. принципиально сложнее, чем то, что уже сделано для английского) в этом я не вижу, но это серьезная и кропотливая работа (если делать систематически).
Подозреваю, что сложнее будет универсальным образом вытащить кириллический текст из формата PDF. ;-)
да, на http://pdfbox.apache.org/userguide/faq.html#gibberish_text
This is because the characters in a PDF document can use a custom encoding instead of unicode or ASCII. When you see gibberish text then it probably means that a meaningless internal encoding is being used. The only way to access the text is to use OCR. This may be a future enhancement.
Hо то мы ведь знаем, что "настоящие кириллические" ученые почему то вс[её] пишут в мсворде (шутка :)
Да, именно в мсворде они и пишут. Причем, в ворованном. ;-)
Кстати, насчет OCR это в том FAQ зря. Да, (не говоря о разных фиксированных кодировках) бывают "оптимизированные" PDF, где кодировка специфична для документа. Тем не менее, зная для каждого символа комбинацию шрифт/код должно быть несложно восстановить кодировку для английского и русского. Например, частотным анализом (для построения начального приближения) и последующим сравнением со словарем (с уточняющими перестановками). Это отдельная задача. Если ее решить (например, в виде патча к тому-же pdftotext), то человечество скорее сказало бы за это спасибо. Задача не такая уж и тривиальная, если искать универсальное решение (для языков, использующих алфавит).
no subject
Date: 2011-03-25 02:56 pm (UTC)Теперь я смотрю всё локализовано в ParsCit. К сожалению много heuristic regularization забито в код именно для английского, но это вполне решаемо.
Еще не понятен вопрос с Conditional Random Fields , если там нормализация языка как этап обработки, то русского там не предусмотрено скорее всего из коробки :(
no subject
Date: 2011-03-25 05:24 pm (UTC)Прелесть CRF в самообучаемости, которая ослабит зависимость от языка (она войдет в тренировочный набор данных, который прийдется дополнить кириллическими примерами), изменить прийдется некоторое ограниченное количество фиксированных токенов (типа "под ред.", а также названий известных журналов и издательств), пред-обработку (которая бы искала раздел "Литература" вместо "References") и пост-обработку (для регуляризации имен типа "Иванов-Петров И.П." в "И. П. Иванов-Петров" и страниц "с. 1234-6" в "1234-1236"). Ничего принципиально сложного (т.е. принципиально сложнее, чем то, что уже сделано для английского) в этом я не вижу, но это серьезная и кропотливая работа (если делать систематически).
Подозреваю, что сложнее будет универсальным образом вытащить кириллический текст из формата PDF. ;-)
К.Л.М.
no subject
Date: 2011-03-25 06:00 pm (UTC)This is because the characters in a PDF document can use a custom encoding instead of unicode or ASCII. When you see gibberish text then it probably means that a meaningless internal encoding is being used. The only way to access the text is to use OCR. This may be a future enhancement.
Hо то мы ведь знаем, что "настоящие кириллические" ученые почему то вс[её] пишут в мсворде (шутка :)
no subject
Date: 2011-03-25 08:01 pm (UTC)Кстати, насчет OCR это в том FAQ зря. Да, (не говоря о разных фиксированных кодировках) бывают "оптимизированные" PDF, где кодировка специфична для документа. Тем не менее, зная для каждого символа комбинацию шрифт/код должно быть несложно восстановить кодировку для английского и русского. Например, частотным анализом (для построения начального приближения) и последующим сравнением со словарем (с уточняющими перестановками). Это отдельная задача. Если ее решить (например, в виде патча к тому-же pdftotext), то человечество скорее сказало бы за это спасибо. Задача не такая уж и тривиальная, если искать универсальное решение (для языков, использующих алфавит).
К.Л.М.