dr_klm: (Default)
Dr. K. L. Metlov ([personal profile] dr_klm) wrote2011-03-21 02:50 am

Карта науки

Карта физики. Объяснение.

Обратите внимание на значение цвета и ужаснитесь.

[identity profile] p2004r.blogspot.com (from livejournal.com) 2011-03-23 05:17 pm (UTC)(link)
По совершенно странному совпадению ни один из индексов цитирования не индексирует кириллицу и не собирается.

Про сегрегацию просто смешно, я думаю с трудом можно найти статью на русском в которой отсутствуют ссылки на зарубежные публикации. Значительно труднее будет найти обратный пример? Особенность citeseer в том, что даже не имея текста цитируемой работы (например копирайт не позволяет), виден контекст цитирования агрегированный из всего индекса. Так что никто англосаксов не собирается обижать :) "Сегрегацию", "апартеид" оне сами себе успешно устроили, без посторонней помощи :)

Не понимал, не понимает citeseer библиографии на русском, и не собирается понимать... Проблемы афроамериканцев знаете ли шерифа не волнуют. (да и citeseer того что был уже нет, наверное хватило пару писем от лаеров продолжателей дела Ю. Гарфилда, им же тоже кушать надо :)

Ну вестники... я же написал уже что именно имею в виду. Лично меня интересует что писали в 60-80е. То что этого нет в индексированном виде является причиной того, что мы наблюдаем в сегодняшних вестниках.

[identity profile] dr-klm.livejournal.com 2011-03-23 05:50 pm (UTC)(link)
Во-первых статей на русском, без ссылок на иностранные публикации валом (причем, чем дремучее "вестник", тем больше). И наоборот, лучшие из русскоязычных журналов переводятся (причем, как правило, "за счет принимающей стороны") и ссылки на них даются латиницей.

Чтобы не ходить далеко за примерами, я, в своих статьях, которые преимущественно латиницей и в иностранных журналах, регулярно ссылаюсь на статьи (и книги), опубликованные в СССР.

С еще более глобальных позиций, ничего из ряда вон выходящего с советскими журналами не происходит. Это только студенты думают, что публикация научной статьи -- путевка в вечность. На самом деле, наука не существует в отрыве от политики и позволить себе передовую науку может себе лишь успешное государство, империя. Потому, языком науки были: греческий, латынь, французский, немецкий... Локально в СССР был русский, сейчас, глобально, английский. Потом будет, наверное, китайский. Никакой трагедии для науки при этом не происходит. Наоборот, в процессе смены эпохи происходит очищение от мусора, очевидное придумывается заново, а на настоящие, фундаментальные вещи, народ ссылается назад, свозь несколько научных эпох. И ничего, что по гречески сейчас не все образованные люди понимают, как это было когда-то.

К.Л.М.

[identity profile] p2004r.blogspot.com (from livejournal.com) 2011-03-23 06:47 pm (UTC)(link)
"... но чем, скажи, измеришь ты глубину Восточного океана?" (С)

Если заострить --- как быть с такой наукой как русская филология? Её тоже по английски публиковать? Конечно можно, но всяким хиршам это не поможет, читать некому особо даже по русски :)

Рядом с латынью был арабский. А некоторое время он доминировал, там где был родным.

Отказ от немецкого, как языка науки, был просто дистиллятом шовинизма. Тут есть один момент, обычно считается что переход со всякой "латыни" на родной язык обучаемого способствует прогрессу. И мне не очень понятна стратегия, при которой одни переходят со всяких "латыней" на национальные языки, и уступают такое право только умывшись кровушкой (немцы в 1й мировой, французы в наполеоновские войны), а другие должны воспринимать переход от родного языка на совсем неродной чей то язык за благо? Ведь в случае мертвого языка --- классический греческий и такая же латынь, барьер стоит перед всеми одинаковый, и стартовые условия равны. Вот никто ведь арабский не стал учить, ограничились переводом книжек обратно на латынь.

А с греческим действительно нехорошо получилось, последней анатомия сдалась в СССР, в 80е. Правда в пользу латыни :).

Кратко резюмируя (С) :) будущее за системами статистического перевода :)

Но пока их нет --- нужен индекс с поддержкой кириллицы, может хоть на учебники перестанут ссылаться :) мне на рецензию статьи носить из вестника не пытаются, я сразу сказал, что ссылки на учебники не пройдут :)

[identity profile] dr-klm.livejournal.com 2011-03-25 01:52 pm (UTC)(link)
Если отказаться от измерений, вся наука превратится в русскую филологию.

Видите возможность улучшить citeseer, код здесь (http://sourceforge.net/projects/citeseerx/).

Думаете, что не ссылаются на первоисточники потому что не находят ? А я думаю потому, что не ищут. Даже если найдут, не будут читать. Даже если попытаются читать -- не поймут. Хотя, может быть правы Вы, а я не прав. Хорошо бы... ;-)

К.Л.М.

[identity profile] p2004r.blogspot.com (from livejournal.com) 2011-03-25 02:56 pm (UTC)(link)
Да, сейчас смотрю добавить кириллицу по проще будет :) Когда я смотрел первый раз это был кластер полностью написанный на перле, в пределе на каждую букву алфавита запускалась отдельная машина.

Теперь я смотрю всё локализовано в ParsCit. К сожалению много heuristic regularization забито в код именно для английского, но это вполне решаемо.

Еще не понятен вопрос с Conditional Random Fields , если там нормализация языка как этап обработки, то русского там не предусмотрено скорее всего из коробки :(

[identity profile] dr-klm.livejournal.com 2011-03-25 05:24 pm (UTC)(link)
Не все, что можно сделать делать нужно. Тем более, за просто так...

Прелесть CRF в самообучаемости, которая ослабит зависимость от языка (она войдет в тренировочный набор данных, который прийдется дополнить кириллическими примерами), изменить прийдется некоторое ограниченное количество фиксированных токенов (типа "под ред.", а также названий известных журналов и издательств), пред-обработку (которая бы искала раздел "Литература" вместо "References") и пост-обработку (для регуляризации имен типа "Иванов-Петров И.П." в "И. П. Иванов-Петров" и страниц "с. 1234-6" в "1234-1236"). Ничего принципиально сложного (т.е. принципиально сложнее, чем то, что уже сделано для английского) в этом я не вижу, но это серьезная и кропотливая работа (если делать систематически).

Подозреваю, что сложнее будет универсальным образом вытащить кириллический текст из формата PDF. ;-)

К.Л.М.

[identity profile] p2004r.blogspot.com (from livejournal.com) 2011-03-25 06:00 pm (UTC)(link)
да, на http://pdfbox.apache.org/userguide/faq.html#gibberish_text

This is because the characters in a PDF document can use a custom encoding instead of unicode or ASCII. When you see gibberish text then it probably means that a meaningless internal encoding is being used. The only way to access the text is to use OCR. This may be a future enhancement.


Hо то мы ведь знаем, что "настоящие кириллические" ученые почему то вс[её] пишут в мсворде (шутка :)

[identity profile] dr-klm.livejournal.com 2011-03-25 08:01 pm (UTC)(link)
Да, именно в мсворде они и пишут. Причем, в ворованном. ;-)

Кстати, насчет OCR это в том FAQ зря. Да, (не говоря о разных фиксированных кодировках) бывают "оптимизированные" PDF, где кодировка специфична для документа. Тем не менее, зная для каждого символа комбинацию шрифт/код должно быть несложно восстановить кодировку для английского и русского. Например, частотным анализом (для построения начального приближения) и последующим сравнением со словарем (с уточняющими перестановками). Это отдельная задача. Если ее решить (например, в виде патча к тому-же pdftotext), то человечество скорее сказало бы за это спасибо. Задача не такая уж и тривиальная, если искать универсальное решение (для языков, использующих алфавит).

К.Л.М.