WombatWiki

1. Распаковываем словарь

gunzip -c -S .dz ~/Downloads/torrents/multitran/multitran_ruen.dsl.dz > multitran_ruen.dsl

2. Измеряем число строк:

wc -l multitran_ruen.dsl

3. Записываем заголовок в отдельный файл:

head -n1 multitran_ruen.dsl > ruen-head

4. Редактируем заголовок, дообавляя в него цифру “1” и обращая внимание на кодировку текста в файле (UTF-16, кажется), в которой каждый второй байт “0x00”. Поэтому цифру дописываем вместе с соответствующим “нулём”.

5. Записываем верхушку в первую половину словаря:

cat ruen-head > multitran_ruen-part1.dsl

6. Записываем первую половину словаря без первой строки заголовка в целевой файл: например

head -n 6908499 multitran_ruen.dsl >> multitran_ruen-part1.dsl

7. Создаём маленький файлик с корректным окончанием словаря:

например
tail -n2 multitran_ruen.dsl > ruen-foot

8. Дописываем эту концовку к файлу первой половины словаря:

cat ruen-foot >> multitran_ruen-part1.dsl

9. Пакуем словарь dictzip'ом:

dictzip multitran_ruen-part1.dsl

10. Записываем заголовок с именем словаря в файл второй половины:

cat ruen-head > multitran_ruen-part2.dsl

11. Редактируем его так, чтобы в названии фигурировала цифра “2”. Проще всего - открыть редактором и заменить цифру “1” на “2”, не затрагивая окружающих байт.

12. Дописать во вторую половину 2-ю и 3-ю строки заголовка исходного словаря:

head -n 3 multitran_ruen.dsl | tail -n2 >> multitran_ruen-part2.dsl

13. Записать текст второй половины словаря в целевой файл:

tail -n 6000000 multitran_enru.dsl >> multitran_enru-part2.dsl

14. Запаковать словарь dictzip'ом:

dictzip multitran_ruen-part2.dsl

Словари готовы к использованию. Приятного аппетита!

WombatWiki

Користувальницькькі налаштування

Налаштування сайту

Налаштування сторінки