На главную | Поиск
Вы находитесь в Хранилище файлов Белорусской цифровой библиотеки
Инструкция для благодетелей и текстодателей
Прочли понравившуюся книгу? - Будьте добры,
пришлите список опечаток или исправленный текст.
Не нашли здесь достойной замечательной книги?
- Пришлите отOCRенный файл.
Этим вы внесете свой посильный вклад в развитие библиотеки.
Если Вы решили внести свой вклад в эту библиотеку, то - Welcome!
Приветствуются новые е-тексты интересных с _вашей_ точки зрения книг, а так
же - поправки, замечания, вычитанные spellcheck'нутые варианты на замену
существующим е-книгам. Во многих имеющихся здесь переводах отсутствует
фамилия переводчика, и это ужасно - очень хотелось бы восполнить эти
пробелы. Состав и качество текстов этой библиотеки определяется ее
читателями, я же здесь состою только "на приеме".
ВАЖНО: А вдруг эта книга уже есть? Или ее делает кто-то еще.
Запишите свои планы по сканированию (и проверьте на пересечение) в гостевой
"Книги, которые скоро будут выложены"
Поиск по автору и заглавию в Lib.Ru
Список крупных OCR библиотек
ВАЖНО: Сопроводительная информация
Присылая тексты, пожалуйста, не забывайте
про сопроводительную информацию:
Автор, Название произведения, дата написания
Для переводов, дополнительно:
Author Name, Title, date, Переводчик, дата перевода
Источник поступления текстов:
Для OCR: Печатный Источник, кто OCR'ил, кто делал spellcheck
Для электронных текстов: URL, authоr's-contact-email и home-page,...
На _все_ письма размером > 100Kb (т.е. содержащие тексты для
библиотеки) автоматически посылается подтверждение о получении "Thanks, I
have got your message" - а значит, письмо дошло и _обязательно_ будет
обработано.
Если Вы послали мне письмо, а ответа не пришло - то, скорее всего,
потому, что в письме неправильный обратный адрес или письмо погибло от
"delivery errors". Проверьте настройки своего мейлера. Я стараюсь отвечать
на все письма, подразумевающие необходимость ответа, хотя и с задержками,
ведь за 1999 год я получил 18000 и написал 8000 писем.
И еще - "Библиотека в кармане-4" и загуменновский "HarryFan CD" с
текстами у меня есть. Прежде чем посылать, посмотрите - нет ли этого уже
в списке HarryFan CD
и списке "Библиотека в кармане-4"
Один из удобных (не единственный) видов правки
Сделать
diff -U 2 filename.html filename.html.orig
и результат прислать мне в аттаче.
Если об'ем правки велик, то лучше присылать файл целиком на замену
Авторам, желающим опубликоваться журнале "Самиздат":
Материалы для журнала "Самиздат" можно присылать по e-mail в текстовом
формате. В первую очередь публикуются работы тех, кто отрецензировал
хотя бы одно произведение своих коллег в гестбуке журнала "Самиздат"
Всем-всем-всем, кто предоставляет какие-либо тексты в библиотеку:
* РОДНОЙ ФОРМАТ БИБЛИОТЕКИ *
Книги в библиотеке лежат в унифицированном текстовом формате, который
описан здесь.
К нему преобразуются все файлы, вами присылаемые. Чем "хуже" формат
присланного файла, тем больше будет мне с ним мороки при закладке в
библиотеку.
Файлы неудобных форматов ставятся в очередь на обработку. По состоянию
на 22 мая 2000 г. их там 1420. За день эта очередь продвигается вперед на
10-20 позиций.
Файлы удобных форматов обрабатываются вне очереди в день поступления.
* ДОПУСТИМЫЕ ФОРМАТЫ *
Приветствуются и обрабатываются в первую очередь:
1. Кодировки koi8-r, Besta.
2. Текстовые ASCII файлы, отформатированные БЕЗ ПЕРЕНОСОВ под 76
символов в строке, с АБЗАЦНЫМ ОТСТУПОМ, а также комплекты файлов с
оглавлениями mim.dir формата редактора "Микромир", текстовые файлы формата
редактора "Рк-Беста88" с оглавлениями .dir.
А также rar и zip-архивы с текстами в формате HarryFan CD (т.е. в
альтернативной кодировке и оформленные в точности так же, как они оформлены
на этом компакт-диске).
Распознаются и принимаются:
1. Кодировки windows-1251, альтернативка cp866, iso8859-5.
2. HTML-файлы, файлы Write for Windows *.WRI, Word 6 for Windows,
Word-7 for Win95 в формате *.DOC, *.RTF, картинки формата *.gif, *.jpg
Файлы формата Ворд-8 (он же Ворд-97) НЕ ПРИНИМАЮТСЯ!
3. Архивы {cpio|tar}/{gzip|bzip2|compress}, RAR, ZIP, однофайловые ARJ,
LHA, HA, ARC
4. Бинарные файлы, закодированные uuencode, MIME, base64
Распознаются, но не одобряются:
1. Кодировка кои8, к которой применена перекодировка windows->koi8 (кто
понимает о чем я), Translit-volapuk
2. Файлы формата TeX, PostScript
4. Бинарные файлы, закодированные макинтошевским BinHex 4.0, uuen
cod-нутые файлы, порезанные на кусочки.
Распознаются, но порицаются:
2. Текстовые файлы БЕЗ выделения абзацев, которые получаются
сохранением "Save as MSDOS text" в Word 7.0 for Win95 (уж лучше прислать сам
.doc, чем калечить абзацы и терять авторский курсив).
Картинки формата *.bmp, *.pcx, *.tif, картинки размером > 1024x768,
файлы формата PDF (за свою величину).
3. Архивы AIN, UC2, многотомные архивы ARJ
4. Бинарные файлы, закодированные btoa
НЕ РАСПОЗНАЮТСЯ И НЕ ПРИНИМАЮТСЯ:
1. Кодировки UTF8, unicode, кодировки прочие, неизвестные в природе, а
также результаты нескольких неочевидных перекодировок.
2. DOC-файлы от Word 97 (AKA WORD 8). Таблицы формата Excel,
прочие виндовые издательские форматы. МНЕ НЕЧЕМ ИХ ЧИТАТЬ И ОБРАБАТЫВАТЬ.
Размер файлов
Размер файлов неограничен - дойдет даже 5-мегабайтное письмо. Письма
размером меньше 100Кб переадресуются на мой домашний e-mail. Письма размером
> 100 Кб остаются на e-mail на моей работе и обрабатываются, скорее всего, с
задержкой на 2-3 дня, что не принципиально.
Incoming Anonymous ftp у меня больше не существует.
* ТЕКСТОДАТЕЛЯМ *
У меня есть автомат, который из текстового файла лепит простенький
HTML-файл (да еще на лету) - например, распознается LEXIKON-овская "раскраска"
- и превращается во всякие BOLD-ы, ITALIС-и и выделенные заголовки.
Если хочется сделать документ со встроенными картинками
(как в "Тумче-95" -
with-big-pictures.html AND with-icons.html ), то это очень просто.
Готовятся картинки с одним и тем же названием в двух форматах:
.gif-иконки размером 70x105
.jpg-основная картинка 256 цветов размером 280x420 или больше.
Желательно ограничить размер файлов: gif ~ 6-8 kb, jpg ~ 20-70 Kb,
а в отчет в нужных местах вставить ссылки на картинки примерно
в таком стиле:
"Моя старушка Таймень"
Андрей Смирнов, & kartinki/tumcha/andrej_smirnow.jpg portret
главный рыбак
Каяк-одиночка "Соло" & kartinki/tumcha/kayak_solo.jpg
Максим Мошков, & kartinki/tumcha/maksim_moshkow.jpg portret
он же - Макс
"&" - указывает на ссылку, "portret" значит картинка "стоя",
если без "portret" - значит, "лежа".
Да, и в табличках желательно обходиться без псевдографики, а
пользоваться обычными + - |
Ну а в HTML - получится автоматом.
Максим Мошков. moshkow@ipsun.ras.ru
Last-modified: Sat, 20 Jan 2001 09:32:18 GMT
Проект Либмонстра, партнеры БЦБ - Украинская цифровая библиотека и Либмонстр Россия
https://database.library.by