catdoc это программа, которая читает один или несколько файлов слово Microsoft и текст, содержащийся выходы insinde них на стандартный вывод. Поэтому он делает ту же работу для файлов .doc, как команды Unix для кошек обычные файлы ASCII.
catdoc проект теперь сопровождается xls2csv - программа, которая преобразует Excel таблицу в разделенных запятыми файл значений. Последним дополнением к catdoc сюиты catppt - программа, которая извлекает читаемый текст из файлов PowerPoint.
Опционально, catdoc способен перевести некоторые не-ASCII символов в управляющие последовательности correspoindig TeX и конвертировать кодировки ANSI из окон кодовой страницы или Unicode в локальную кодовую страницу целевой машине.
Это также базу данных замещения последовательностей, которые используются для символов, которые не присутствуют в целевой кодировке. Так что, если вы пытаетесь читать русское слово файл под C локали, вы получите транслитерацию.
В Unix использует nl_langinfo функции, чтобы узнать, какой выход кодирования использовать под DOS использует соответствующую функцию DOS, которая получает значение кодовой страницы из страны заявление в config.sys.
catdoc также может читать файлы в формате RTF и даже простой текст, так что он может быть использован в качестве общего назначения кодирования преобразователь. (Потому что это catdoc русский программа, по умолчанию он преобразует cp1251 в KOI8-R, при работе в UNIX и CP866, когда работает под DOS.
Catdoc имеет рудиментарный обработки таблицы. В режиме TeX он вставляет & при встречи разделитель полей, и когда встречает конец строки таблицы. Нет Таблица заголовки не производятся, хотя.
Catdoc даже не пытаются Хранитель форматирования символов MS-Word. Его цель состоит в извлечении простой текст и позволяют читать и, возможно, переформатировать с TeX, в соответствии с правилами TeXnical, большинство пользователей в слова даже не слышали.
xls2csv делает примерно то же самое для файлов Excel. Она извлекает данные и оставляет любую информацию о форматировании и формул. Концепция является то, что вы хотите увидеть данные, а не как это было создано.
Существует TCL / TK GUI сценарий wordview которая обеспечивает графический интерфейс для просмотра файлов Word, RTF и используя catdoc. Так внутреннее представление Tcl строки является UTF-8 и большинство систем теперь есть юникода шрифты, вы, вероятно, сможете прочитать документ на любом языке с помощью этого скрипта.
Детали программы:
Версия: 0.94.2
Дата загрузки: 14 Apr 15
Тип распространения: Бесплатная
Популярность: 50
Комментарии не найдены