Многие приложения, которые имеют дело с неструктурированными данными требуется доступ к текстовому содержанию отформатированных или размеченными документами. Организации, которые архивных документов часто требуется доступ к текстовому содержанию, чтобы сделать документы для поиска и позволяют агрегацию контента, отчетности и добыча архивах документов. Поиск и извлечение приложение также необходимо извлечь и разметить текст из файлов различных форматов.
Один стандартный механизм доступа и извлечения текста из документов, предоставляемый интерфейсом плагина IFilter, используемых в поисковых системах Microsoft. Есть несколько IFilter реализации, разработанные Microsoft и других поставщиков, которые охватывают различные форматы файлов. Стандарт или извлечение надежность и качество меняется текст на нескольких разработчиков IFilter.
Opait Текстовые фильтры это небольшая утилита, программа с простым интерфейсом для IFilters, которые уже установлены на компьютере, а также несколько пользовательских текстовых экстракции фильтров, которые работают непосредственно с форматами файлов и улучшить реализациями по умолчанию IFilter.
. Интерфейс для извлечения текста обеспечивается библиотеки небольшой класс называемых Opait.Filters, которые включены и могут быть использованы для интеграции текстовых фильтров в приложениях .NET
Требования
.NET Framework 4.5
Комментарии не найдены