Intereting Posts
Chrome iFrame Block HTTPS redirect Переупорядочить позиции div с помощью jQuery? Как отправить HTML-адрес электронной почты с помощью R Как предотвратить blob + guid в заголовке браузера Как исправить фликкер при использовании трансляций и переходов Webkit Отображать данные json с помощью jquery на странице html Выровнять по центру таблицу HTML Как добавить большой выцветший фон текста через css? Выравнивание текста li, который обертывается при использовании настраиваемой маркерной точки Как получить значение div с помощью javascript Как сохранить размеры изображения в шаблонах Mailchimp Внутренние таблицы соединения SQL-запросов, печать в тег HTML передавая значения текстового поля на одном URL-адресе страницы без формы или отправки с помощью jquery или javascript Экспорт в единый HTML со встроенными изображениями с использованием отчета Jasper Один файл изображения для хранения всех маленьких изображений на странице

Пакетное преобразование docx для очистки HTML

Я начинаю задаваться вопросом, возможно ли это. Я искал решения в Google и не придумывал ничего, что работает точно так, как мне хотелось бы.

Я думаю, что было бы полезно объяснить, что это значит. Я работаю в группе базы данных в ИТ-отделе моего университета. Моя основная задача – взять спецификации отчета в файле docx, скопировать его в Dreamweaver, исправить форматирование и разместить его на своем веб-сайте. Моя проблема в том, что это смешно утомительно делать это снова и снова. Я понял, что, я не писал ничего на C # в течение некоторого времени, возможно, я мог бы написать приложение, чтобы захватить файл docx, преобразовать его в HTML, исправить CSS, наклеить заголовок и нижний колонтитул с веб-страницы там , и сохраните результат. Я изначально планировал, чтобы он делал по одному, но, вероятно, нетрудно было бы ввести его в список файлов и пакетный конвертировать.

Я нашел эти соответствующие темы о том, как это сделать, но они недостаточно соответствуют моим потребностям.

http://www.techrepublic.com/blog/howdoi/how-do-i-modify-word-documents-using-c/190

Это, вероятно, отлично подходит для нескольких документов, но поскольку это просто автоматизация экземпляра Word, я чувствую, что это будет медленным и интенсивным. Я бы предпочел не открывать и закрывать экземпляр Word 50+ раз.

http://openxmldeveloper.org/articles/333.aspx

Это то, что я начал использовать. XSLT имел возможность не использовать слово для установки и не запускать для каждого файла. После некоторых поисков я получил доказательство работы концепции. Он принимает файл docx, распаковывает его, извлекает из него document.xml и использует файл DocX2Html.xsl, который я удалил из программы просмотра OpenXML. Я полагаю, что это было первоначально предоставлено MS для серверов sharepoint для предоставления возможности обработки текстовых документов в браузере. Или что-то вдоль этих линий.

После настройки этого кода в соответствии с моими потребностями и проблем с методом objXSLT.Load () я закончил использование IlMerge, чтобы сделать XSL в DLL. Не знаю, почему я продолжал получать ошибку компиляции при использовании простого старого XSL-файла, но DLL работала нормально, поэтому я был доволен. Здесь ( http://pastebin.com/a5HBAakJ ) – это мой текущий код. Он выполняет преобразование docx в HTML просто отлично (кроме случайных пробелов между некоторыми словами), но файл результата имеет смехотворно уродливый синтаксис HTML. Пример этого чудовища можно найти здесь ( http://pastebin.com/b8sPGmFE ).

Кто-нибудь знает, как я мог бы это исправить? Я думаю, возможно, мне нужно создать новый XSL-файл, так как одна предоставленная MS – это то, что несет ответственность за прикрепление всех этих тегов и добавочный код. Моя проблема заключается в том, что я ничего не знаю о том, как это сделать. Возможно, есть альтернативная версия. Все, что мне нужно, это тот, который сохранит таблицы и форматирование текста. Изображения не нужны.

    Это похоже на то, что вам нужно: http://msdn.microsoft.com/en-us/library/ff628051(v=office.14).aspx

    Автор Эрик Уайт писал о своем опыте разработки этого инструмента. Вы можете увидеть этот список сообщений в своем блоге здесь: http://blogs.msdn.com/b/ericwhite/archive/2008/10/20/eric-white-s-blog-s-table-of-contents. ASPX # Open_XML_to_XHtml

    Поскольку я большой поклонник Aspose.Words , коммерческой библиотеки для создания / обработки документов Word, я бы сделал что-то вроде:

    1. Откройте документ Word с помощью Aspose.Words .
    2. Сохраните документ Word как HTML .
    3. Используйте что-то вроде SgmlReader или HTML Agility Pack (или даже регулярных выражений, если оно подходит) для удаления нежелательных HTML-тегов / атрибутов.

    Поскольку вы написали, что работаете в университете, я не уверен, что это коммерческие пакеты.

    Привет, я не уверен, что правила для продвижения ваших собственных решений, так что дайте мне знать, если я не в порядке.

    Я веб-разработчик, у которого были те же проблемы, поэтому я создал свой собственный инструмент: http://www.convertwordtohtml.com

    Мы также работаем над новой версией, которая будет иметь даже лучшее качество конверсии и одно нажатие на клик, например, вы можете щелкнуть правой кнопкой мыши на текстовом файле, и он будет напрямую преобразован в html и код, помещенный в буфер обмена. Текущая версия также поддерживает доступ к командной строке, а новая версия будет иметь версию сервера.

    Существует бесплатная пробная версия, загружаемая с сайта, и если у вас есть какие-либо вопросы, свяжитесь со мной в любое время.