冰蓝科技

028-81705109

微信扫一扫

Python 在 Word 中创建表格

表格是 Word 文档中的强大工具，可让使用者以结构化的方式组织和呈现信息。它由行和列组成，形成网格状结构。表通常用于各种目的，例如创建计划、比较数据或以整洁有序的格式显示数据。本文将介绍如何使用 Spire.Doc for Python 在 Python 中创建 Word 文档中的表格。

Python 在 Word 文档中创建表格
Python 通过 HTML 字符串创建表格
Python 合并或拆分表格中单元格
Python 用 Word 中数据填充表格

安装 Spire.Doc for Python

本教程需要使用 Spire.Doc for Python 和 plum-dispatch v1.7.4。您可以通过以下 pip 命令将它们轻松安装到 Windows 中。

pip install Spire.Doc

如果您不确定如何安装，请参考此教程：如何在 Windows 中安装 Spire.Doc for Python

Python 在 Word 文档中创建表格

Spire.Doc for Python 提供了 Section.AddTable() 方法，支持在 Word 文档中创建表格。下面是详细的步骤：

创建 Document 类的对象。
使用 Document.AddSection() 方法添加一个章节和使用。
创建一个 Table 对象。
使用 Table.AddRow() 方法向其添加一行。
通过 Row.Cells[index] 属性获取行的特定单元格。
使用 TableCell.AddParagraph().AppendText() 向单元格添加文本。
使用 Section.AddTable() 方法将表格添加到文档中。
使用 Document.SaveToFile() 方法保存结果文档。

Python

from spire.doc import *
from spire.doc.common import *
# 创建文档对象
doc = Document()

# 添加一个节
section = doc.AddSection()

# 创建一个表格对象
table = Table(doc, True)

# 设置表格宽度为100%
table.PreferredWidth = PreferredWidth(WidthType.Percentage, int(100))

# 设置表格边框样式为单线，颜色为黑色
table.TableFormat.Borders.BorderType = BorderStyle.Single
table.TableFormat.Borders.Color = Color.get_Black()

# 添加一行，包含3个单元格
row = table.AddRow(False, 3)

# 设置行高为20.0
row.Height = 20.0

# 获取第一个单元格
cell = row.Cells.get_Item(0)

# 设置单元格垂直居中对齐
cell.CellFormat.VerticalAlignment = VerticalAlignment.Middle

# 在单元格中添加段落
paragraph = cell.AddParagraph()

# 设置段落水平居中对齐
paragraph.Format.HorizontalAlignment = HorizontalAlignment.Center

# 向段落中添加文本
paragraph.AppendText("Row 1, Col 1")

# 获取第二个单元格
cell = row.Cells[1]

# 设置单元格垂直居中对齐
cell.CellFormat.VerticalAlignment = VerticalAlignment.Middle

# 在单元格中添加段落
paragraph = cell.AddParagraph()

# 设置段落水平居中对齐
paragraph.Format.HorizontalAlignment = HorizontalAlignment.Center
# 向段落中添加文本
paragraph.AppendText("Row 1, Col 2")

# 获取第三个单元格
cell = row.Cells[2]

# 设置单元格垂直居中对齐
cell.CellFormat.VerticalAlignment = VerticalAlignment.Middle

# 在单元格中添加段落
paragraph = cell.AddParagraph()

# 设置段落水平居中对齐
paragraph.Format.HorizontalAlignment = HorizontalAlignment.Center

# 向段落中添加文本
paragraph.AppendText("Row 1, Col 3")

# 添加另一行，包含3个单元格
row = table.AddRow(False, 3)

# 设置行高为20.0
row.Height = 20.0

# 获取第一个单元格
cell = row.Cells[0]

# 设置单元格垂直居中对齐
cell.CellFormat.VerticalAlignment = VerticalAlignment.Middle

# 在单元格中添加段落
paragraph = cell.AddParagraph()

# 设置段落水平居中对齐
paragraph.Format.HorizontalAlignment = HorizontalAlignment.Center

# 向段落中添加文本
paragraph.AppendText("Row 2, Col 1")

# 获取第二个单元格
cell = row.Cells[1]

# 设置单元格垂直居中对齐
cell.CellFormat.VerticalAlignment = VerticalAlignment.Middle

# 在单元格中添加段落
paragraph = cell.AddParagraph()

# 设置段落水平居中对齐
paragraph.Format.HorizontalAlignment = HorizontalAlignment.Center

# 向段落中添加文本
paragraph.AppendText("Row 2, Col 2")

# 获取第三个单元格
cell = row.Cells[2]

# 设置单元格垂直居中对齐
cell.CellFormat.VerticalAlignment = VerticalAlignment.Middle

# 在单元格中添加段落
paragraph = cell.AddParagraph()

# 设置段落水平居中对齐
paragraph.Format.HorizontalAlignment = HorizontalAlignment.Center

# 向段落中添加文本
paragraph.AppendText("Row 2, Col 3")

# 将表格添加到节中
section.Tables.Add(table)

# 保存文档到指定路径
doc.SaveToFile("output/CreateTable.docx", FileFormat.Docx2013)

# 关闭文档对象
doc.Close()

Python 在 Word 中创建表格

Python 通过 HTML 字符串创建表格

Spire.Doc for Python 提供了 Paragraph.AppendHTML() 方法，支持在 Word 文档中通过 HTML 字符串创建表格。以下是详细步骤：

创建 Document 类的对象。
使用 Document.AddSection() 方法向其添加一个部分。
指定用于生成表的 HTML 字符串。
使用 Section.AddParagraph() 方法添加段落。
使用 Paragraph.AppendHTML() 方法将 HTML 表格添加到段落中。
使用 Document.SaveToFile() 方法将文档保存到 .docx 文件。

Python

# 导入 Spire.Doc 库
from spire.doc import *

# 导入 Spire.Doc.Common 库
from spire.doc.common import *

# 创建一个新的文档对象
document = Document()

# 在文档中添加一个节
section = document.AddSection()

# 定义一个 HTML 表格字符串
HTML = "" + "" + "" + "" + \n    "" + "" + "" + \n    "" + "" + "Row 1, Cell 1 Row 1, Cell 2
Row 2, Cell 2 Row 2, Cell 2"

# 在节中添加一个段落
paragraph = section.AddParagraph()

# 将 HTML 表格添加到段落中
paragraph.AppendHTML(HTML)

# 将文档保存为 output/HtmlTable.docx 文件，格式为 Docx2013
document.SaveToFile("output/HtmlTable.docx", FileFormat.Docx2013)

# 关闭文档对象
document.Close()

Python 在 Word 中创建表格

Python 合并或拆分表格中单元格

使用表格时，合并或拆分单元格的功能提供了一种强大的方法来自定义和格式化数据。此示例说明如何将相邻单元格合并为单个单元格，以及如何使用 Spire.Doc for Python 将单个单元格拆分为多个较小的单元格。下面是详细的步骤：

创建 Document 类的对象。
使用 Document.AddSection() 方法向其添加一个部分。
使用 Section.AddTable() 方法添加一个表。
使用 Table.ResetCells() 方法设置表的列号和行号。
使用 Table.ApplyHorizontalMerge() 方法水平合并单元格。
使用 Table.ApplyVerticalMerge() 方法垂直合并单元格。
使用 TableCell.SplitCell() 方法将一个单元格拆分为多个较小的单元格。
使用 Document.SaveToFile() 方法将文档保存到 .docx 文件。

Python

# 导入 Spire.Doc 库
from spire.doc import *

# 导入 Spire.Doc.Common 库
from spire.doc.common import *

# 创建一个新的文档对象
document = Document()

# 在文档中添加一个节
section = document.AddSection()

# 在节中添加一个表格
table = section.AddTable(True)

# 重置表格的单元格数量为 4x4
table.ResetCells(4, 4)

# 设置表格的首选宽度为 100%
table.PreferredWidth = PreferredWidth(WidthType.Percentage, int(100))

# 遍历表格的所有行，设置每行的行高为 20.0
for i in range(0, table.Rows.Count):
table.Rows[i].Height = 20.0

# 合并表格的第 1 行第 1 列到第 3 列的单元格
table.ApplyHorizontalMerge(0, 0, 3)

# 合并表格的第 1 行第 1 列到第 3 列的单元格
table.ApplyVerticalMerge(0, 2, 3)

# 获取表格第 2 行第 4 列的单元格
cell = table.Rows[1].Cells[3]

# 将第 2 行第 4 列的单元格拆分为两个单元格
cell.SplitCell(3, 0)

# 设置表格第 1 行第 1 列、第 3 行第 1 列和第 2 行第 1 列的单元格的背景颜色为浅蓝色
table.Rows[0].Cells[0].CellFormat.BackColor = Color.get_LightBlue()
table.Rows[2].Cells[0].CellFormat.BackColor = Color.get_LightBlue()

# 设置表格第 1 行第 4 列、第 1 行第 5 列和第 1 行第 6 列的单元格的背景颜色为浅灰色
table.Rows[1].Cells[3].CellFormat.BackColor = Color.get_LightGray()
table.Rows[1].Cells[4].CellFormat.BackColor = Color.get_LightGray()
table.Rows[1].Cells[5].CellFormat.BackColor = Color.get_LightGray()

# 将文档保存为 output/MergeAndSplit.docx 文件，格式为 Docx2013
document.SaveToFile("output/MergeAndSplit.docx", FileFormat.Docx2013)

# 关闭文档对象
document.Close()

Python 在 Word 中创建表格

Python 用 Word 中数据填充表格

本示例创建一个 5x7 的表，将列表中的数据写入单元格，并对标题行和其他行应用不同的格式。以下是主要步骤：

创建 Document 类的对象。
使用 Document.AddSection() 方法向其添加一个部分。
使用 Section.AddTable() 方法添加一个表。
指定用于在两个列表中填充表的数据。
使用 Table.ResetCells() 方法根据数据的高度和宽度重置表的行号和列号。
使用 TableCell.AddParagraph().AppendText() 将数据写入相应的单元格。
通过 TableCell.CellFormat.BackColor 属性将不同的颜色应用于不同的行。
使用 Document.SaveToFile() 方法将文档保存到 .docx 文件。

Python

import math
from spire.doc import *
from spire.doc.common import *

# 创建文档对象
doc = Document()
# 添加一个节
section = doc.AddSection()

# 在节中添加一个表格
table = section.AddTable(True)

# 定义表头数据
header_data = ["日期", "产品名称", "生产国家", "出口国家", "保质期"]

# 定义表格行数据
row_data = [
    ["08/07/2021", "海南椰汁", "中国", "韩国", "1个月"],
    ["08/07/2021", "咸鸭蛋", "中国", "日本", "3个月"],
    ["08/07/2021", "奶粉", "俄罗斯", "美国", "12个月"],
    ["08/08/2021", "面包", "丹麦", "中国", "3个月"],
    ["08/09/2021", "巧克力", "俄罗斯", "美国", "6个月"],
    ["08/10/2021", "金枪鱼", "日本", "美国", "15天"]
]
# 重置表格单元格数量
table.ResetCells(len(row_data) + 1, len(header_data))

# 设置表格的首选宽度为100%
table.PreferredWidth = PreferredWidth(WidthType.Percentage, int(100))

# 获取表头行
headerRow = table.Rows[0]

# 设置表头行为标题行，并设置高度、背景颜色等属性
headerRow.IsHeader = True
headerRow.Height = 23
headerRow.RowFormat.BackColor = Color.get_LightGray()

# 遍历表头数据，设置每个单元格的垂直对齐方式、段落格式等属性
i = 0
while i < len(header_data):
    headerRow.Cells[i].CellFormat.VerticalAlignment = VerticalAlignment.Middle
    paragraph = headerRow.Cells[i].AddParagraph()
    paragraph.Format.HorizontalAlignment = HorizontalAlignment.Center
    txtRange = paragraph.AppendText(header_data[i])
    txtRange.CharacterFormat.Bold = True
    txtRange.CharacterFormat.FontSize = 12
i += 1

# 遍历表格行数据，设置每个单元格的垂直对齐方式、段落格式等属性
r = 0
while r < len(row_data):
    dataRow = table.Rows[r + 1]
    dataRow.Height = 20
    dataRow.HeightType = TableRowHeightType.Exactly
    c = 0
    while c < len(row_data[r]):
        dataRow.Cells[c].CellFormat.VerticalAlignment = VerticalAlignment.Middle
        paragraph = dataRow.Cells[c].AddParagraph()
        paragraph.Format.HorizontalAlignment = HorizontalAlignment.Center
        txtRange = paragraph.AppendText(row_data[r][c])
        txtRange.CharacterFormat.FontSize = 11
        c += 1
r += 1

# 遍历表格行，设置偶数行的背景颜色
for j in range(1, table.Rows.Count):
    if math.fmod(j, 2) == 0:
        row2 = table.Rows[j]
        for f in range(row2.Cells.Count):
            row2.Cells[f].CellFormat.BackColor = Color.get_LightBlue()

# 设置表格边框样式、线宽和颜色
table.TableFormat.Borders.BorderType = BorderStyle.Single
table.TableFormat.Borders.LineWidth = 1.0
table.TableFormat.Borders.Color = Color.get_Black()

# 保存文档到指定路径
doc.SaveToFile("output/Table.docx", FileFormat.Docx2013)

Python 在 Word 中创建表格

申请临时 License

如果您希望删除结果文档中的评估消息，或者摆脱功能限制，请该Email地址已收到反垃圾邮件插件保护。要显示它您需要在浏览器中启用JavaScript。获取有效期 30 天的临时许可证。

Python 将 PDF 转换为 Word DOC 或 DOCX

PDF 文件格式能够保留原始文档的格式和布局，非常适合共享和打印。然而，通常情况下，PDF文件是不可编辑的，除非使用专门的软件或工具。通过将 PDF 文档转换为 Word 格式，你可以轻松利用 Word 的功能对文档进行进一步的编辑，例如修改、添加或删除文本，插入图片，添加批注和调整格式等。这篇文章将介绍如何使用 Spire.PDF for Python 在 Python 中将 PDF 文档转换为 Word DOC 或 DOCX 格式。

Python 将 PDF 转换为 Word DOC 或 DOCX
Python 将 PDF 转换为 Word 时设置文档属性

安装 Spire.PDF for Python

本教程需要用到 Spire.PDF for Python 和 plum-dispatch v1.7.4。可以通过以下 pip 命令将它们轻松安装到 Windows 中。

pip install Spire.PDF

如果您不清楚如何安装，请参考此教程：如何在 Windows 中安装 Spire.PDF for Python

Python 将 PDF 转换为 Word DOC 或 DOCX

Spire.PDF for Python 提供的 PdfDocument.SaveToFile(filename:str, fileFormat:FileFormat) 方法，可将 PDF 文档转换为 Word DOC 和 DOCX 格式。详细步骤如下：

创建 PdfDocument 类的对象。
使用 PdfDocument.LoadFromFile() 方法加载 PDF 文档。
使用 PdfDocument.SaveToFile(filename:str, fileFormat:FileFormat) 方法将 PDF 文档转换为 Word DOCX 或 DOC 文件。

Python

from spire.pdf.common import *
from spire.pdf import *

# 创建PdfDocument类的对象
doc = PdfDocument()
# 加载PDF文档
doc.LoadFromFile("示例.pdf")

# 将该PDF文档转换为Word DOCX格式
doc.SaveToFile("Pdf转Docx.docx", FileFormat.DOCX)
# 或将该PDF文档转换为Word DOC格式
doc.SaveToFile("Pdf转Doc.doc", FileFormat.DOC)
# 关闭PdfDocument对象
doc.Close()

Python 将 PDF 转换为 Word DOC 或 DOCX

Python 将 PDF 转换为 Word 时设置文档属性

文档属性是与文档相关的属性或信息，用于提供文件的详细信息，例如文档的作者、标题、主题、版本、关键词、类别等等。通过这些属性，用户可以更全面地了解文档的内容和特征。

Spire.PDF for Python 提供的 PdfToDocConverter 类，允许开发人员将 PDF 文档转换为 Word DOCX 文件并为文件设置文档属性。具体步骤如下。

创建 PdfToDocConverter 类的对象并将输入 PDF 文档的路径作为参数传入该类的构造函数中。
使用 PdfToDocConverter 类的属性设置转换后的 Word DOCX 文件的文档属性，例如标题、主题、作者和关键词等。
使用 PdfToDocConverter.SaveToDocx()方法将 PDF 文档转换为 Word DOCX 文件。

Python

from spire.pdf.common import *
from spire.pdf import *

#创建PdfToDocConverter类的对象
converter = PdfToDocConverter("示例.pdf")

# 为转换后的DOCX文件设置文档属性，如标题、主题、作者和关键词等
converter.DocxOptions.Title = "Spire.PDF for Python"
converter.DocxOptions.Subject = "该文档提供了Spire.PDF for Python产品的概述。"
converter.DocxOptions.Tags = "PDF, Python"
converter.DocxOptions.Categories = " PDF处理库"
converter.DocxOptions.Commments = " Spire.PDF是一个多平台的通用库，支持.NET、Java、Python和C++等多种平台。"
converter.DocxOptions.Authors = "肖恩"
converter.DocxOptions.LastSavedBy = "亚楠"
converter.DocxOptions.Revision = 8
converter.DocxOptions.Version = "4.0"
converter.DocxOptions.ProgramName = "Spire.PDF for Python"
converter.DocxOptions.Company = "E-iceblue"
converter.DocxOptions.Manager = "E-iceblue"

# 将PDF文档转换为Word DOCX文件
converter.SaveToDocx("转Word并设置文档属性.docx")

Python 将 PDF 转换为 Word DOC 或 DOCX

申请临时 License

Python 合并 Word 文档

处理大量的 Word 文档可能是非常具有挑战性的。不论是编辑还是审核大量的文档，都需要花费很多时间打开和关闭文件。此外，分享和接收大量分散的 Word 文档也是很麻烦的事情，因为这可能需要分享者和接收者进行大量重复的发送和接收操作。为了提高工作效率并节省时间，我们可以将相关的多个 Word 文档合并成一个单一的文件，从而可以减少打开和关闭文档的时间浪费，同时也避免了分享和接收大量分散的文档所带来的繁琐操作。本文将介绍如何使用 Spire.Doc for Python 通过 Python 程序轻松合并 Word 文档。

用 Python 通过插入文件合并 Word 文档
用 Python 通过复制内容合并 Word 文档

安装 Spire.Doc for Python

本教程需要用到 Spire.Doc for Python 和 plum-dispatch v1.7.4。可以通过以下 pip 命令将它们轻松安装到 Windows 中。

pip install Spire.Doc

如果您不确定如何安装，请参考：如何在 Windows 中安装 Spire.Doc for Python

用 Python 通过插入文件合并 Word 文档

Spire.Doc for Python 提供的 Document.insertTextFromFile() 方法可以用于将其他 Word 文档插入到当前文档中，插入的内容将从新页面开始。通过插入合并 Word 文档的详细步骤如下：

创建一个 Document 类的对象，并使用 Document.LoadFromFile() 方法加载一个 Word 文档。
使用 Document.InsertTextFromFile() 方法将另一个文档中的内容插入到载入的文档中。
使用 Document.SaveToFile() 方法保存文档。

Python

from spire.doc import *
from spire.doc.common import *

# 创建一个 Document 类的对象并加载一个 Word 文档
doc = Document()
doc.LoadFromFile("示例1.docx")

# 将另一个 Word 文档的内容插入到当前文档中
doc.InsertTextFromFile("示例2.docx", FileFormat.Auto)

# 保存文档
doc.SaveToFile("output/插入文件合并Word文档.docx")
doc.Close()

Python 合并 Word 文档

用 Python 通过复制内容合并 Word 文档

合并 Word 文档还可以通过将内容从一个 Word 文档复制到另一个 Word 文档来实现。这种方法可以保持原始文档的格式，且从另一个文档复制的内容会在当前文档的末尾开始，而无需重新开始新的页面。具体步骤如下：

创建两个 Document 类的对象，并使用 Document.LoadFromFile() 方法加载两个 Word 文档。
使用 Document.Sections.get_Item() 方法获取目标文档的最后一个节。
遍历要复制的文档中的节，然后遍历节的子对象。
使用 Section.Body.ChildObjects.get_Item() 方法获取节的子对象。
使用 Section.Body.ChildObjects.Add() 方法将子对象添加到目标文档的最后一个节中。
使用 Document.SaveToFile() 方法保存结果文档。

Python

from spire.doc import *
from spire.doc.common import *

# 创建两个 Document 类的对象并加载两个 Word 文档
doc1 = Document()
doc1.LoadFromFile("示例1.docx")
doc2 = Document()
doc2.LoadFromFile("示例2.docx")

# 获取第一个文档的最后一个节
lastSection = doc1.Sections.get_Item(doc1.Sections.Count - 1)

# 遍历第二个文档中的各个节
for i in range(doc2.Sections.Count):
    section = doc2.Sections.get_Item(i)
    # 遍历各个节中的子对象
    for j in range(section.Body.ChildObjects.Count):
        obj = section.Body.ChildObjects.get_Item(j)
        # 将第二个文档中的子对象复制并添加到第一个文档的最后一个节中
        lastSection.Body.ChildObjects.Add(obj.Clone())

# 保存合并后的文档
doc1.SaveToFile("output/复制内容合并Word文档.docx")
doc1.Close()
doc2.Close()

Python 合并 Word 文档

申请临时 License

Python 提取 Word 文档中的文本和图片

通过从 Word 文档中提取文本，用户可以轻松获取文档中包含的文字信息，对文本进行处理、分析和组织等操作，从而完成文本挖掘、情感分析和自然语言处理等任务。另一方面，提取图像可以获取 Word 文档中嵌入的视觉元素，并用于完成图像识别、内容提取或创建图像数据库等任务。本文将介绍如何使用 Spire.Doc for Python 通过 Python 程序提取 Word 文档中的文本和图像。

用 Python 提取 Word 文档指定段落中的文本
用 Python 提取 Word 文档中的所有文本
用 Python 提取 Word 文档中的所有图像

安装 Spire.Doc for Python

本教程需要用到 Spire.Doc for Python 和 plum-dispatch v1.7.4。可以通过以下 pip 命令将它们轻松安装到 Windows 中。

pip install Spire.Doc

如果您不确定如何安装，请参考：如何在 Windows 中安装 Spire.Doc for Python

用 Python 提取 Word 文档指定段落中的文本

可以使用 Section.Paragraphs[index] 属性从特定节中获取特定段落，接着通过 Paragraph.Text 属性提取该段落的文本内容。具体操作步骤如下：

创建 Document 类的对象。
使用 Document.LoadFromFile() 方法加载 Word 文件。
通过 Document.Sections[index] 属性获取指定节。
通过 Section.Paragraphs[index] 属性获取指定段落。
通过 Paragraph.Text 属性从该段落中提取文本。

Python

from spire.doc import *
from spire.doc.common import *

# 创建一个Document对象
doc = Document()

# 加载一个Word文档
doc.LoadFromFile("示例.docx")

# 获取指定的节（section）
section = doc.Sections.get_Item(0)

# 获取指定的段落（paragraph）
paragraph = section.Paragraphs.get_Item(0)

# 从段落获取文本
text = paragraph.Text

# 保存提取的段落为TXT文件
with open("output/提取段落.txt", "w", encoding="utf-8") as file:
    file.write(text)

Python 提取 Word 文档中的文本和图片

用 Python 提取 Word 文档中的所有文本

如果需要获取 Word 文档中的所有文本，可以使用 Document.GetText() 方法直接提取。具体操作步骤如下：

创建 Document 类的对象。
使用 Document.LoadFromFile() 方法加载 Word 文件。
使用 Document.GetText() 方法提取文档中的所有文本。

Python

from spire.doc import *
from spire.doc.common import *

# 创建一个Document对象
doc = Document()

# 加载一个Word文档
doc.LoadFromFile("示例.docx")

# 获取文档所有文本
text = doc.GetText()

# 保存获取的文本为TXT文件
with open("output/提取文本.txt", "w", encoding="utf-8") as file:
    file.write(text)

Python 提取 Word 文档中的文本和图片

用 Python 提取 Word 文档中的所有图像

Spire.Doc for Python 还支持提取 Word 文档中的所有图像，只需要遍历文档中的子对象，并保存其中为 DocPicture 类的实例的子对象即可。详细操作步骤如下：

创建 Document 类的对象。
使用 Document.LoadFromFile() 方法加载 Word 文件。
循环遍历文档中的子对象。
判断特定子对象是否为 DocPicture 类的实例。如果是，则通过 DocPicture.ImageBytes 属性获取图像数据。
将图像数据写入 PNG 文件。

Python

import queue
from spire.doc import *
from spire.doc.common import *

# 创建一个Document对象
doc = Document()

# 加载一个Word文件
doc.LoadFromFile("示例.docx")

# 创建一个队列对象
nodes = queue.Queue()
nodes.put(doc)

# 创建一个列表
images = []

while nodes.qsize() > 0:
    node = nodes.get()

    # 遍历文档中的子对象
    for i in range(node.ChildObjects.Count):
        child = node.ChildObjects.get_Item(i)

        # 判断子对象是否为图片
        if child.DocumentObjectType == DocumentObjectType.Picture:
            picture = child if isinstance(child, DocPicture) else None
            dataBytes = picture.ImageBytes

            # 将图片数据添加到列表中
            images.append(dataBytes)
         
        elif isinstance(child, ICompositeObject):
            nodes.put(child if isinstance(child, ICompositeObject) else None)

# 遍历列表中的图片
for i, item in enumerate(images):
    fileName = "图片-{}.png".format(i)
    with open("output/Images/"+fileName,'wb') as imageFile:

        # 将图片写入指定路径
        imageFile.write(item)
doc.Close()

Python 提取 Word 文档中的文本和图片

申请临时 License

Spire.OCR for Java 现已推出，欢迎试用！

2023-12-21

经过我司员工不懈努力，Spire.OCR for Java 产品已完成开发并于2023年12月正式上线。这是一款 OCR （光学文字识别）产品，提供高效的图片文字识别与提取功能。目前产品已开放下载，欢迎大家下载试用！

Spire.OCR for Java

Spire.OCR for Java 是一款专业的用于文字识别的 Java OCR 组件，用以读取 JPG、PNG、GIF、BMP 和 TIFF 等图片格式中的文本。利用该组件，开发人员可以在 Java 应用程序中实现 OCR 功能。

Spire.OCR for Java 功能非常强大，支持识别各种常用印刷字体，如宋体、仿宋、黑体、微软雅黑、Arial, Times New Roman, Courier New, Verdana, Tahoma 、Calibri 等；支持识别粗体、斜体、简体、繁体等字体样式；支持扫描全图，并且能识别多种语言文字，如英语，中文，法语，德语，日语及韩语等。

获取 Spire.OCR for Java 请点击：

https://www.e-iceblue.cn/Downloads/Spire-OCR-JAVA.html

如何使用 Spire.OCR for Java：

如何在 Java 项目中扫描识别图片中的文字

联系我们

邮箱：该Email地址已收到反垃圾邮件插件保护。要显示它您需要在浏览器中启用JavaScript。、该Email地址已收到反垃圾邮件插件保护。要显示它您需要在浏览器中启用JavaScript。
QQ：2777145891（销售），2790765778 、2181348176（技术支持）
电话：028-81705109

Spire.PDFViewer 7.12.3 支持在 WinForm 项目中用 Ctrl+ 滚轮来实现界面缩放的效果

2023-12-21

Spire.PDFViewer 7.12.3 已发布。该版本支持在WinForm 项目中通过使用Ctrl+滚轮来实现界面缩放的效果。同时，该版本还修复了文本内容无法显示的问题。详情请阅读以下内容。

新功能:

支持在WinForm 项目中用Ctrl+滚轮来实现界面缩放的效果。

this.KeyPreview = true;
this.KeyDown += new System.Windows.Forms.KeyEventHandler(this.Form1_KeyDown);
this.KeyUp += new System.Windows.Forms.KeyEventHandler(Form1_KeyUp);
this.MouseWheel += new System.Windows.Forms.MouseEventHandler(Form1_MouseWheel);

private bool m_PressCtrl = false;
private float m_ZoomFactor = 1.0f;
private void Form1_KeyDown(object sender, KeyEventArgs e)
{
	m_PressCtrl = e.Control;
}       
private void Form1_KeyUp(object sender, KeyEventArgs e)
{
	m_PressCtrl = false;
}        
private float[] array = new float[] { 0.5f, 0.75f, 1f, 1.25f, 1.5f, 2f, 4f };
private int index = 2;     
private void Form1_MouseWheel(object sender, MouseEventArgs e)
{
	if (m_PressCtrl)
	{
		if (e.Delta > 0)
		{
			index = index < 6 ? index + 1 : 6;
		}
		if (e.Delta < 0)
		{
			index = index == 0 ? 0 : index - 1;
		}
		this.pdfViewer1.SetZoomFactor(array[index]);
	}
}

问题修复:

修复了文本内容无法显示的问题。

获取Spire.PDFViewer 7.12.3请点击：

https://www.e-iceblue.cn/Downloads/Spire-PDFViewer-NET.html

Python 将 RTF 转为 PDF、HTML

RTF（Rich Text Format）即富文本格式是一种跨平台文档格式，可被各种文字处理软件打开和查看。RTF 格式支持丰富的文本格式化选项，如字体样式、大小、颜色、表格、图片等。在处理 RTF 文件时，有时可能需要将其转换为 PDF 文件，以便更好地共享和打印，或转换为 HTML 格式以便在网上发布。在本文中，您将学习如何使用 Spire.Doc for Python 在 Python 中将 RTF 转换为 PDF 或 HTML。

Python 将 RTF 文件转换为 PDF
Python 将 RTF 文件转换为 HTML

安装 Spire.Doc for Python

本教程需要用到 Spire.Doc for Python 和 plum-dispatch v1.7.4。可以通过以下 pip 命令将它们轻松安装到 Windows 中。

pip install Spire.Doc

如果您不确定如何安装，请参考教程：如何在 Windows 中安装 Spire.Doc for Python

Python 将 RTF 文件转为 PDF

要将 RTF 文件转换为 PDF，只需加载扩展名为 .rtf 的文件，然后使用 Document.SaveToFile(fileName, FileFormat.PDF) 方法将其保存为 PDF 文件。具体步骤如下：

创建 Document 类的对象。
使用 Document.LoadFromFile() 方法加载 RTF 文件。
使用 Document.SaveToFile(fileName, FileFormat.PDF) 方法将 RTF 文件保存为 PDF 文件。

Python

from spire.doc import *
from spire.doc.common import *

inputFile = "示例.rtf"
outputFile = "Rtf转PDF.pdf"

# 创建Document对象
doc = Document()

# 加载一个RTF文件
doc.LoadFromFile(https://cdn.e-iceblue.cn/inputFile)

# 将RTF文件保存为PDF文件
doc.SaveToFile(outputFile, FileFormat.PDF)
doc.Close()

Python 将 RTF 转为 PDF、HTML

Python 将 RTF 文件转换为 HTML

Spire.Doc for Python 还允许您使用 Document.SaveToFile(fileName, FileFormat.Html) 方法将加载的 RTF 文件转换为 HTML 格式。具体步骤如下：

创建 Document 类的对象。
使用 Document.LoadFromFile() 方法加载 RTF 文件。
使用 Document.SaveToFile(fileName, FileFormat.Html) 方法将 RTF 文件保存为 HTML 格式。

Python

from spire.doc import *
from spire.doc.common import *

inputFile = "示例.rtf"
outputFile = "Rtf转HTML.html"
               
# 创建Document对象
doc = Document()

# 加载一个RTF文件
doc.LoadFromFile(inputFile)

# 将RTF文件另存为HTML格式
doc.SaveToFile(outputFile, FileFormat.Html)
doc.Close()

Python 将 RTF 转为 PDF、HTML

申请临时 License

Spire.XLS for Java 13.12.12 支持获取用 WPS 工具添加的内嵌图片

2023-12-20

Spire.XLS for Java 13.12.12 已发布。本次更新新增支持获取用 WPS 工具添加的内嵌图片，同时增强了 XLSM 到 PDF 的转换功能。此外，一些已知问题也在该版本中得到修复，如获取出的文本的字号不正确的问题。详情请阅读以下内容。

新功能:

新增worksheet.getCellImages()方法来获取用WPS工具添加的内嵌图片。

Workbook workbook = new Workbook();
workbook.loadFromFile("sample.xlsx");
Worksheet sheet = workbook.getWorksheets().get(0);
ExcelPicture[] picture = sheet.getCellImages();
for (int i = 0; i < picture.length; i++) {
 ExcelPicture ep = picture[i];
 BufferedImage image = ep.getPicture();
 ImageIO.write(image,"PNG", new File(outputFile + String.format("pic_%d.png",i)));
}

问题修复:

修复了获取用WPS工具添加的内嵌图片时程序抛出异常“Index is less than 0 or more than or equal to the list count.“的问题。
修复了加载Excel文档时程序悬挂起的问题。
修复了获取出的文本的字号不正确的问题。
修复了获取出的保存后的Excel文档中的图表里的坐标轴数据不正确的问题。
修复了转换XLSM文档到PDF时程序抛出java.lang.StringIndexOutOfBoundsException异常的问题。

获取Spire.XLS for Java 13.12.12请点击：

https://www.e-iceblue.cn/Downloads/Spire-XLS-JAVA.html

如何在 Java 项目中扫描识别图片中的文字

使用 OCR 技术扫描识别是获取图片上文字的主要方式。Spire.OCR for Java 能够帮助开发者在 Java 项目中快速批量识别并提取图片上的文字，实现高效的文字提取功能。本文将介绍如何使用 Spire.OCR for Java 在 Java 项目中识别并提取图片上的文本。

获取 Spire.OCR for Java

使用 Spire.OCR for Java 扫描识别图片上的文字需要先在 Java 项目中引入 Spire.OCR.jar 以及相关的其他依赖文件。

Spire.OCR.jar 文件可从 Spire.OCR for Java 下载页获取。如果您使用 Maven，可以将以下代码添加到项目的 pom.xml 文件中，从而在应用程序中导入 JAR 文件。

<repositories>
    <repository>
        <id>com.e-iceblue</id>
        <name>e-iceblue</name>
        <url>https://repo.e-iceblue.cn/repository/maven-public/</url>
    </repository>
</repositories>
<dependencies>
    <dependency>
        <groupId>e-iceblue</groupId>
        <artifactId>spire.ocr</artifactId>
        <version>2.1.1</version>
    </dependency>
</dependencies>

其他依赖文件请根据您所使用的操作系统选择下载：

Linux（须使用 CentOS 8、Ubuntu 18 及以上版本）

Windows x64

安装依赖项

步骤 1、在 IntelliJ IDEA 中创建 Java 项目。

如何在 Java 项目中扫描识别图片中的文字

步骤 2、在菜单中的：文件 > 项目结构 > 模块 > 依赖中，添加 Spire.OCR.jar 作为项目依赖。

如何在 Java 项目中扫描识别图片中的文字

步骤 3、下载并解压其他依赖文件，将解压出的 dependencies 文件夹中的所有文件复制到项目目录中。

如何在 Java 项目中扫描识别图片中的文字

扫描识别本地图像中的文字

Java

import com.spire.ocr.OcrScanner;
import java.io.*;

public class ScanLocalImage {
    public static void main(String[] args) throws Exception {
        // 指定依赖文件的路径
        String dependencies = "dependencies/";
        // 指定要扫描的图像文件的路径
        String imageFile = "data/Sample.png";
        // 指定输出文件的路径
        String outputFile = "ScanLocalImage_out.txt";
        // 创建一个 OcrScanner 对象
        OcrScanner scanner = new OcrScanner();
        // 设置 OcrScanner 对象的依赖文件路径
        scanner.setDependencies(dependencies);
        // 使用 OcrScanner 对象扫描指定的图像文件
        scanner.scan(imageFile);
        // 获取扫描的文本内容
        String scannedText = scanner.getText().toString();
        // 创建一个输出文件对象
        File output = new File(outputFile);
        // 如果输出文件已经存在，则删除它
        if (output.exists()) {
            output.delete();
        }

        // 创建一个 BufferedWriter 对象用于向输出文件写入内容
        BufferedWriter writer = new BufferedWriter(new FileWriter(outputFile));
        // 将扫描的文本内容写入输出文件中
        writer.write(scannedText);
        // 关闭 BufferedWriter 对象以释放资源
        writer.close();
    }
}

指定语言文件扫描识别图像中的文字

Java

import com.spire.ocr.OcrScanner;
import java.io.*;

public class ScanImageWithLanguageSelection {
    public static void main(String[] args) throws Exception {
        // 指定依赖文件的路径
        String dependencies = "dependencies/";
        // 指定语言文件的路径
        String languageFile = "data/japandata";
        // 指定要扫描的图像文件的路径
        String imageFile = "data/JapaneseSample.png";
        // 指定输出文件的路径
        String outputFile = "ScanImageWithLanguageSelection_out.txt";
        // 创建一个 OcrScanner 对象
        OcrScanner scanner = new OcrScanner();
        // 设置 OcrScanner 对象的依赖文件路径
        scanner.setDependencies(dependencies);
        // 加载指定的语言文件
        scanner.loadLanguageFile(languageFile);
        // 使用 OcrScanner 对象扫描指定的图像文件
        scanner.scan(imageFile);
        // 获取扫描的文本内容
        String scannedText = scanner.getText().toString();

        // 创建一个输出文件对象
        File output = new File(outputFile);
        // 如果输出文件已经存在，则删除它
        if (output.exists()) {
            output.delete();
        }

        // 创建一个 BufferedWriter 对象用于向输出文件写入内容
        BufferedWriter writer = new BufferedWriter(new FileWriter(outputFile));
        // 将扫描的文本内容写入输出文件中
        writer.write(scannedText);
        // 关闭 BufferedWriter 对象以释放资源
        writer.close();
    }
}

申请临时 License

Spire.Doc 11.12.4 新增转换 Word 到 PostScript 的文本整形功能

2023-12-18

Spire.Doc 11.12.4已发布。该版本新增转换Word到PostScript的文本整形功能（.NET 4.6以上支持）。详情请阅读以下内容。

新功能:

新增转换Word到PostScript的文本整形功能（.NET 4.6以上支持）。

Document document = new Document();
document.LoadFromFile("https://cdn.e-iceblue.cn/input.docx");
document.LayoutOptions.UseHarfBuzzTextShaper = true; //true启用，false不启用
document.SaveToFile("output.ps", FileFormat.PostScript);

获取Spire.Doc 11.12.4请点击：

https://www.e-iceblue.cn/Downloads/Spire-Doc-NET.html