Python读取Excel表格数据并以字典dict格式存储

Python014

Python读取Excel表格数据并以字典dict格式存储,第1张

  有时我们需要将一个 Excel表格文件 中的全部或一部分数据 导入到Python中 ,并将其通过 字典格式 来存储;那么如何实现上述操作呢?

  我们以如下所示的一个表格( .xlsx 格式)作为简单的示例。其中,表格共有两列,第一列为 学号 ,第二列为 姓名 ,且每一行的 学号 都不重复;同时表格的第一行为表头。

  假设我们需要将第一列的 学号 数据作为字典的 键 ,而第二列 姓名 数据作为字典的 值 。

  首先,导入必要的库。

  随后,列出需要转换为字典格式数据的Excel文件的路径与名称,以及数据开头所在行、数据的总行数。在这里,由于第一行是表头,因此开头所在行 look_up_table_row_start 就是 2 ;同时这个表格共有32位同学的信息,因此总行数 look_up_table_row_number 就是 32 。

  接下来,我们就可以直接依次读取Excel表格文件中的数据,并将其导入到字典格式的变量 name_number_dict 中。

  至此,大功告成啦~我们来看一看 name_number_dict 此时的状态:

  其中, Key 就是原本Excel中的 学号 , Value (就是右侧的马赛克区域)就是原本Excel中的 姓名 ;还可以从上图的标题中看到,这个字典共有32个 elements ,也就是对应着原本Excel中32位同学的信息。

pdfplumber 是一个开源 python 工具库-,可以方便地获取 pdf 的各种信息,包括文本、表格、图表、尺寸等。完成我们本文的需求,主要使用 pdfplumber 提取 pdf 表格数据。

python 中还有很多库可以处理 pdf,比如 PyPDF2、pdfminer 等,本文选择pdfplumber 的原因在于能轻松访问有关 PDF 的所有详细信息,包括作者、来源、日期等,并且用于提取文本和表格的方法灵活可定制。大家可以根据手头数据需求,再去解锁 pdfplumber 的更多用法。