Python 数据科学问题

在本节中,我们将讨论什么是 Python、它的历史、起源、当前版本、薪资和 2022 年的工作角色,然后我们将讨论重要的 Python 编程问题。

近年来,Python 已成为世界上最流行的编程语言之一。它在全世界的众多设备上使用。由于可用的库范围广泛,因此开发人员和非开发人员都可以使用它。

Python 是一种计算机编程语言,通常用于构建网站和软件、自动化任务和行为记录分析。它是一种通用语言,这意味着它可以用来创建各种不同的程序,并且不专门针对任何特定问题。这种多功能性以及对初学者的友好性使其成为当今最常用的编程语言之一。在世界各地不同组织提供的多项调查中,Python 成为 2022 年最受欢迎的语言。

Python 是由Guido van Rossum于 20 世纪 80 年代末在荷兰国家数学与计算研究所开发的。它继承了ABC编程语言,与Amoeba操作系统交互并具有出色的处理能力。

Python 3.10.7是 Python 编程语言的最新版本,包含许多新功能和优化。

2022 年薪资最高的 Python 职位

  • 人工智能 (AI) 专家 | $135,238
  • 解决方案架构师| $120,756
  • 机器学习工程师| $112,343
  • 分析经理| 99,121 美元
  • 数据科学家 | $97,004
  • 数据工程师| $92,999 美元
  • 软件工程师| $88,280
  • 后端开发人员 | $87,009
  • 计算机科学家 | $81,812
  • 前端开发人员 | $76,289

Python 数据科学理论问题

1. 我们使用哪个库来进行数据操作?

Pandas 是Python 的一个库。pandas 是一个非常流行的库,与 NumPy 和matplotlib一样,它是数据科学中广泛使用的库它拥有一个拥有 1,000 多名贡献者的活跃社区,并大量用于数据分析和清理。

2. 用 Python 编写数据科学领域排名前 5 的库。

在数据科学项目中广泛使用的前 5 个 Python 库是:

  • TensorFlow
  • 熊猫
  • 数值模拟
  • Matplotlib
  • 科学Py

3.级数和向量有什么区别?

  • 向量仅将索引位置值指定为 0,1,…, (n-1)。
  • 系列只有一栏。它为每个数据系列分配自定义索引位置值。例如:cust_ID、cust_name、total_sales。系列可以从列表、数组、字典创建。

4. 区分数据框和矩阵。

数据框

  • 数据框是共享公共索引的系列的集合。
  • 它可以容纳多个不同数据类型的系列。
  • 例如,员工数据具有 emp_id、emp_name、年龄、性别和部门等各种列。它们分别是具有不同数据类型的系列。

矩阵

  • Numpy 中的矩阵是由多个向量构造的。
  • 它在整个二维结构中只能保存一种数据类型。 

5.解释Pandas Dataframe groupby的使用。

Groupby 允许基于列将行分组在一起,并对这些组合行执行聚合函数。示例:df.groupby(‘salary’).mean()。

6. 说出一些可用于可视化的 Python 库。

Matplotlib 是一个标准的数据可视化库,它对于生成二维图形非常有用。例如:直方图、饼图、条形图、柱形图和散点图。许多库都是建立在Matplotlib之上的,其功能可以在后端使用。此外,它还广泛用于创建可视化的轴和布局。

Seaborn 基于 Matplotlib。它是一个Python数据可视化库。它适用于 Numpy 和 Pandas,并且提供了一个很棒的界面来绘制有吸引力且信息丰富的统计图形。

7.什么是散点图?

它是二维数据可视化,解释了两个不同变量的观察之间的关系。一个将绘制在 x 轴上,另一个将绘制在 y 轴上。

8. regplot()、lmplot() 和 residplot() 之间有什么区别?

  • regplot()用于 绘制数据和拟合线性回归模型为了估计回归模型,存在几种相互排斥的可能性。
  • lmplot() 绘制数据,回归模型适合 FacetGrid  它被设计为一个实用的接口,用于在数据集的条件子集上拟合回归模型,并且计算量更大。lmplot() 结合了 regplot() 和 FacetGrid。
  • residplot() 绘制 X 和 Y 之间的误差,并为其创建线性回归方程。

9. 定义热图。

热图是一种数据可视化,它利用颜色来描述值如何根据其他两个变量的值而变化。例如,您可以使用热图来了解一组城市的气温如何根据一天中的时间变化。

10. 为什么使用Python而不是其他语言?

Python 是一种广泛使用、灵活且通用的编程语言。由于它清晰易学,因此非常适合作为第一语言。它也是任何程序员工具包中都包含的有用语言,因为它可用于从 Web 开发到软件开发再到科学应用程序的所有内容。

11.Python中的枚举函数是什么?

Python enumerate() 向可迭代对象添加一个计数器,并以枚举对象的形式返回它。然后,枚举对象可以直接用于循环或使用该list()方法转换为元组列表

12. 复数绝对值背后的数学原理是什么?

如果z=a+ib,则绝对值计算为sqrt(a^2+b^2)

13. Python 中可用于文本挖掘的顶级库有哪些?

  • 自然语言工具包(NLTK)
  • 根森
  • 核心自然语言处理
  • 斯帕西
  • 文本块
  • 图案
  • PyNLPl

14. Pandas如何用于数据分析?

Pandas 使得使用类似 SQL 的查询来加载、处理和分析此类表格数据变得非常方便。Pandas 提供了多种用于表格数据可视化分析的选项,可与 Matplotlib 和 Seaborn 结合使用。Pandas 中的主要数据结构是通过 Series 和 DataFrame 类实现的。

15. 列出前 5 个 Python 编译器的名称。

  • 皮查姆
  • 崇高的文字
  • 桑尼
  • 视觉工作室代码
  • Jupyter笔记本

16.Python中的关键字是什么?

Python 使用具有特定含义的保留字,称为关键字。它们通常用于指定变量的类型。变量和函数名称不允许包含关键字。下面列出的 33 个关键字都是 Python 中的:

或者 不是 如果 埃利夫
别的 为了 尽管 休息 定义
作为 拉姆达 经过 返回 真的
错误的 尝试 断言 班级
继续 德尔 除了 最后
全球的 进口 没有任何
非本地的 增加 屈服
Python 关键字

数据科学:编码问题

1.用Python编写一个程序来预测输出类型

# Defining the variable 
x = 'z'
print(type(x))

2. 编写一个 python 程序,使用 while 循环打印 13 的表。

i = 0
while i <= 10:
    print(i*13)
    i+=1

3.如何在Python中访问CSV文件?

import csv
 
with open("bwq.csv", 'r') as file:
  csv_reader = csv.reader(file)
  for row in csvreader:
    print(row)
import pandas as pd
data_bwq = pd.read_csv("bwq.csv")
data_bwq

4. 用Python生成随机数。

#generating random numbers between (0,22)
import random
n = random.randint(0,22)
print(n)

5. 检查元素是否按顺序排列。

42 in [2, 39, 42]
 
# Output: True

6. 展示扩展函数和追加函数之间的区别。

  • 追加:将对象追加到末尾。
a = [1, 2, 3]
a.append([4, 5])
print (a)
 
# Output: [1, 2, 3, [4, 5]]
  • 扩展:通过附加可迭代对象中的元素来扩展列表。
a = [1, 2, 3]
a.extend([4, 5])
print (a)
 
# Output: [1, 2, 3, 4, 5]

7. 打印 10 到 100 的所有倍数。

multiples=[]
for i in range(10, 101):
    if i%10==0:
        multiples.append(i)
print(multiples)
 
# Output: [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]

8.修复Python中的ModuleNotFoundError和ImportError。

  • 首先,确保您使用的是绝对导入
  • 二、导出项目根目录到 PYTHONPATH

大多数现代 Python IDE 都会自动执行此操作,但如果情况并非如此,我相信会有这样一个选项,您可以在其中为 PYTHONPATH 您的 Python 应用程序(至少是 PyCharm)定义 。如果您在其他环境(如 Docker、Vagrant)或虚拟环境中运行 Python 应用程序,您可以在 bash 中运行以下命令:

export PYTHONPATH="${PYTHONPATH}:/path/to/your/project/"
# * For Windows
set PYTHONPATH=%PYTHONPATH%;C:\path\to\your\project\

9. 使用Python编写方法来分隔目录中具有特定扩展名(.csv、.txt)的所有文件

  • 方法一
import os
for root, dirs, files in os.walk(directory):
    for file in files:
        if file.endswith(‘.txt’):
            print file
  • 方法2
import os
path = ‘mypath/path’
files = os.listdir(path)
files_txt = [i for i in files if i.endswith(‘.txt’)

结论

以上是数据科学采访中最常见的一些问题。还有很多其他的例子,但 Python 的基础知识是面对数据科学面试的基本要求。文档参考也是更好地了解数据科学领域使用的多个库所需的关键技能之一。