球形汤姆
  • 主页
  • 博客
  • 数据
  • 代码
Categories
All (40)
Golang (1)
Python (5)
实证数据 (1)
开发环境 (2)
数据分析 (8)
数据可视化 (7)
机器学习 (2)
概率与统计 (5)
网站博客 (2)
网络爬虫 (4)
计量分析 (7)

where和mask:Pandas中强大的条件替换工具

where 和 mask 提供类似 if-else 的替换功能,可以方便的在 DataFrame 中处理缺失值和异常值。
2025-05-25
Tom

供应链共同审计的样本处理

供应链共同审计是指供应链上多个企业共享同一审计机构或同一审计资源。由于供应链上下游企业之间存在高度的依赖性和协作需求,选择共享审计可以降低审计成本、提高审计效率。此外,相关研究表明,供应链共同审计在…
2025-01-04
Tom

计算20万个样本的CAR

计算 20 万个事件样本的 CAR,思路是将 20 万个事件样本切分成 1000 个 batch,然后采用多进程并行计算。计算过程使用到了之前博客介绍过的 eventstudy 脚本。完整代码如下:
2024-10-02
Tom

Python中的多进程实现

最近接到一个项目,需要计算大约 20 万个事件的 CAR。这是一个 CPU 密集型的任务,并行计算可以大大提高效率。于是我又重新捡起了进程、线程这些概念😒…
2024-09-13
Tom

Pandas Tips:切分DataFrame

当我们面临一个数据量很大的 DataFrame 时,分而治之是一个很有效的选择,这就涉及到将 DataFrame 进行切分。比如我最近需要对 20 万个样本(保存在一个 DataFrame…
2024-09-12
Tom

Python中的生成器表达式与生成器

生成器表达式(generator expression)是 Python 中的一种简洁方式,用来在迭代时生成数据,而不是一次性将所有结果存储在内存中。它与列表推导式(list…
2024-09-11
Tom

使用Glob模块快速查找文件

在进行数据分析时,常常会遇到需要遍历读取某个文件夹中的文件的情况。以文本分析为例,我们可能需要依次读取文件夹中的所有 txt 文件,并进行相应处理。
2024-09-07
Tom

熵值法的原理及Python实现

介绍熵值法背后的原理,利用熵值法测度综合指标的基本步骤以及熵值法的Python实现。
2024-08-14
Tom

WSL2+OhMyZsh+VSCode开发环境搭建

这篇博客记录在 WSL2 中搭建开发环境,包括 Git、Zsh 配置和 Python 版本管理。
2024-02-05
Tom

一键计算CAR

一个累计异常收益率的计算脚本,支持三因子模型和市场模型,自动导出描述性统计量,绘制 ACCR 。
2024-02-05
Tom

Pandas备忘录

记录数据分析中常用的 Pandas 函数和一些实用技巧。
2024-01-16
Tom

Matplotlib科研绘图案例集合

记录论文写作中常用的 Matplotlib 可视化案例。
2024-01-08
Tom

多变量线性相关性可视化方法

记录多变量线性相关性可视化的方法,以及一个可以返回相关系数和显著性检验结果的自定义函数。
2023-12-31
Tom

独立、均值独立与线性不相关

独立、均值独立与线性不相关之间的区别和联系。
2023-12-29
Tom

Numpy中的random模块详解

使用Numpy中的random模块生成随机数有何优势,Generator类如何使用,以及常用的概率分布的实现方法。
2023-12-23
Tom

Quarto使用笔记

记录使用Quarto建立网站的过程,以及使用Quarto的小技巧。
2023-11-09
Tom

Pygraphviz安装记录

这是一次失败的安装记录。起因是我想试一下 pybaobabdt,而 pybaobabdt 需要安装 Pygraphviz。网上大部分资料都是使用 Christoph Gohlke 提供的 whl…
2023-11-09
Tom

决策树算法

信息量是对信息的度量,其大小与概率有关,概率越小,事件发生带来的信息量越大。因此信息量是概率的减函数,故选择 logp(x_i)^{-1} 来衡量信息量。
2023-10-17
Tom

详解Matplotlib中的figure对象

matplotlib 使用 Artist 对象处理点、线、文字、图片等图像要素在绘图区域上展现的细节问题。Artist 对象可以分为两种类型:一是基础对象,包括点、线、文字、图片等要素;二是容器对象…
2023-10-14
Tom

Pandas Tips: 使用merge实现关系型合并

Pandas 中提供了 merge 函数实现关系型合并。
2023-08-03
Tom

Pandas Tips: 使用query实现优雅的查询

这篇博客介绍 Pandas query 函数的使用。
2023-08-01
Tom

在Pandas中如何实现复杂的筛选和查询

在利用 Pandas 进行数据分析的过程当中,我们常常会碰到需要实现复杂查询或者筛选的场景。
2023-04-11
Tom

手把手教你做事件研究-爬取巨潮资讯公告PDF文件

这篇博客(视频)记录从巨潮资讯爬取相关公告的 PDF 文件。
2023-04-05
Tom

三门问题,直觉究竟去了哪里?

三门问题也被称为蒙提霍尔问题,传言出自于美国的电视游戏节目 Let’s Make a Deal。
2023-03-15
Tom

手把手教你做事件研究-CAR计算与显著性检验

事件研究法基本步骤
2023-02-02
Tom

手把手教你做事件研究-数据清洗Part2

这篇博客(视频)记录区块链技术投资公告效应研究样本的数据清洗过程,主要内容是剔除业绩预告、分红、收购并购、重组以及其他突发事件公告日落在事件窗口期之内样本公司。
2023-02-01
Tom

手把手教你做事件研究-数据清洗Part1

这篇博客(视频)记录区块链技术投资公告效应研究样本的数据清洗过程,主要内容是剔除并非区块链技术投资事件相关公告;剔除 ST…
2023-01-31
Tom

手把手教你做事件研究-公告爬取

这篇博客(视频)记录从巨潮资讯爬取区块链技术投资相关的公告数据。
2023-01-30
Tom

手把手教你做事件研究-导论

这个系列博客以区块链技术投资公告效应分析为例,从巨潮资讯公告数据采集开始,一直到累计异常收益率的显著性检验,保姆级,手把手教你用 Python 实现事件研究法。
2023-01-28
Tom

爬虫踩坑-ConnectionResetError(100504)

在爬巨潮资讯公告数据时遇到报错:
2023-01-27
Tom

在循环中使用else语句

for/else 和 while/else 中的 else 语句后的内容,在循环正常结束时,才会执行。换一句话说,当 for 循环或者 While 循环遇到 break 跳出循环时,else 语句后…
2023-01-15
Tom

爬取新浪财经ESG评级指数

新浪财经的 ESG 评级指数页面分页利用了 JS 进行动态渲染,因为数据量不大,就利用 Selenium 来爬取。
2023-01-13
Tom

Matplotlib常用绘图

import numpy as np
import matplotlib.pyplot as plt
2022-09-15
Tom

Plotting with Pandas

在数据分析过程中,我们常常碰到需要快速绘图的场景。比如,在回归分析前看一下 y 和 x 的散点图。对于这类需求,pandas 提供了一个 pandas.DataFrame.plot 方法可以方便快捷…
2022-05-01
Tom

如何使用 Nikola 搭建个人博客

一直希望搭建一个博客,一方面是希望能有一个地方记录整理自己学过的知识,另一方面也希望能交到一些志同道合的朋友(有人可以讨论真是太棒了!)在各种鼓捣之后,我选择了 Nikola,因为它原生支持…
2022-04-29
Tom

Numpy Notes: Python data analysis

NumPy, short for Numerical Python, has such advantages:
2021-09-20
Tom

Matplotlib绘图工作流

日常工作中经常要用到 matplotlib 来绘图,每次绘图碰到一些细节问题都得谷歌,下次遇到继续谷歌 :) 不知道你是否跟我一样。一方面是自己太懒了,没总结;另一方面,是 matplotlib…
2021-05-22
Tom

从0到1的爬虫教程

这篇文章既是面向像我这种经管类非科班同学的爬虫教程,也是我自己对于爬虫学习的一个总结。
2021-01-08
Tom

Golang学习笔记

这篇博客记录 Golang 的学习笔记。
2020-02-03
Tom

Ubuntu18.04安装与配置

这篇博客记录了 Ubuntu 18.04 的安装、配置与美化过程。
2019-04-19
Tom
No matching items

    Copyright 2024, 球形汤姆

     

    Powered by Quarto!