欧美色欧美亚洲高清在线视频-欧美色碰碰碰免费观看长视频-欧美色频-欧美色视频超清在线观看-国产精品免费看久久久-国产精品免费看久久久久

首頁 > 綜合 > 正文

環球快資訊:歷屆奧運會獎牌排行榜排名 數據整理分享

2023-02-28 15:14:10來源:互聯網  

摘 要在制作動態排序動畫之前,我們看一下數據的整理情況:

a、對第1)種大部分數據的情況,先爬取下來,輸出到excel(1);

b、對第2)種小部分數據的情況,也先爬取下來,輸出到另一個excel(2);


【資料圖】

c、對第3)種個別的,還有第31-32屆的數據,算了,別折騰了,手動復制粘貼到excel(3)吧。

d、最后把這3個excel合并到一個excel,進行數據處理吧。

二、數據處理經過1896-2021歷屆奧運會獎牌榜動態排序系列的數據處理(第二篇),我們得到了a數據:

看到這張數據表,還有以下幾點需要調整:

1、合并3個excel數據;

2、標題、年份列順序調整到名次前;

3、'國家'列名修改為'國家/地區';

4、計算獎牌的合計數量;

5、根據年份,計算各國的獎牌合計數排名。

1)合并DataFrame:concat(),合并函數還有merge、join函數,有興趣可以進入以下鏈接進行學習()

df1 = pd.read_excel("./data/Olympic10.xlsx")df2 = pd.read_excel("./data/Olympic11.xlsx")df3 = pd.read_excel("./data/Olympic12.xlsx")df = pd.concat([df1,df2,df3],axis=0,ignore_index=True,sort=True)2)調賬列順序

columns = ['標題','年份','國家','金牌','銀牌','銅牌']df = pd.DataFrame(df, columns=columns)3)列名修改

df.rename(columns={'國家':'國家/地區'},inplace=True)4)計算獎牌合計

df['合計'] = ''df['合計'] = df['金牌'] + df['銀牌'] + df['銅牌']5)按年份,計算各國的獎牌合計數排名

df['排名'] = df.groupby('年份',axis=0)['合計'].rank(method='first',ascending=False)另外,再對數據進行一些微調

df=df.drop_duplicates(subset=['年份', '國家/地區'], keep='first')df.sort_values(["年份","排名"],inplace=True,ascending=True)#將國家/地區列字符串中的空格都去除df['國家/地區'].replace('\s+','',regex=True,inplace=True) 最終獲得我們的完整數據

df.to_excel("./data/Olympic_final.xlsx")完整代碼如下:

import pandas as pddf1 = pd.read_excel("./data/Olympic10.xlsx")df2 = pd.read_excel("./data/Olympic11.xlsx")df3 = pd.read_excel("./data/Olympic12.xlsx")df = pd.concat([df1,df2,df3],axis=0,ignore_index=True,sort=True)columns = ['標題','年份','國家','金牌','銀牌','銅牌']df = pd.DataFrame(df, columns=columns)df.rename(columns={'國家':'國家/地區'},inplace=True)df['合計'] = ''df['合計'] = df['金牌'] + df['銀牌'] + df['銅牌']df.loc[df['年份']==1894,'年份'] = 1900df=df.drop_duplicates(subset=['年份', '國家/地區'], keep='first')df['排名'] = df.groupby('年份',axis=0)['合計'].rank(method='first',ascending=False)df.sort_values(["年份","排名"],inplace=True,ascending=True)#將國家/地區列字符串中的空格都去除df['國家/地區'].replace('\s+','',regex=True,inplace=True) df.to_excel("./data/Olympic_final.xlsx")輸出結果:

三、動態排序經過一系列的數據處理,終于可以驗證下勞動成果了。完整代碼如下:

import pandas as pdimport randomimport matplotlib.pyplot as pltimport matplotlib.ticker as tickerimport matplotlib.animation as animationfrom IPython.display import HTMLimport matplotlibplt.rcParams['font.sans-serif']=['SimHei'] #顯示中文標簽plt.rcParams['axes.unicode_minus']=False #這兩行需要手動設置#防止動漫內存太大,報錯matplotlib.rcParams['animation.embed_limit'] = 2**128def randomcolor(): colorlist = ['1','2','3','4','5','6','7','8','9','A','B','C','D','E','F'] color ='' for i in range(6): color += random.choice(colorlist) return '#'+ colordf = pd.read_excel(./data/Olympic_final.xlsx")#對地區列表進行去重,分類;area_list1 = set(df['國家/地區'])# color_list用于存放隨機生成顏色代碼個數# 因為后面區域個數 要與顏色個數保持一致,這里用了len函數;color_list =[]for i in range(len(area_list1)): str_1 = randomcolor() color_list.append(str_1) str_1 = randomcolor() #area_list轉化為列表area_list_1 = [i for i in area_list1]#colors表示 所在城市:顏色 一一對應字典形式;colors =dict(zip(area_list_1,color_list))# 用plt加理圖表,figsize表示圖標長寬,ax表示標簽fig, ax = plt.subplots(figsize=(15, 8))#dras_barchart生成current_year這一年各城市人口基本情況;def draw_barchart(current_year): #dff對year==current_year的行,以”合計“降序排序,取前十名; dff = df[df['年份'].eq(current_year)].sort_values(by='合計',ascending = True).tail(10) # 所有坐標、標簽清除 ax.clear() #顯示顏色、城市名字 ax.barh(dff['國家/地區'],dff['合計'],color = [colors[x] for x in dff['國家/地區']]) dx = dff['合計'].max()/200 #ax.text(x,y,name,font,va,ha) # x,y表示位置; # name表示顯示文本; # va,ba分別表示水平位置,垂直放置位置; for i ,(value,name) in enumerate(zip(dff['合計'], dff['國家/地區'])): ax.text(value-dx,i,name,size=18,weight=600,ha ='right',va = 'bottom',color='#777777') ax.text(value+dx,i ,f'{value:,.0f}',size = 14,ha = 'left',va ='center') #ax.transAxes表示軸坐標系,(1,0.4)表示放置位置 ax.text(1,0.4,current_year,transform = ax.transAxes,color ='#777777',size = 46,ha ='right',weight=800) ax.text(0,1.06,'Olympic Medals',transform = ax.transAxes,size=12,color='#777777') #set_major_formatter表示刻度尺格式; ax.xaxis.set_major_formatter(ticker.StrMethodFormatter('{x:,.0f}')) ax.xaxis.set_ticks_position('top') ax.tick_params(axis='x',colors='#777777',labelsize=12) ax.set_yticks([]) #margins表示自動縮放余額; ax.margins(0,0.01) # 設置后面的網格 ax.grid(which='major',axis='x',linestyle='-') #刻度線和網格線是在圖標上方還是下方,True為下方 ax.set_axisbelow(True) ax.text(0,1.15,'歷屆奧運會獎牌排行榜', transform=ax.transAxes,size=24,weight=600,ha='left',va='top') ax.text(1,0,'Officetouch制作',transform = ax.transAxes, size=16,color ='#777777',ha = 'right', bbox = dict(facecolor='white',alpha = 0.8,edgecolor='white')) #取消圖表周圍的方框顯示 plt.box(False)#draw_barchart(2008)#將原來的靜態圖拼接成動畫fig, ax = plt.subplots(figsize=(15, 8))animator = animation.FuncAnimation(fig, draw_barchart, frames=df['年份'].drop_duplicates(),interval = 1000)animator.save("./data/Olympic.gif", writer='pillow')輸出結果:

結 語學習需要耐心和時間的投入,初學的時候可能需要投入比較多的時間和精力,但只要有這樣一個過程,你就會脫胎換骨,一點一滴的積累成就自己。

1、數據采集-爬蟲;

1896-2021歷屆奧運會獎牌動態排序動畫(Python數據分析實戰1)

2、數據處理-數據清洗;

1896-2021歷屆奧運會獎牌榜(Python數據處理)

3、數據動態排序。(本篇文章)

因為奧運數據連續性較差,如果我們分析一些連續性強的數據,如各國人口數據,動態排序的效果會好很多。

標簽:

相關閱讀

精彩推薦

相關詞

推薦閱讀

主站蜘蛛池模板: 亚洲大胆美女人体一二三区 | 午夜影湿院| 欧美成人另类人妖 | 真人午夜a一级毛片 | 天天色天天操天天射 | 男女日皮免费视频 | 午夜视频高清在线aaa | 成人影院天天5g天天爽无毒影院 | 在线毛片观看 | 日韩欧美在线第一页 | 欧美爆操 | 久久888| 直接看的黄色网址 | 亚洲欧美日韩在线中文一 | 亚洲国产一区二区三区最新 | 按摩一级片 | 高清国产精品入口麻豆 | 天天看天天射天天碰 | 伦理午夜| 在线观看国产免费高清不卡 | 最新国产福利片在线观看 | 国产成人精品一区二区三在线观看 | 波多野结衣91 | 久久99综合国产精品亚洲首页 | 日日夜夜网站 | 一级做a免费视频观看网站 一男一女下面一进一出性视频 | 亚洲日本精品va中文字幕 | 在线制服丝袜 | 日韩伦理片在线播放 | 日日干夜夜欢 | 久久精品视频免费 | 天天爱天天做天天爽夜夜揉 | 国产精品日本一区二区在线看 | 最近中文字幕2019视频1 | 欧美成人精品一级高清片 | 国产黄色免费观看 | 美女在线观看网站 | 成人在线免费视频播放 | 亚洲天堂久久精品成人 | 亚洲一二四区性毛片1在线 亚洲一二三在线 | 欧美乱理伦另类视频 |