Một cách tiếp cận khoa học dữ liệu để tối ưu hóa cấu trúc liên kết nội bộ

Những khía cạnh nào bạn muốn xem bảo hiểm?

Vui lòng để lại một bình luận ở dưới.

Nhiêu tai nguyên hơn:

Liên kết nội bộ Cấu trúc Thực tiễn tốt nhất để tăng cường SEO của bạn

Làm thế nào để Tìm Cơ hội Liên kết nội bộ

The Complete Guide to On-Page SEO

Các hình ảnh: Shutterstock / Optimarc

Nhập gấu trúc như PD Nhập NUMPY làm NP site_name = 'on24' site_filename = 'on24' Trang web = 'www.on24.com' # Nhập dữ liệu thu thập dữ liệu CRAWL_DATA = PD.READ_CSV ['Dữ liệu /' + site_filename + '_crawl.csv'] CRAWL_DATA.Columns = Crawl_data.columns.str.replace ['', '_'] Crawl_data.columns = thuw_data.columns.str.replace ['.', ''] CRAWL_DATA.Columns = Crawl_data.columns.str.replace ['[', ''] CRAWL_DATA.Columns = Crawl_data.columns.str.replace [']', ''] CRAWL_DATA.Columns = Map [Str.Lower, Crawl_Data.Columns] In [CRaw_data.shape] In [Crawl_data.dtypes] Thu thập dữ liệu_data. [8611, 104] đối tượng URL đối tượng base_url. Thu thập dữ liệu đối tượng đối tượng thu thập dữ liệu_status. đối tượng lưu trữ ... đối tượng redirect_type. đối tượng redirect_url. đối tượng redirect_url_status. đối tượng redirect_url_status_code Chưa đặt tên: _103 float64 Độ dài: 104, Dtype: đối tượng

Andreas Voniatis, tháng 11 năm 2021

Trên đây cho thấy một bản xem trước của dữ liệu được nhập từ ứng dụng Crawler Desktop SiteBulb. Có hơn 8.000 hàng và không phải tất cả chúng đều sẽ dành riêng cho tên miền, vì nó cũng sẽ bao gồm các URL tài nguyên và URL liên kết bên ngoài.

Chúng tôi cũng có hơn 100 cột là không cần thiết cho các yêu cầu, vì vậy một số lựa chọn cột sẽ được yêu cầu.

Trước khi chúng tôi vào đó, tuy nhiên, chúng tôi muốn nhanh chóng xem có bao nhiêu cấp độ trang web:

CRAWL_DEPTH. 0 1. 1 70. 10 5. 11 1. 12 1. 13 2. 14 1. 2 303. 3 378. 4 347. 5 253. 6 194. 7 96. 8 33. 9 19. Không đặt 2351. dtype: int64.

Vì vậy, từ phía trên, chúng ta có thể thấy rằng có 14 cấp độ trang web và hầu hết các mức này không được tìm thấy trong kiến ​​trúc trang web, nhưng trong sơ đồ trang web XML.

Bạn có thể nhận thấy rằng Pandas [gói Python để xử lý dữ liệu] sắp xếp các cấp trang web theo chữ số.

Đó là bởi vì các cấp độ trang web đang ở chuỗi ký tự giai đoạn này trái ngược với số. Điều này sẽ được điều chỉnh trong mã sau, vì nó sẽ ảnh hưởng đến trực quan hóa dữ liệu ['viz'].

Bây giờ, chúng tôi sẽ lọc các hàng và chọn cột.

# Bộ lọc để chuyển hướng và liên kết trực tiếp

redir_live_urls = thuw_data [['url', 'crawl_depth', 'http_status_code', 'Indexable_status', 'no_internal_links_to_url', 'host', ']]] redir_live_urls = redir_live_urls.loc [redir_live_urls.http_status_code.str.startswith [['2'], na = false]] redir_live_urls ['crawl_depth'] = redir_live_urls ['crawl_depth']. astype ['danh mục'] redir_live_urls ['crawl_depth'] = redir_live_urls ['crawl_depth']. Cat.RoOords_cigners [['0', '1', '2', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', 'Không được thiết lập', ]]] redir_live_urls = redir_live_urls.loc [redir_live_urls.host == Website] del redir_live_urls ['host'] In [redir_live_urls.shape] Redir_live_urls. [4055, 6]

Andreas Voniatis, tháng 11 năm 2021

Bằng cách lọc các hàng cho các URL có thể lập trình lại và chọn các cột có liên quan Bây giờ chúng ta có một khung dữ liệu được sắp xếp hợp lý hơn [nghĩ rằng phiên bản Pandas của tab bảng tính].

Khám phá sự phân phối các liên kết nội bộ

Bây giờ chúng tôi đã sẵn sàng để dữ liệu dữ liệu dữ liệu và cảm nhận về cách các liên kết nội bộ được phân phối tổng thể và theo độ sâu trang web.

Từ nhập khẩu plotnine * nhập matplotlib.pyplot như PLT pd.set_option ['display.max_colwidth', none] % matplotlib inline. # Phân phối các liên kết nội bộ đến URL theo cấp độ trang web ove_intlink_dist_plt = [ggplot [redir_live_urls, AES [x = 'no_internal_links_to_url']] + geom_histogram [điền = 'màu xanh', alpha = 0,6, thùng = 7] + LABS [Y = '# Liên kết nội bộ đến URL'] + Theme_Classic [] + Chủ đề [Legend_poseition = 'Không'] ] ove_intlink_dist_plt.

Andreas Voniatis, tháng 11 năm 2021

Từ những điều trên, chúng ta có thể thấy hầu hết các trang không có liên kết, vì vậy hãy cải thiện liên kết nội bộ sẽ là một cơ hội quan trọng để cải thiện SEO tại đây.

Hãy lấy một số số liệu thống kê ở cấp trang web.

CRAWL_DEPTH. 0 1. 1 70. 10 5. 11 1. 12 1. 13 2. 14 1. 2 303. 3 378. 4 347. 5 253. 6 194. 7 96. 8 33. 9 19. Không đặt 2351. dtype: int64.

Bảng trên cho thấy sự phân phối thô của các liên kết nội bộ theo cấp trang web, bao gồm trung bình [trung bình] và trung bình [50% lượng tử].

Đây là cùng với biến thể trong cấp độ trang web [STD cho độ lệch chuẩn], cho chúng ta biết mức độ gần trung bình các trang nằm trong cấp độ trang web; I.E., Phục vụ phân phối liên kết nội bộ như thế nào với mức trung bình.

Chúng tôi có thể phỏng đoán từ trên đó mức trung bình theo cấp độ trang web, ngoại trừ trang chủ [Brawl Depth 0] và các trang cấp độ đầu tiên [độ sâu thu thập chiều 1], dao động từ 0 đến 4 mỗi URL.

Để có một cách tiếp cận hình ảnh hơn:

# Phân phối các liên kết nội bộ đến URL theo cấp độ trang web intlink_dist_plt = [ggplot [redir_live_urls, AES [x = 'Crawl_depth', y = 'no_inernal_links_to_url']] + geom_boxplot [điền = 'màu xanh', alpha = 0,8] + LABS [Y = '# Liên kết nội bộ đến URL', X = 'Cấp trang web'] + Theme_Classic [] + Chủ đề [Legend_poseition = 'Không'] ] intlink_dist_plt.save [filename = 'hình ảnh / 1_intlink_dist_plt.png', Chiều cao = 5, Chiều rộng = 5, Đơn vị = 'trong', DPI = 1000] intlink_dist_plt.

Andreas Voniatis, tháng 11 năm 2021

Cốt truyện trên xác nhận các nhận xét trước đó của chúng tôi rằng trang chủ và các trang được liên kết trực tiếp từ nó nhận được phần chia sẻ của Lion của các liên kết.

Với quy mô như chúng, chúng tôi không có nhiều quan điểm về việc phân phối các cấp thấp hơn. Chúng ta sẽ sửa đổi điều này bằng cách tham gia một logarit của trục y:

# Phân phối các liên kết nội bộ đến URL theo cấp độ trang web từ mizani.formatters nhập dấu comma_format intlink_dist_plt = [ggplot [redir_live_urls, AES [x = 'Crawl_depth', y = 'no_inernal_links_to_url']] + geom_boxplot [điền = 'màu xanh', alpha = 0,8] + LABS [Y = '# Liên kết nội bộ đến URL', X = 'Cấp trang web'] + Scale_Y_LOG10 [nhãn = dấu phẩy_format []] + Theme_Classic [] + Chủ đề [Legend_poseition = 'Không'] ] intlink_dist_plt.save [filename = 'hình ảnh / 1_log_intlink_dist_plt.png', ight = 5, width = 5, enters = 'in', dpi = 1000] intlink_dist_plt.

Andreas Voniatis, tháng 11 năm 2021

Cốt truyện trên xác nhận các nhận xét trước đó của chúng tôi rằng trang chủ và các trang được liên kết trực tiếp từ nó nhận được phần chia sẻ của Lion của các liên kết.

Với quy mô như chúng, chúng tôi không có nhiều quan điểm về việc phân phối các cấp thấp hơn. Chúng ta sẽ sửa đổi điều này bằng cách tham gia một logarit của trục y:

# Phân phối các liên kết nội bộ đến URL theo cấp độ trang web

từ mizani.formatters nhập dấu comma_format

intlink_dist_plt = [ggplot [redir_live_urls, AES [x = 'Crawl_depth', y = 'no_inernal_links_to_url']] + geom_boxplot [điền = 'màu xanh', alpha = 0,8] + LABS [Y = '# Liên kết nội bộ đến URL', X = 'Cấp trang web'] + Scale_Y_LOG10 [nhãn = dấu phẩy_format []] + Theme_Classic [] + Chủ đề [Legend_poseition = 'Không'] ] intlink_dist_plt.save [filename = 'hình ảnh / 1_log_intlink_dist_plt.png', ight = 5, width = 5, enters = 'in', dpi = 1000]

Andreas Voniatis, tháng 11 năm 2021

Cốt truyện trên xác nhận các nhận xét trước đó của chúng tôi rằng trang chủ và các trang được liên kết trực tiếp từ nó nhận được phần chia sẻ của Lion của các liên kết.

Với quy mô như chúng, chúng tôi không có nhiều quan điểm về việc phân phối các cấp thấp hơn. Chúng ta sẽ sửa đổi điều này bằng cách tham gia một logarit của trục y:

# Phân phối các liên kết nội bộ đến URL theo cấp độ trang web

từ mizani.formatters nhập dấu comma_format

intlink_dist_plt = [ggplot [redir_live_urls, AES [x = 'Crawl_depth', y = 'no_inernal_links_to_url']] + geom_boxplot [điền = 'màu xanh', alpha = 0,8] + LABS [Y = '# Liên kết nội bộ đến URL', X = 'Cấp trang web'] + Scale_Y_LOG10 [nhãn = dấu phẩy_format []] + Theme_Classic [] + Chủ đề [Legend_poseition = 'Không'] ]

Andreas Voniatis, tháng 11 năm 2021

Cốt truyện trên xác nhận các nhận xét trước đó của chúng tôi rằng trang chủ và các trang được liên kết trực tiếp từ nó nhận được phần chia sẻ của Lion của các liên kết.

intlink_dist_plt.save [filename = 'hình ảnh / 1_log_intlink_dist_plt.png', ight = 5, width = 5, enters = 'in', dpi = 1000]

intlink_dist_plt. Trên đây cho thấy sự phân phối tương tự của các liên kết với chế độ xem logarit, giúp chúng tôi xác nhận mức độ phân phối trung bình cho các cấp thấp hơn. Điều này dễ dàng hơn nhiều để hình dung. Với sự chênh lệch giữa hai cấp độ trang đầu tiên và trang web còn lại, đây là dấu hiệu của phân phối sai lệch. Do đó, tôi sẽ lấy logarit của các liên kết nội bộ, điều này sẽ giúp bình thường hóa việc phân phối. Bây giờ chúng tôi có số lượng liên kết chuẩn hóa, chúng tôi sẽ hình dung: # Phân phối các liên kết nội bộ đến URL theo cấp độ trang web intlink_dist_plt = [ggplot [redir_live_urls, AES [x = 'crawl_depth', y = 'log_intlinks']] + geom_boxplot [điền = 'màu xanh', alpha = 0,8] +

LABS [Y = '# Đăng nhập Liên kết nội bộ vào URL', X = 'Cấp trang web'] +

# Scale_Y_LOG10 [nhãn = dấu phẩy_format []] +

Theme_Classic [] + Chủ đề [Legend_poseition = 'Không'] ] intlink_dist_plt.

CRaw_depth sd_int_uidx_sum sd_int_uidx_count sd_uidx_prop 0 0 0 0 1 0,000000 1 1 41 70 58.571429 2 2 66 303 21.782178 3 3 110 378 29.100529 4 4 109 347 31.412104 5 5 68 253 26.877470 6 6 63 194 32.474227 7 7 9 96 9.375000 8 8 6 33 18.181818 9 9 6 19 31.578947 10 10 0 5 0,000000 11 11 0 1 0,000000 12 12 0 1 0,000000 13 13 0 2 0,000000 14 14 0 1 0,000000 15 Không đặt 2351 2351 100.000000

Bây giờ chúng ta thấy rằng mặc dù trang web độ sâu trang web 1 trang có số lượng liên kết trung bình trên mỗi URL, vẫn có 41 trang được liên kết dưới.

Để được hình ảnh nhiều hơn:

# vẽ bảng depth_uidx_plt = [ggplot [intlinks_agged, aes [x = 'thuw_depth', y = 'sd_int_uidx_sum']] + geom_bar [stat = 'itemity', fill = 'blue', alpha = 0,8] + LABS [Y = '# Trong URL được liên kết', x = 'Cấp trang web'] + Scale_Y_LOG10 [] + Theme_Classic [] + Chủ đề [Legend_poseition = 'Không'] ] depth_uidx_plt.save [filename = 'hình ảnh / 1_depth_uidx_plt.png', ight = 5, width = 5, allal = 'in', dpi = 1000] depth_uidx_plt.

Andreas Voniatis, tháng 11 năm 2021

Ngoại trừ các URL Sơ đồ trang web XML, việc phân phối các URL được liên kết dưới trông bình thường như được chỉ định bởi hình dạng gần chuông. Hầu hết các URL được liên kết dưới mức ở cấp độ 3 và 4.

Xuất danh sách các URL được liên kết dưới

Bây giờ chúng ta có một sự kìm kẹp trên các URL được liên kết theo cấp độ trang web, chúng ta có thể xuất dữ liệu và đưa ra các giải pháp sáng tạo để thu hẹp khoảng trống trong độ sâu trang web như dưới đây.

# DỮ LIỆU DỮ LIỆU ĐƯỢC THỰC HIỆN BACKLINKS underlinked_urls = redir_live_urls_underidx.loc [redir_live_urls_underidx.sd_int_uidx == 1] oftlinked_urls = ourlinked_urls.sort_values ​​[['Crawl_depth', 'no_iTernal_Links_to_url']] overlinked_urls.to_csv ['xuất / overlinked_urls.csv'] bylinked_urls.

Andreas Voniatis, tháng 11 năm 2021

Ngoại trừ các URL Sơ đồ trang web XML, việc phân phối các URL được liên kết dưới trông bình thường như được chỉ định bởi hình dạng gần chuông. Hầu hết các URL được liên kết dưới mức ở cấp độ 3 và 4.

Xuất danh sách các URL được liên kết dưới

Bây giờ chúng ta có một sự kìm kẹp trên các URL được liên kết theo cấp độ trang web, chúng ta có thể xuất dữ liệu và đưa ra các giải pháp sáng tạo để thu hẹp khoảng trống trong độ sâu trang web như dưới đây.

# DỮ LIỆU DỮ LIỆU ĐƯỢC THỰC HIỆN BACKLINKS

underlinked_urls = redir_live_urls_underidx.loc [redir_live_urls_underidx.sd_int_uidx == 1]

  • oftlinked_urls = ourlinked_urls.sort_values ​​[['Crawl_depth', 'no_iTernal_Links_to_url']]
  • overlinked_urls.to_csv ['xuất / overlinked_urls.csv']
  • bylinked_urls.
  • Các kỹ thuật khoa học dữ liệu khác cho liên kết nội bộ

Chúng tôi đã bao gồm ngắn gọn động lực để cải thiện các liên kết nội bộ của một trang web trước khi khám phá cách các liên kết nội bộ được phân phối trên trang web theo cấp độ trang web.

Sau đó, chúng tôi tiến hành định lượng mức độ của vấn đề liên kết dưới cả về số lượng và trực quan trước khi xuất kết quả cho các khuyến nghị.

Đương nhiên, cấp độ trang web chỉ là một khía cạnh của các liên kết nội bộ có thể được khám phá và phân tích thống kê thống kê.

  • Các khía cạnh khác có thể áp dụng các kỹ thuật khoa học dữ liệu cho các liên kết nội bộ bao gồm và rõ ràng không giới hạn ở:
  • Cơ quan cấp độ trang ngoại trú.
  • Neo văn bản liên quan.

Tìm kiếm ý định.

Tìm kiếm hành trình người dùng.

Video

Chủ Đề