feat:1.编写自由时报爬虫脚本

2.编写数据量统计脚本

feat:1.编写自由时报爬虫脚本
2.编写数据量统计脚本
835fc16a · liyang · 48c53bef · 835fc16a · 835fc16a
Commit 835fc16a authored Aug 01, 2023 by liyang
Hide whitespace changes
Inline Side-by-side

Showing with 8 additions and 4 deletions

pc_ltn.py pc_ltn.py +6 -2

index.py utils/index.py +2 -2

No files found.
--- a/pc_ltn.py
+++ b/pc_ltn.py
@@ -57,7 +57,7 @@ def reptile(browser=None, search_word=""):
    # 循环分页
    for key, element in enumerate(page_list_element):

-        if key > 0 or key <= len(page_list_element) - 1:
+        if key > 0 and key <= len(page_list_element) - 1:
            # 点击分页
            browser.get(f"{url}&page={key+1}")
            # element.click()
@@ -90,7 +90,11 @@ def reptile(browser=None, search_word=""):
                    # 访问地址
                    access_address = f'{get_base_file_url()}{table_name.split("_")[1]}/{local_path_name}/{id}.jpg'
                    # 下载状态
-                    status = download_image(element['src'], download_dir)
+                    if "default" in element['src']:
+                        status = False
+                    else:
+                        status = download_image(element['src'], download_dir)
+
                    if status:
                        # element['src'] = access_address
                        img_tag["src"] = access_address

--- a/utils/index.py
+++ b/utils/index.py
@@ -137,8 +137,8 @@ def parse_ltn_time_string(time_str):
        except ValueError:
            return None
    else:
-        # print(time_str)
-        return datetime.datetime.strptime(time_str, '%Y/%m/%d')
+        dt_object = datetime.datetime.strptime(time_str, '%Y/%m/%d')
+        return dt_object.timestamp()


 # 转换 youtube 的时间