feat:ins爬虫数据条件过滤优化

0d1ca3e0 · liyang · d801e8b0 · 0d1ca3e0 · 0d1ca3e0 · 0d1ca3e0
Commit 0d1ca3e0 authored Jul 25, 2023 by liyang
6 changed files
--- a/config/settings.py
+++ b/config/settings.py
@@ -9,7 +9,7 @@ def get_base_url():
 def get_base_file_url():
    # return "http://192.168.0.118:8186/"
-    return "/"
+    return "/files/reptile_data/"
 def get_account(name):
    data = {}

--- a/pc_facebook.py
+++ b/pc_facebook.py
@@ -117,7 +117,7 @@ def reptile(browser=None, search_word=""):
                status = download_image(element['src'], download_dir)
                if status:
                    element['src'] = access_address
-                    picture_url.append(access_address)
+                    picture_url.append(download_dir)
        else:
            print("")
        content = soup.prettify()

--- a/pc_instagram.py
+++ b/pc_instagram.py
@@ -122,7 +122,7 @@ def reptile(browser=None, search_word=""):
                img_soup["src"] = access_address
                # print(img_soup.prettify())
                soup.append(img_soup)
-                picture_url.append(access_address)
+                picture_url.append(download_dir)
        content = soup.prettify()
        # 类型

--- a/pc_ptt.py
+++ b/pc_ptt.py
@@ -138,7 +138,7 @@ def reptile(browser=None, search_word=""):
                            status = download_image(element['src'], download_dir)
                            if status:
                                element['src'] = access_address
-                                picture_url.append(access_address)
+                                picture_url.append(download_dir)
                    else:
                        print("")
                    # ---------------- 判断类型 end ----------

--- a/pc_twitter.py
+++ b/pc_twitter.py
@@ -117,7 +117,7 @@ def reptile(browser=None, search_word=""):
                status = download_image(element['src'], download_dir)
                if status:
                    element['src'] = access_address
-                    picture_url.append(access_address)
+                    picture_url.append(download_dir)
        else:
            print("")
        content = soup.prettify()

--- a/pc_youtube.py
+++ b/pc_youtube.py
@@ -47,16 +47,20 @@ def reptile(browser=None, search_word=""):
                releaseTime = str(int(convert_string_to_time(element_time_list[index].text)))
            except:
                releaseTime = str(int(time.time()))
+            video_url = []
+            # 下载地址
+            download_dir = f'{os.path.join(file_dir, f"{id}.mp4")}'
+            # 访问地址
+            access_address = f'{get_base_file_url()}{table_name.split("_")[1]}/{id}.mp4'
            # 下载视频
            state_download = yt_dlp_download(url, 'youtube')
-            log.debug(url)
+            video_url.append(download_dir)
-            file_http_src = f'{base_urr}youtube/{id}.mp4'
            if state_download:
                # 组装数据
                obj = {
                    "title": title,
-                    "content": f"<video controls style='width:100%' src='{file_http_src}'></video>",
+                    "content": f"<video controls style='width:100%' src='{access_address}'></video>",
-                    "videoUrl": file_http_src,
+                    "videoUrl": ",".join(video_url),
                    "link": link,
                    "reptileTime": str(int(time.time())),
                    "type": '视频',